# ChhoeTaigi 找台語:台語字詞資料庫
###### tags: `github-readme`
### 華文簡介
這裡的資料是「台文雞絲麵 Tâibûn Kesimī」計畫的一部份,若你想了解更多,請往這裡:
* 募資計畫:[嘖嘖 × 台文雞絲麵 Tâibûn Kesimī](https://www.zeczec.com/projects/taibun-kesimi)
* 辭典網站:[ChhoeTaigi 找台語](https://chhoe.taigi.info/)
---
## 1. 內容紹介
Chia ê資料是「台文雞絲麵 Tâibûn Kesimī」計畫ê 1部份,若beh koh khah了解,請ùi chia去:
* 募資計畫:[嘖嘖 × 台文雞絲麵 Tâibûn Kesimī](https://www.zeczec.com/projects/taibun-kesimi)
* 辭典網站:[ChhoeTaigi 找台語](https://chhoe.taigi.info/)
## 2. 版權說明
Chia ē無定期來更新字詞ê資料庫,ta̍k ê資料ê詳細說明tī ē-kha。
Beh使用進前請注意,ta̍k-ê字詞資料lóng有無kâng ê授權方式,
使用ê限制請先chim-chiok看!
## 3. 資料庫ê目標:
* 數位化:Kā台語字詞ê文獻、紙本資料數位化,利便資料chhiau-chhōe kap後手運用。
* 標準化:過去文獻資料因為無kâng ê因端致使文字格式無統一,tī chia ē標準化做2套羅馬字。
* 做整合:收集、建立1-ê siōng大siōng完整ê台語字詞資料庫。
* 服務化ê基礎:Chia ê資料ē chiâⁿ做「PhahTaigi」輸入法、「ChhoeTaigi」辭典ê資料來源。
## 4. 資料格式說明
### 4-1. 羅馬字
Chia ê台語字詞資料內底,羅馬字ê部份有整理做下底2款格式:
1. ```白話字```,mā叫```台灣羅馬字```,是頭1套tī台灣有才調完整書寫台語ê文字系統,mā是siōng有文化、歷史、koh有siōng chē文獻ê台語文字,是台語ê正寫法。
2. 另外1款是```中華民國教育部臺灣閩南語羅馬字拼音方案```,下底簡稱```教育部羅馬拼音```,主要是做漢字注音ê路用。
### 4-2. 輸入式kap萬國碼式
2套lóng有萬國碼ê字kap輸入用ê數字調號型式2款,利便使用者直接提去應用、學習。
文字ê部份lóng盡量保留原冊ê用字,利便讀文獻ê時khah好chhiau-chhōe。
### 4-3. 檔案格式
公開ê檔案lóng是用CSV (Comma-Separated Values) ê格式來khiām,ē-sái用Google文件、LibreOffice Calc Spreadsheet、Apple Numbers、Microsoft Office Excel等等軟體直接來phah開檔案。
### 4-4. 補充註解
Chia整理ê字詞資料來源若有重複--ê,kan-na ē保留來源hit份ê資料。
## 5. 資料位置說明:
https://github.com/ChhoeTaigi/ChhoeTaigiDatabase/tree/ChhoeTaigiDatabase/{字詞資料代碼}.csv
{字詞資料代碼}:請參考ta̍k-ê字詞資料ê說明。
../ChhoeTaigiDatabase/
├── ChhoeTaigi_EmbreeTaiengSutian.csv
├── ChhoeTaigi_iTaigiHoataiTuichiautian.csv
├── ChhoeTaigi_KamJitian.csv
├── ChhoeTaigi_KauiokpooTaigiSutian.csv
├── ChhoeTaigi_MaryknollTaiengSutian.csv
├── ChhoeTaigi_TaihoaSoanntengTuichiautian.csv
├── ChhoeTaigi_TaijitToaSutian.csv
├── ChhoeTaigi_TaioanPehoeKichhooGiku.csv
└── ChhoeTaigi_TaioanSitbutMialui.csv
## 6. 字詞數量統計:
Ē-kha開始是ta̍k-ê字詞資料庫ê詳細說明,
以詞庫字詞ê數量來排列,siōng chē--ê排siōng頂koân。
|字詞資料名稱 |字詞數量 |
|----------------|---------------------------------------
|#1: 2002+ 台華線頂對照典|91339
|#2: 1932 台日大辭典(台譯版)|69513
|#3: 1976 Maryknoll台英辭典|55903
|#4: 1973 Embree台英辭典|36800
|#5: 2011+ 教育部台語辭典|24608
|#6: 1913 甘字典|24367
|#7: 2016+ iTaigi華台對照典|19046
|#8: 1956 台灣白話基礎語句|5429
|#9: 1928 台灣植物名彙|1722
|#10: 其他索引資料|無公開
|總共|353511
## 7. 字詞資料個別說明
### #1: 2002+ 台華線頂對照典
#### 字詞資料代號:
ChhoeTaigi_TaihoaSoanntengTuichiautian
#### 資料內容說明:
```
DictWordID: '番號',
PojUnicode: '白話字',
PojUnicodeOthers: '白話字(其他講法)',
PojInput: '白話字輸入',
PojInputOthers: '白話字輸入(其他講法)',
HanLoTaibunPoj: '漢羅台文(白話字)',
KipUnicode: '教育部羅馬拼音',
KipUnicodeOthers: '教育部羅馬拼音(其他講法)',
KipInput: '教育部羅馬拼音輸入',
KipInputOthers: '教育部羅馬拼音輸入(其他講法)',
HanLoTaibunKip: '漢羅台文(教育部羅馬拼音)',
HoaBun: '對應華文',
```
#### 授權說明:
【台文華文線頂辭典】
基礎資料提供:Tēⁿ Liông-úi(鄭良偉)教授
資料增加kap編修:Iûⁿ Ún-giân(楊允言)教授、眾phah字kap校對ê義工
以 姓名標示-Sio-kâng方式分享 4.0 國際 (CC BY-SA 4.0) 授權
https://creativecommons.org/licenses/by-sa/4.0/deed.zh_TW
#### 補充說明:
```
多謝 Iûⁿ Ún-giân(楊允言)教授提供資料,koh同意 ChhoeTaigi 計畫使用kap公開授權。
原始網站:http://ip194097.ntcu.edu.tw/ungian/soannteng/chil/Taihoa.asp
```
### #2: 1932 台日大辭典(台譯版)
#### 字詞資料代號:
ChhoeTaigi_TaijitToaSutian
#### 資料內容說明:
```
DictWordID: '番號',
PojUnicode: '白話字',
PojUnicodeOthers: '白話字(其他講法)',
PojInput: '白話字輸入',
PojInputOthers: '白話字輸入(其他講法)',
HanLoTaibunPoj: '漢羅台文(白話字)',
KaisoehHanLoPoj: '漢羅台文解說(白話字)',
LekuHanLoPoj: '漢羅台文例句(白話字)',
KipUnicode: '教育部羅馬拼音',
KipUnicodeOthers: '教育部羅馬拼音(其他講法)',
KipInput: '教育部羅馬拼音輸入',
KipInputOthers: '教育部羅馬拼音輸入(其他講法)',
HanLoTaibunKip: '漢羅台文(教育部羅馬拼音)',
KaisoehHanLoKip: '漢羅台文解說(教育部羅馬拼音)',
LekuHanLoKip: '漢羅台文例句(教育部羅馬拼音)',
PageNumber: '原冊頁數',
GoanchhehPoochhiongChuliau: '原冊補充資料',
```
#### 授權說明:
【台日大辭典(台文譯本)】
原作者:小川尚義
台文翻譯kap編修:Lîm Chùn-io̍k(林俊育)長老
以 姓名標示-非商業性-Sio-kâng方式分享 3.0 台灣 (CC BY-NC-SA 3.0 TW) 授權
https://creativecommons.org/licenses/by-nc-sa/3.0/tw/
#### 補充說明:
```
多謝 Lîm Chùn-io̍k(林俊育)長老提供資料,koh同意 ChhoeTaigi 計畫使用kap公開授權。
原始網站:http://taigi.fhl.net/dict/
Github:https://github.com/fhl-net/Lim-Chun-iok_2008_Tai-jip-Tua-su-tian
```
### #3: 1976 Maryknoll台英辭典
#### 字詞資料代號:
ChhoeTaigi_MaryknollTaiengSutian
#### 資料內容說明:
```
DictWordID: '番號',
PojUnicode: '白話字',
PojInput: '白話字輸入',
KipUnicode: '教育部羅馬拼音',
KipInput: '教育部羅馬拼音輸入',
HoaBun: '對應華文',
EngBun: '對應英文',
PageNumber: '原冊頁數(暫時無)',
```
#### 授權說明:
【Maryknoll台英辭典】
(The Maryknoll Taiwanese-English Dictionary)
以 姓名標示-非商業性-Sio-kâng方式分享 3.0 台灣 (CC BY-NC-SA 3.0 TW) 授權
https://creativecommons.org/licenses/by-nc-sa/3.0/tw/
#### 補充說明:
```
資料是ùi Maryknoll Language Service Center ê網站khe̍h--ê,照原本ê授權公開。
原始網站:http://www.taiwanesedictionary.org/
```
### #4: 1973 Embree台英辭典
#### 字詞資料代號:
ChhoeTaigi_EmbreeTaiengSutian
#### 資料內容說明:
```
DictWordID: '番號',
PojUnicode: '白話字',
PojInput: '白話字輸入',
KipUnicode: '教育部羅馬拼音',
KipInput: '教育部羅馬拼音輸入',
Abbreviation: '詞類縮寫',
NounClassifier: '單位量詞',
Reduplication: '疊詞',
HoaBun: '對應華文',
EngBun: '對應英文',
Synonym: 'Kāng義詞',
Confer: '參照',
PageNumber: '原冊頁數',
```
#### 授權說明:
【Embree台語辭典】
(A dictionary of Southern Min: based on current usage in Taiwan and checked against the earlier works of Carstairs Douglas, Thomas Barclay, and Ernest Tipson)
作者:Bernard L. M. Embree
以 姓名標示-非商業性-Sio-kâng方式分享 3.0 台灣 (CC BY-NC-SA 3.0 TW) 授權
https://creativecommons.org/licenses/by-nc-sa/3.0/tw/
#### 補充說明:
```
資料是ùi Taiwanese-Corpus ê網站khe̍h--ê,頂koân ê數位化資料是Iûⁿ Ún-giân(楊允言)教授提供--ê。
原始網站:https://github.com/Taiwanese-Corpus/Bernard-L.M.-Embree_1973_A-Dictionary-of-Southern-Min
```
### #5: 2011+ 教育部台語辭典
#### 字詞資料代號:
ChhoeTaigi_KauiokpooTaigiSutian
#### 資料內容說明:
```
DictWordID: '番號',
PojUnicode: '白話字',
PojUnicodeOthers: '白話字(其他講法)',
PojInput: '白話字輸入',
PojInputOthers: '白話字輸入(其他講法)',
KipUnicode: '教育部羅馬拼音',
KipUnicodeOthers: '教育部羅馬拼音(其他講法)',
KipInput: '教育部羅馬拼音輸入',
KipInputOthers: '教育部羅馬拼音輸入(其他講法)',
HanLoTaibunPoj: '漢字台文',
KipDictHanjiTaibunOthers: '漢字台文(其他寫法)',
KipDictWordProperty: '字詞屬性',
HoaBun: '對應華文',
KaisoehHanLoPoj: '華文解說、詞性,台文例詞、例句(白話字)',
KaisoehHanLoKip: '華文解說、詞性,台文例詞、例句(教育部羅馬拼音)',
KipDictDialects: '無kāng所在ê講法(教育部羅馬拼音)',
Synonym: 'Kāng義詞',
Opposite: '反義詞',
```
#### 授權說明:
【教育部台語辭典】
(教育部臺灣閩南語常用詞辭典)
以 姓名標示-禁止改作 3.0 台灣 (CC BY-ND 3.0 TW) 授權
https://creativecommons.org/licenses/by-nd/3.0/tw/
#### 補充說明:
```
資料是中華民國教育部提供--ê,照原本ê授權公開。
原始網站:http://twblg.dict.edu.tw/holodict_new/index.html
```
### #6: 1913 甘字典
#### 字詞資料代號:
ChhoeTaigi_KamJitian
#### 資料內容說明:
```
DictWordID: '番號',
PojUnicode: '白話字',
PojInput: '白話字輸入',
HanLoTaibunPoj: '漢字台文',
HanbunImPojUnicode: '漢字文讀音(白話字)',
HanbunImPojInput: '漢字文讀音(白話字輸入)',
KaisoehPoj: '台文解說(白話字)',
KaisoehHanLoPoj: '漢羅台文解說(白話字)',
KipUnicode: '教育部羅馬拼音',
KipInput: '教育部羅馬拼音輸入',
HanbunImKipUnicode: '漢字文讀音(教育部羅馬拼音)',
HanbunImKipInput: '漢字文讀音(教育部羅馬拼音輸入)',
KaisoehKip: '台文解說(教育部羅馬拼音)',
PageNumber: '原冊頁數',
```
#### 授權說明:
【甘字典】
(廈門音新字典)
原作者:William Campbell / Kam Ûi-lîm(甘為霖)牧師
編修:Lîm Chùn-io̍k(林俊育)長老
以 姓名標示-非商業性-Sio-kâng方式分享 3.0 台灣 (CC BY-NC-SA 3.0 TW) 授權
https://creativecommons.org/licenses/by-nc-sa/3.0/tw/
#### 補充說明:
```
多謝 Lîm Chùn-io̍k(林俊育)長老提供資料,koh同意 ChhoeTaigi 計畫使用kap公開授權。
原始網站:http://taigi.fhl.net/dick/
Github:https://github.com/fhl-net/Kam-Ui-lim_1913_Kam-Ji-tian
```
### #7: 2016+ iTaigi華台對照典
#### 字詞資料代號:
ChhoeTaigi_iTaigiHoataiTuichiautian
#### 資料內容說明:
```
DictWordID: '番號',
PojUnicode: '白話字',
PojInput: '白話字輸入',
KipUnicode: '教育部羅馬拼音',
KipInput: '教育部羅馬拼音輸入',
HanLoTaibunPoj: '漢羅台文(白話字)',
HanLoTaibunKip: '漢羅台文(教育部羅馬拼音)',
HoaBun: '對應華文',
DataProvidedBy: '資料來源',
```
#### 授權說明:
【iTaigi華台辭典】
(iTaigi)
以「公眾領域貢獻宣告」(CC0)授權
http://creativecommons.tw/cc0
#### 補充說明:
```
資料是iTaigi團隊提供--ê。
原始網站:https://itaigi.tw/
```
### #8: 1956 台灣白話基礎語句
#### 字詞資料代號:
ChhoeTaigi_TaioanPehoeKichhooGiku
#### 資料內容說明:
```
DictWordID: '番號',
PojUnicode: '白話字',
PojUnicodeOthers: '白話字(其他講法)',
PojInput: '白話字輸入',
PojInputOthers: '白話字輸入(其他講法)',
KipUnicode: '教育部羅馬拼音',
KipUnicodeOthers: '教育部羅馬拼音(其他講法)',
KipInput: '教育部羅馬拼音輸入',
KipInputOthers: '教育部羅馬拼音輸入(其他講法)',
HoaBun: '對應華文',
EngBun: '對應英文',
KaisoehEngbun: '英文說明',
NounClassifier: '單位量詞',
LesuPoj: '例詞',
Opposite: '反義詞',
LekuPoj: '例句(白話字)',
LekuEngbun: '例句(英文)',
LekuHoabun: '例句(華文)',
Confer: '參照',
PageNumber: '原冊頁數',
```
#### 授權說明:
【台灣白話基礎語句】
(A Basic Vocabulary for a Beginner in Taiwanese)
原作者:Ko Chek-hoàn(高積煥)、Tân Pang-tìn(陳邦鎮)
數位化kap編修:Lîm Bûn-cheng、Tēⁿ Tì-têng、Tân Kim-hoa、Chiúⁿ Ji̍t-êng
以 姓名標示-Sio-kâng方式分享 4.0 國際 (CC BY-SA 4.0) 授權
https://creativecommons.org/licenses/by-sa/4.0/deed.zh_TW
#### 補充說明:
```
資料是ùi台語文記憶網站khe̍h--ê。
原始網站:http://ip194097.ntcu.edu.tw/memory/TGB/thak.asp?id=862
```
### #9: 1928 台灣植物名彙
#### 字詞資料代號:
ChhoeTaigi_TaioanSitbutMialui
#### 資料內容說明:
```
DictWordID: '番號',
PojUnicode: '白話字',
PojUnicodeOthers: '白話字(其他講法)',
PojInput: '白話字輸入',
PojInputOthers: '白話字輸入(其他講法)',
HanLoTaibunPoj: '漢羅台文(白話字)',
KaisoehHanLoPoj: '漢羅台文解說(白話字)',
LekuHanLoPoj: '漢羅台文例句(白話字)',
KipUnicode: '教育部羅馬拼音',
KipUnicodeOthers: '教育部羅馬拼音(其他講法)',
KipInput: '教育部羅馬拼音輸入',
KipInputOthers: '教育部羅馬拼音輸入(其他講法)',
HanLoTaibunKip: '漢羅台文(教育部羅馬拼音)',
KaisoehHanLoKip: '漢羅台文解說(教育部羅馬拼音)',
LekuHanLoKip: '漢羅台文例句(教育部羅馬拼音)',
PageNumber: '原冊頁數',
GoanchhehPoochhiongChuliau: '原冊補充資料',
```
#### 授權說明:
【台灣植物名彙】
原作者:佐佐木舜一
數位化kap編修:Lîm Bûn-cheng、Tēⁿ Tì-têng、Tân Kim-hoa、Chiúⁿ Ji̍t-êng
以 姓名標示-Sio-kâng方式分享 4.0 國際 (CC BY-SA 4.0) 授權
https://creativecommons.org/licenses/by-sa/4.0/deed.zh_TW
#### 補充說明:
```
資料是ùi台語文記憶網站khe̍h--ê。
原始網站:http://ip194097.ntcu.edu.tw/memory/TGB/thak.asp?id=59
```
## 8. 聯絡
Nā有任何問題kap建議,請寫批來:
taibunkesimi@gmail.com
真多謝!