## 關於《巴宰語辭典》
由李壬癸教授與土田滋教授編著,收錄了約2700個詞項,是巴宰-噶哈巫語非常重要的語言資料。
這本辭典的內容前面是巴宰語的文法論述,而從59頁到336頁便是辭典詞彙。
## 關於標記方式
現存有不少用於字典、詞彙的知識表達標記語言,但是我在這之前也沒做過相關的工作,所以也不知道這些現存的標記語言是不適合。但我的想法是我們可以使用自訂格式的 JSON,然後以後整理好可以一併上傳到 Wikidata,或是可以討論怎樣使用 Wikidata 的 Lexema 功能。
## 字典的編排格式
特殊符號 (Some Conventions and Special Symbols)
[ ] 代表不同的方言,[A] 代表愛蘭 (Auran) 方言,而 [K] 代表四庄 (Kaxabu)
方言。
< 衍生自…,例如tuixi‘左手’< ixi‘左’; < A 表示經由同化作用
(assimilation) 而衍生,< M 表示經由換位 (metathesis) 而衍生。
\> 衍生為…,例如古語 *j > z, -t (古南島語演變為巴宰語的z 和 -t)
= 等於,例如tul = tun‘松樹’,hada = nahada‘有’。
\- 非自由式的語根或詞綴,例如adu-, apa-, a-, -an, -aw, -ay, -en, -i 等等。
<> 中綴,例如 <a>‘進行式’,<in>‘完成式’。
~ 或,例如sa- ~ saa-‘工具’(元音長短因語境而異)。
\+ 加,例如mia- + Direction(前綴加表示方向的語根)
! 命令式
/ 字義後加語法功能,如aku 我/主語。
\* 表示假設的形式或不合語法的句子。
這辭典的條目有兩種編排方式
**第一種是將字根或詞素選為條目的,然後將相同字根的變化詞彙、例句編在一起 (lexeme方式)**:
* **詞根-**
* **衍生** 中文釋義 英文釋義
* 例句 例句中文釋義 例句英文釋義
* 例句 例句中文釋義 例句英文釋義
* ... 續
* **衍生** 中文釋義 英文釋義
* 例句 例句中文釋義 例句英文釋義
* 例句 例句中文釋義 例句英文釋義
* ... 續
* ... 續
例如下面的例子

前述的lexeme式的編排規則條目,其實在書中經常有格式不統一的情況,例如下面的 daux- 詞條裡面,"dinauxan 喝的(茶杯)"、"dauxi 喝!" 被歸類在 mudaux 底下,但實際上這三個應該要是同層級的。

如下
* **daux-**
* **mudaux** 喝
* yaku ka mudaux dalum 我喝水 I drink water.
* **dauxi** 喝
* dauxi! 喝! Drink!
* **minudaux** 喝過 to have drink
* **dinauxan** 喝的(茶杯) cup for drinking(Ogawa)
但如果要正確的知道字典條目,可能需要南島語言相關的基礎知識,所以考慮到實施的可行性,或許可以簡化方案,解藕掉這些層級的依賴,標記協助者只需要分辨何者為詞彙、何者為句子就可以了。
```json
[{ // 以字根編排的單條詞目
"root" : "daux", //字根
"dialect" : "p", //方言別,P為巴宰、K為噶哈巫,可空白
"variant" : ["dok"], //語音變體、同個字的不同口音,可空白
"forms" : [ // 不同詞形
{
"text" : "mudaux",
"gloss_en" : "drink",
"gloss_zh" : "喝"
},{
"text" : "dauxi",
"gloss_en" : "drink",
"gloss_zh" : "喝"
},{
"text" : "minudaux",
"gloss_en" : "to have drunk",
"gloss_zh" : "喝過"
},{
"text" : "dinaxuan",
"gloss_en" : "cup for drinking",
"gloss_zh" : "喝的(茶杯)"
},
],
"usages" : [ // 例句用例
{
"text" : "yaku ka mudaux dalum.",
"gloss_en" : "I drink water.",
"gloss_zh" : "我喝水。"
}
]
}]
```
**另一種編排方式是,以單條單字詞目為索引,並標註該條目的字根**
* 單字 (< 字根) 中譯 英譯
如下面的例子

這種格式或許可以寫成
``` json
[{
"word" : "kinataparax", // 詞
"root" : "taparax", // 字根
"dialect" : "", //方言別,P為巴宰、K為噶哈巫,可空白
"variant" : [], //語音變體、同個字的不同口音,可空白
"gloss_zh" : "已拓寬",
"gloss_en" : "have broadened"
}]
```
### 其他標註說明
另外字典也有其他的註記,有 `單字 (= 單字)` 的情況,這表示這兩個字是同個字的不同方言讀音,例如太陽在有的地方讀為 ridax、在有的地方讀為 rizax,字典就會像這樣標註:

而 `[A] [K] [P]` 的註記是用來表示方言別,A、K 為巴宰語、P 為噶哈巫語,其實對應的是 Auran(愛蘭) Kaxabu(噶哈巫) Pazeh(巴宰) 的縮寫,但是因為李壬癸教授的助手團隊當時搞錯了,整本字典的方言標註剛好是相反過來。避免再次混亂,只需要照著上面寫的 A、K 或 P 來寫就可以了,不用修正,以後可以用程式統一對換即可。
