Try   HackMD

十作實作—《教育部臺灣台語常用詞辭典》應用工作坊(台中場)

這份講義文字內容以 CC-BY 4.0 授權開放逐家利用

今仔日的互動烏枋

逐家好 🙋‍♂️,今仔日的這門課會𤆬逐家十个實作活動,沓沓仔𤆬逐家練習 REGEX 正規表達式,閣會共教典的文字資料 táng-lóo 落來用 Google sheet 做處理,共規本教典掀透透,揣出濟濟巷仔內才知影的教典祕密資料,順紲共教典的僻智識講予恁聽。

講者介紹

我是今仔日的講者陳建中,自舊年九月佇面冊開始寫教典僻智識系列文章,目前已經 34 篇文章矣,攏有整理佇教典僻智識系列分類索引,通好揀你有興趣的主題看喔。

經歷

  • 2022 台科大設計系工業設計組畢業
  • 2022-2024 私立衛理女中生活科技兼任老師
  • 2022-2023 公視台語台臺灣新眼界工讀生
  • 2023~ 公視台語台台語新詞辭庫研究員
  • 2023~ 教典僻智識系列文章
  • 2024~ 師大台文所碩士班

聯絡

實作➊:教典改版導覽

1.1 教典三个版本

  • 2008年10月:臺灣學術網路試用版(截圖來源

    Image Not Showing Possible Reasons
    • The image was uploaded to a note which you don't have access to
    • The note which the image was originally uploaded to has been deleted
    Learn More →

  • 2011年7月:臺灣學術網路正式版

    Image Not Showing Possible Reasons
    • The image was uploaded to a note which you don't have access to
    • The note which the image was originally uploaded to has been deleted
    Learn More →

  • 2023年6月:臺灣學術網路第二版(2024年8月26日改名做教育部臺灣台語常用詞辭典)

    Image Not Showing Possible Reasons
    • The image was uploaded to a note which you don't have access to
    • The note which the image was originally uploaded to has been deleted
    Learn More →

新版教典的幾若个重點更新內容

  1. 新收詞彙
  2. 名姓查詢附錄
  3. 介面更新、搜揣體驗簡化、例句搜揣功能
  4. 地名、火車站名、捷運站名更新
  5. 俗諺語增加例句,例句提供發音檔案
  6. REGEX 正規表達式搜揣

1.2 2023/2024新收詞

教典新收詞 Notion

教典最近兩冬攏有增加新收錄的詞,有補充真濟捷講以早煞無收入去的詞,比論講「肉燥飯 bah-sò-pn̄g」、「臺票 Tâi-phiò」,所有這兩冬新收錄的詞我攏有整理佇頂面的 Notion 頁面,歡迎逐家罔參考

1.3 詞目ID—教典相命術

延伸閱讀:教典相命術——揣著你的教典命運詞

重點筆記

  • 教典的詞目攏有一个唯一的 ID,就是詞目網址後壁遐的數字
  • 教典攏總有 27573 个詞目、毋過 ID 上大有編甲 29601 ,中央有閬縫

Image Not Showing Possible Reasons
  • The image was uploaded to a note which you don't have access to
  • The note which the image was originally uploaded to has been deleted
Learn More →

1.4 💁 來練習

揣看覓,家己生日、手機仔號碼後壁4碼、抑是任何對你有意義的數字對應教典啥物條目,佇 Padlet 分享你的人生代表詞。

實作➋:名姓查詢附錄

重點筆記

  • iTaigi 先發起「你的名字」功能,後來教育部正式列計畫,2020 推出「講我的名」
  • 教典是常用詞辭典,毋是大辭典,嘛毋是字典,嘛毋是腔口差研究典,漢字音讀並袂全部攏收錄
  • 名姓查詢附錄以甘字典為基礎補字,加上名姓號名的原理,由許嘉勇先生整理漢字讀音佮排序
  • 2023 「講我的名」合併入去教典附錄
  • 教典僻智識提供表格程式會當批次處理大量名姓音讀

2.1 💁 來練習

分別用 iTaigi 你的名字教典名姓查詢附錄,揣看覓野球 12 強冠軍投手 張奕先生的名,想看覓:

  • 兩爿出來的結果敢相仝?
  • 是按怎會按呢?

先莫偷看參考解說,共你的想法寫佇 Padlet。

參考解說

iTaigi 的結果並無正確,因為 iTaigi 的時代干焦是用教典有收錄的漢字讀音去鬥名姓的讀音。

張奕先生的名應該是 Tiunn I̍k,毋是 Tiunn Ī。

教典定「奕」讀 ī 是用佇「奕牌仔」、「奕棋」的替代用字。「奕」這字的文讀音 i̍k 教典並無收錄。

實作➌:教典搜揣的僻智識

新版教典搜揣使用者體驗改良

以早的教典咧搜揣進前愛先選「精確」抑是「模糊」,若是揀毋著閣愛揤頂一頁重來,揣例句嘛干焦通好用「全文」,閣愛一條一條點入去看。這馬的搜揣體驗誠實是進步足濟
舊教典搜揣體驗錄影

3.1 僻智識①:羅馬字整合

用羅馬字揣例句的時陣,隨在你輸入「臺羅」、「白話字」、「臺羅傳統版」、「數字式臺羅」、「數字式白話字」攏會使,濫做伙揣嘛無問題,就算你寫 ko͘ khut8 che̍h tsing2 嘛揣會著 孤𣮈絕種 koo-khu̍t-tse̍h-tsíng 詞目。

3.2 僻智識➁:連字符號無影響,無法度單獨搜揣

延伸閱讀:教典僻智識23:連字符入門1—「詞」內底的音節連寫
延伸閱讀:教典僻智識23:連字符入門2—「詞組」內底的詞佮詞「基本上」分寫

咧揣羅馬字的時陣連字符號有寫佮無寫是無影響的,無論是輸入 thâu-mn̂g 抑是 thâu mn̂g 攏揣會著 頭毛 thâu-mn̂g。針對詞目佮例句無法度針對連字符號做搜揣,嘛袂使輸入 -- 揣輕聲

3.3 僻智識③:寫 - 會揣著啥?

延伸閱讀:教典僻智識1:巷仔內才知影的外來語詞

有一種其實是例外,就是寫佇漢字欄位的連字符號,干焦外來語詞會佇漢字欄寫羅馬字,就按呢咱會當用 - 揣著所有兩音節以上的外來語詞,嘛會使共藏佇方言差表的外來語詞掠出來,下跤的十一條外來語詞是藏佇方言差表無單獨條目的外來語。

巷仔內才知影的外來語詞
  1. oo-khà-sàng(阿母,外來語附錄收 khà-sàng)
  2. mè-sù(月經)
  3. gat-lá油(臭油、番仔油)
  4. le-khòo-tòo(曲盤)
  5. ji-siá-kuh(吸石)
  6. bu-lá-tsià(奶帕仔,外來語附錄收 bu-là-jià)
  7. ha-sí-khah(出癖)
  8. mí-sooh/mí-soh/bí-sooh(豆醬)
  9. jiá-khuh/jiak-khuh/jiak-kuh/tsiak-kuh(挩鍊仔)
  10. sir-lí-pah/ló-lí仔/su-lí-pah(淺拖仔)
  11. ji-lòo-sià/ji-lò-sià/gi-lòo-sià(自動車)

另外,若是怙例句搜揣功能「用臺灣台語查用例」查 -,會揣著四句內底有包含外來語詞的例句。

3.4 僻智識➃:寫 會揣著啥?

延伸閱讀:教典僻智識11:關係教典俗諺的一寡僻智識

俗諺語的詞目除了「仙人拍鼓有時錯,跤步踏差啥人無?」攏是以句號 做結尾,所以查 就通好揣著多數的俗諺語例句。

另外閣有一个特性,因為羅馬字的句號 . 有 REGEX 的功能,致使查 ah-á-thiann-luî 揣會著「鴨仔聽雷。 ah-á-thiann-luî.」 詞目,查 ah-á-thiann-luî. 顛倒揣無,因為系統會當做你咧用 REGEX 搜揣。這个問題已經寫批共教育部團隊講矣,承辦人有回覆講會加入後日功能更新的評估。

批信內容

image

實作➍:REGEX 正規表達式語法入門

REGEX 紙本講義

啥物是正規表達式(Regular Expression, REGEX)?

REGEX 是一種通好表示「文字的抽象規則」的語法,透過 REGEX 會使表達各種邏輯佮規律。

教典的「用臺灣台語查詞目」欄位會當用正規表達式揣符合規律的漢字佮羅馬字

延伸閱讀:- 正規表達式入門①——基礎概念、按怎揣漢字
延伸閱讀:- 正規表達式入門②——揣羅馬字的撇步

4.1 基礎搜揣語法①

REGEX語法:基礎三符號

  • . 用一个點代表任何符號
  • 上頭前寫 ^ 限制開頭。像 ^阿 通好揣著所有「阿」開頭的詞目
  • 上後壁寫 $ 限制結尾,像 店$ 通好揣著所有以「店」做結尾的詞目
  • 頭尾用 ^$ 箍起來,就通好限制字數,像 ^.$ 通好揣著所有干焦孤一字的詞目

4.1.1 💁 請練習下跤四个題目:

  1. 寫一條 REGEX,予教典列出所有的詞目
  2. 寫一條 REGEX,揣出所有的**「會X得」**詞目,像 會用得 ē-īng-tit會堪得 ē-kham-tit
  3. 寫一條 REGEX,揣出所有以「仔」做結尾的四字詞,像 阿不倒仔 a-put-tó-á愛睏藥仔 ài-khùn-io̍h-á
  4. 寫一條 REGEX,揣出所有以「好」做結尾的三字詞,像 袂拄好 bē-tú-hó無拄好 bô-tú-hó
參考答案
  1. . (所有的符號攏至少有一个符號,所以寫一个點就通好代表任何的詞目,攏總有25281條)
  2. ^會.得$
  3. ^...仔$
  4. ^..好$

4.2 基礎搜揣語法②

REGEX語法:多選一、重複

  • 共幾若个選項包佇中括號[]內底,表示其中任何一个,像 [紅黃青綠藍紫烏白] 會當做一改揣八種色水、 [一二三四五六七八九十] 會當做一改揣十个數字
  • 共符號用小括號 () 箍起來,閣照順序用 \1 \2 表示重複出現。像 ^(.)\1$ 會揣著兩字疊詞, ^(.)(.)\1\2$ 會揣著 ABAB 疊詞

4.2.1 💁請練習下跤四个題目:

  1. 寫一條 REGEX,揣出所有的 ABB 三字疊詞,像 暗漠漠 àm-bo̍k-bo̍k暗趖趖 àm-sô-sô
  2. 寫一條 REGEX,揣出教典所有的 ABBA 四字疊詞,像 省事事省 síng-sū-sū-síng
  3. 寫一條 REGEX,揣出所有頭一字是色水的 ABB 三字疊詞,像 紅記記 âng-kì-kì烏㽎㽎 oo-sìm-sìm
  4. 寫一條 REGEX,揣出所有的第一字佮第三字是數字的四字詞,像 一必一中 it-pit-it-tiòng三不五時 sam-put-gōo-sî
參考答案
  1. ^.(.)\1$ (註:寫 ^.([^a-z])\1$ 會閣較好,後一段會介紹)
  2. (.)(.)\2\1
  3. ^[紅黃青綠藍紫烏白](.)\1$
  4. ^[一二三四五六七八九十].[一二三四五六七八九十].$

4.3 漢字欄佮羅馬字攏會做比對

用 REGEX 搜揣詞目的時陣,漢字佮羅馬字攏會做比對,所以若是咧用 ^(.)\1.$ 揣 ABB 疊詞的時陣,嘛會揣著「烏 oo1」,所以咱閣愛用一寡技巧去避免揣著無相關的物件。

REGEX語法:範圍表示、排除

  • 頭前有講共幾若个選項包佇中括號[]會當表示多選一,毋但會使做一改寫足濟符號,閣會使用 - 描述範圍,像 [a-z] 會使代表任何一个小寫羅馬字母[0-9]會使代表任何一个阿拉伯數字
  • 只要共中括號內底閣加一个^就代表排除,像[^a-z] 會使揣任何一个毋是羅馬字的符號,若是欲揣漢字,咱就會使用這个語法取代其中一个 . 共羅馬字排除

4.3.1 💁請練習下跤个題目:

  1. 寫一條 REGEX,揣出所有的 ABAC 結構四字詞,像 袂食袂睏,搜揣結果愛排除方言差表三峽偏泉腔的 挨 ere1鞋 ere5矮 ere2 等結果
參考答案
  1. ^([^a-z]).\1.$

4.4 數量表示

有一寡符號的數量無確定抑是無固定,咱就需要下跤的語法描述:

REGEX語法:數量表示

  • 佇符號的後壁閣寫一个 ? 會使代表這个符號「有也好無也好」,也就是出現 0 改抑是 1 改
  • 佇符號的後壁閣寫一个 * 代表這个符號「出現幾改攏會使」,也就是出現 0 改抑是以上
  • 佇符號的後壁閣寫一个 +代表這个符號「至少有一改」,也就是出現 1 改抑是以上

4.4.1 💁請練習下跤兩个題目:

  1. 寫一條 REGEX,揣出所有的五字詞,像雞喙變鴨喙,搜揣結果愛包含俗諺語附錄的五字詞,像見笑轉受氣。;搜揣結果愛排除俗諺語附錄的四字詞,像鴨仔聽雷。
  2. 寫一條 REGEX,揣出有包含至少三个數字詞的詞目,字數無限制
  1. ^[^a-zòá]...[^。]$(註:閣有 á-gehòo-bà 愛排除,寫較長咧寫^[^a-z][^a-z][^a-z][^a-z][^。]$ )嘛會使
  2. [一二兩三四五六七八九十].*[一二兩三四五六七八九十].*[一二兩三四五六七八九十]

4.5 💁 應用練習

主題性詞目 REGEX 句法創作

教典的網址通好共你搜揣的結果分享予別人,只要善用 REGEX,就通好揣出一寡有主題性的詞彙列表分享予別人。

紲落來請逐家發揮創意激頭腦,創作一个正規表達式,揣出一寡有主題性的結果,共語法佮網址分享去 padlet!

實作➎:REGEX 揣羅馬字應用

5.1 羅馬字 REGEX 資料的標準化

咧用 REGEX 揣羅馬字的時陣,資料是特別經過標準化的模樣,有下跤三个特性:

  1. 全部攏是小寫
  2. 攏是數字調符
  3. 用空白符號共音節分開,無連字符號

a-î 會標準化變做 a1 i5,下跤閣有一寡例:

臺羅 標準化 REGEX 羅馬字
kan-lo̍k kan1 lok8
a̋i-sat-tsuh ai9 sat4 tsuh4
Bí-kok-thôo-tāu bi2 kok4 thoo5 tau7
Àm-tǹg kiám tsia̍h tsi̍t kháu, ua̍h kah káu-tsa̍p-káu. am3 tng3 kiam2 tsiah8 tsit8 khau2, uah8 kah4 kau2 tsap8 kau2.

5.2 羅馬字音節的組成

羅馬字音節的組成

  • 經過標準化的 REGEX 羅馬字音節組成非常簡單,由毋是空白的符號組成。
  • [^ ] 就代表一个組成羅馬字音節的符號, [^ ]+ 就通好代表一个音節。(至少有一个毋是空白的符號)

5.2.1 💁 請練習下跤的題目:

  1. 用羅馬字的理路,揣出教典所有的四音節詞目。觀察看覓,按呢揣佮輸入 ^[^a-z]...$ 有啥物精差?
參考答案
  1. ^[^ ]+ [^ ]+ [^ ]+ [^ ]+$,按呢揣會使揣著真正是四个音節的詞目、俗諺語,閣揣會著外來語詞「tsioo-kóo-lè-tòo」

5.3 限制聲調、聲母、韻母

限制聲調

  • 聲調攏是寫佇每一个音節上後壁的數字,咱會使真簡單佇 [^ ]+ 後壁閣加一个數字去限制這个音節的聲調,像 [^ ]+2 限制是第二調,[^ ]+[48] 代表是入聲。
  • 若是入聲結尾,閣會使佇數字頭前限制你欲揣 ptkh 佗一種韻尾,像 [^ ]+p[48] 會使限制揣入聲 p 韻尾的音節。

5.3.1 💁 請練習下跤的題目:

  1. 寫一條 REGEX,揣出佮家己名姓仝款聲調的詞
  2. 寫一條 REGEX,揣出所有以入聲h韻尾做結尾的詞
參考答案
  1. 以「陳建中 Tân Kiàn-tiong」做例,就是 ^[^ ]+5 [^ ]+3 [^ ]+1
  2. [^ ]+h[48]$

限制聲母

  • 聲母是每一个音節上頭前的羅馬字,咱會使佇 [^ ]+ 的頭前加上你欲限制的聲母,像 j[^ ]+ 限制聲母是 j。
  • 臺羅有一寡聲母有共用的符號,像 t th ts tsh 上頭前攏是 t,若是欲揣聲母 t ,愛會記得限制後壁袂當接 sh,寫 t[^sh][^ ]+
  • 臺羅超過一个符號的聲母有 khngphthtstsh 六个,愛注意 kptn相關的聲母。

練習:

  1. 寫一條 REGEX,揣出佮「台北 Tâi-pak」兩字仝款聲母的詞目。
  2. 寫一條 REGEX,揣出佮「冬天 tang-thinn」兩字仝款聲母的詞目。
  3. 寫一條 REGEX,揣出佮家己的名仝款聲母的詞目。
參考答案
  1. ^k[^h][^ ]+ h[^ ]+$
  2. ^t[^sh][^ ]+ th[^s][^ ]+$
  3. 以「建中 Kiàn-tiong」做例,就是 ^k[^h][^ ]+ t[^sh][^ ]+$

限制韻母

  • 韻母是每一个音節中央的羅馬字,頭前有聲母,後壁有聲調的數字,咱會使先寫 [^ ]+[1-9] 代表無限制聲調,閣共想欲揣的韻母寫佇中央。像 [^ ]+iang[1-9] 會使限制揣 iang 聲母。
  • 聲母的情形閣較複雜,愛寫閣較濟排除的規則,若是欲揣 a 韻母,就愛排除 ia ua an ian iam iang am 等等,所以愛寫做 [^ ]+[^iu ]a[^nm ][1-9]

練習:

  1. 寫一條 REGEX,揣出所有尾字是 ia 韻母的詞
  2. 寫一條 REGEX,揣出所有佮家己的名仝款韻母的詞
參考答案
  1. ia[^mn ][ptkh]?[1-8]$ (排除 ian iam,閣愛考慮入聲有 ptkh 的狀況)
  2. 以「建中 Kiàn-tiong」做例,就是 ^[^ ]+ian[1-8] [^ ]+iong[1-8]$

5.4 應用練習 💁

創作練習

請利用 REGEX 揣著適合的押韻的詞彙創作七字仔抑是歌詞,抑是一寡趣味的語句,共你的成果分享去 Padlet

參考文章:台語「四句聯、相褒、唸歌」的格律、押韻規則—潘科元

參考文章:全入聲漢文——郭沫若沒出息

郭沫若沒出息,不積極閱讀學習熱力學學術力作,讀碩卻不續讀博。
浙北谷穴賊作,郭躑躅不決,擊敵不力,罰祿失職,實屬屈辱。
食齷齪的垃圾食物卻不食六畜熟肉及綠色麥穀,喝血及蜜卻不喝白色的雪碧。
不服佛法,日日月月極作孽,掠獲鹿鴨鶴雀,直接握鐵戟殺戮,切赤舌,鑿白骨,拔黑髮,斫肉末,確實毒辣刻薄,觸及法律。
宅植苜蓿不植菊,客室角落沒竹沒木亦沒石。
特別渴,悒鬱寂寞得哭,納禿髮妾入屋,熱不沐浴,熄滅蠟燭,急摸席側的雪白玉足。
食色蝕力,弱不敵疾,卻一直覺得不值得吃藥。
一夕,忽卒。
臺羅版本源自複製文圖書館台文翻譯館 Ho̍k tsè bûn tôo su kuán Tâi bûn huan i̍k kuán
Kok bua̍t-lio̍k bu̍t tshut-sik, put tsik-ki̍k ua̍t-tho̍k ha̍k-si̍p jia̍t-li̍k-ha̍k ha̍k-su̍t li̍k-tsok, tho̍k si̍k khiok put sio̍k tho̍k phok.
Tsiat pok kok hia̍t tsi̍k tsok, kok ti̍k-to̍k put kuat, kik ti̍k put li̍k, hua̍t lo̍k sit-tsit, si̍t-siok khut-lio̍k.
si̍t ok-tshok tik lap-sap si̍t-bu̍t khiok put si̍t lio̍k-thiok si̍k-jio̍k ki̍p li̍k-sik bi̍k-kok, hat hiat khiok put hat pi̍k-sik tik suat-phik.
put ho̍k hu̍t-huat, ji̍t-ji̍t gua̍t-gua̍t ki̍k tsok-gia̍t, lio̍k-hi̍k lo̍k ap ho̍k tshiok, ti̍t-tsiap ak thiat kik sat-lio̍k, tshiat tshik-sia̍t, tsho̍k pi̍k-kut, puat hi̍k-huat, tsiok lio̍k-bua̍t, khak-si̍t to̍k-lua̍t khik-po̍k, tshiok-ki̍p huat-lu̍t.
thi̍k si̍t bo̍k-siok put si̍t kiok, khik sik kak-lo̍k bu̍t tiok bu̍t bo̍k i̍k bu̍t si̍k.
ti̍k-pia̍t khat, ip-ut tsi̍k-bo̍k tik khok, la̍p thut-huat tshiap ji̍p ok, jia̍t put bo̍k-io̍k, sik-bia̍t la̍p-tsiok, kip bo̍k si̍k tshik tik suat-pi̍k gio̍k-tsiok.
si̍t sik si̍t li̍k, lio̍k put ti̍k tsi̍t, khiok it-ti̍t kak-tik put ti̍t-tik khit io̍k.
it si̍k, hut tsut.

實作➏:REGEX 搜揣的理路統整

經過足濟練習 REGEX 的過程,是毋是略仔有概念矣?抑是已經舞甲足花足花😵‍💫?
來做伙共 REGEX 搜揣的思考理路畫做心智圖👍

image

image

實作➐:活用教典文字資料

7.1 辭典資料下載

教典>相關資源>辭典資料下載

延伸閱讀:舊教典資料檔(萌典 github)

教典的原始資料才是教典較原始的形態,提遮的資料來分析,會當開發出閣較濟教典網頁無的功能,嘛會使觀察著閣較濟的趣味代。真濟教典的民間延伸專案(萌典、ChhoeTaigi、芋圓台語辭典)攏是對辭典文字資料來的。

辭典資料僻智識

  • 以早教典想欲提原始資料愛寄批共討
  • 萌典團隊有共寫批討著的資料整理過了後共用,公開佇 github,就按呢有共舊教典的資料留--落來,若是欲研究教典資料的變化就通好用遮的資料。
  • 這馬意傳做的新版教典有程式自動產生上新版本的文字資料表格,免閣寫批就通好直接看,而且以早干焦授權文字資料,這馬連音檔都有 CC-BY-ND 3.0 開放授權喔
  • 2024/9/16文字資料下載功能內容有更新,文字資料的詞目佮例句增加一欄「對應音檔檔名」
圖:舊教典版權頁說明

image

圖:9/16 系統維護公告

image

7.2 活用教典 101

只要善用一寡表格函數,就通好予教典文字資料的表格閣較好用,頂面的連結是是經過陳建中加工整理的教典文字資料,所有的「詞目」、「義項」、「例句」、「又唸作」等等的表格攏有共對應的詞目資料囥入去,嘛有教典的網址連結,予逐家看資料會閣較方便。另外閣有增加一寡功能佮資料表格,方便咱揣著特定的詞目佮資料。

請揤「檔案」→「建立副本」khóo-phih 一份到家己的 Google 口座利用,後壁的一寡活動嘛會佇這个表格進行。

7.3 篩選器

篩選器[thai-suán-khì] 是 Google Sheet 真實用的功能,會當建立一个方便篩選資料的介面,會當做排序、設條件揀家己欲愛的資料
image

image

7.4 💁 請綴我做

  • 詞目 工作表共篩選器開開,揀出無仝詞目類型 的詞目
  • 義項 工作表共篩選器開開,揀出無仝 詞性 的義項

7.5 🤔 想看覓

下跤兩个問題請逐家想看覓,共你的想法寫佇 Padlet,先莫偷看參考解說喔!

  • 啥物是「單字不成詞者」?啥物是「近反義詞不單列條目者」?
  • 啥物款的義項,詞性 欄位會無寫留空白?
參考解說
  • 「單字不成詞者」就是這个字袂單獨使用的漢字
  • 「近反義詞不單列條目者」就是這个詞條無單獨列出來的條目,干焦出現佇其他條目的「近義詞」抑是「反義詞」欄位,階級較低,較成是補充性質(補充:以早教典真濟近反義詞不單列條目者無寫羅馬字,這馬有沓沓仔咧補)
  • 通常是「附錄」、「見【~】條目」閣有「詞綴」的義項袂寫詞性

7.6 實用資料表格

7.6.1 音節數、詞性索引資料

共欲揣教典所有的 量詞 抑是 擬態詞 用這个表格會真方便
另外閣有提供照音節數索引的功能,只要你共教典所有的四字熟語攏背起來,逐家的台語攏是「高級班」!

7.6.2 漢字詞目

教典文字資料其實嘛毋是完整的教典資料,內底並無提供漢字的「筆畫」、「部首」、「文/白/俗/替」的屬性,我有寫一个爬蟲程式共遮的資料攏揣出來佇下跤的表格予逐家參考。
(毋過教典的文白音區分標準、俗音佮替代用字的認定有真濟爭議,請逐家罔參考就好)

實作➑:用正規表達式揣例句

教典網頁無允准人用 REGEX 揣例句,毋過用 Google Sheet 的搜揣功能(揤 Ctrl+Shift+H),抑是「活用教典 101」的「例句 REGEX 搜揣」工作表,就通好利用 REGEX 揣例句喔。

8.1 💁 來練習

  1. 用正規表達式,揣著有「連……都……」句型的例句

例:
921彼擺塗牛翻身,幌甲真嚴重,臺北的大樓搖甲倒去。
921 hit pái thôo-gû-huan-sin, hàinn kah tsin giâm-tiōng, liân Tâi-pak ê tuā-lâu to iô kah tókhì.

  1. 用正規表達式,揣著佇句中疊詞連用的例句

例:
伊做著涼勢涼勢,別人來做就無遐熟手!
I tsò tio̍h liâng-sè-liâng-sè, pa̍t-lâng lâi tsò tō bô hiah si̍k-tshiú!

  1. 用正規表達式,揣著例句佇漢字欄濫寫羅馬字的例句

例:
這台oo-tóo-báiia̋n-jín愛拆,你去共我遐的家私頭仔提來。
Tsit tâi oo-tóo-bái ê ia̋n-jín ài thiah, lí khì kā guá hia-ê ke-si-thâu-á the̍hlâi.

  1. 用正規表達式,揣著頭字羅馬字大寫的詞目

例:
二九暝 Jī-káu-mê/Lī-káu-mî
七娘媽 Tshit-niû-má

  1. 用正規表達式,揣著非頭音節羅馬字大寫的詞目

例:
安太歲 an Thài-suè
漳泉濫 Tsiang-Tsuân-lām
王哥柳哥 Ôngko-Lko

  1. 用正規表達式,揣著教典例句當中連續四音節輕聲的例

例:
閣刣看會減淡薄仔無?
Koh thâi khuànn ē kiám--tām-po̍h-á ?
糋的物件較厚油,食一半擺仔是無要緊,若傷捷食對健康會有影響喔!
Tsìnn ê mi̍h-kiānn khah kāu iû, tsia̍h--tsi̍t-puànn-pái-á sī bô iàu-kín, nā siunn tsia̍p tsia̍h tuì kiān-khong ē ū íng-hióngooh!

參考語法
  1. 連……都:連.+都
  2. 疊詞連用:(.)(.)\1\2 (.)(.)(.)\1\2\3 (.)(.)(.)(.)\1\2\3\4
  3. 漢字欄濫羅馬字:[a-zA-Z]
  4. 頭字羅馬字大寫:^[A-Z]
  5. 非頭音節羅馬字大寫:[ -][A-Z]
  6. 連續四音節輕聲:--[^ -]+--?[^ -]+--?[^ -]+--?[^ -]+

實作❾:羅馬字清單、漢字羅馬字對應

羅馬字清單漢字羅馬字對應 兩个工作表是程式自動產生,有整理所有教典的羅馬字音節,閣有漢字羅馬字的對應關係。嘛有列出來源

透過觀察這兩个表,會當揣著真濟你以早毋捌注意過的教典特例,請先綴我操作,做伙來觀察羅馬字清單的機關。

9.1 💁 請綴我做

拍開 羅馬字清單,快速共規个清單巡過,觀察內底明顯毋是臺羅的物件,並討論下跤四个問題,共你的想法寫佇 Padlet:

  1. 出現佇 釋義 的白話字音節 ōe 是啥?
  2. 出現佇 詞彙比較 的日文khá-nah 是啥?
  3. 出現佇 詞彙比較 的漢字像 是啥?
  4. 出現佇 又唸作 的漢字像 是啥?
參考解說
  1. 就是「白話字 Pe̍h-uē-jī」詞目解說內底寫著 「Pe̍h-ōe-jī」的 ōe
  2. 詞彙比較表編號 968 「猜拳」表格的「三峽偏泉腔」毋知是按怎漢字佮羅馬字攏寫「じゃんけん」,致使遮有收錄著,毋過這條是頭前實作➑有講著的祕密資料,一般人佇教典掀袂著
  3. 詞彙比較表有一寡詞有用括號註解一寡資訊,像編號 144 「梳子」的臺中偏漳腔有註明大細支的精差,標「捋仔 lua̍ih-á(小)」佮「柴梳 tshâ-se(大)」。編號 632 有標金門的「錢 tsînn」佮「鐳 lui」差佇「錢的中央愛有空」
  4. 又唸作的漢字請看下跤段落「以早舊教典地名附錄的特殊體例」的詳細解說

9.2 舊教典火車站地名附錄的特殊體例

以早舊教典的真濟附錄攏是獨立的表格,佮一般詞目的格式無啥仝,2023 改版才統一,結果就致使講一寡資料的轉換會出現一寡較歹處理的所在,就會造成特例。

以早的火車頭地號名表格毋是一般詞目的「主音讀/第二優勢腔」+「又唸作」。是像下跤的圖按呢「站名」加上「讀音一」佮「讀音二」,其實原底按呢處理就免去改漢字,就是一个表予人知影華語寫遐的漢字站名的火車頭台語按怎稱呼。(會當對 Web Archieve 看舊教典附錄的格式)

image

「讀音二」內底有真濟資料是舊地名讀音,音節數嘛可能佮讀音一抑是站名會對袂起來,所以 2023 教典改版就共讀音二囥佇「又唸作」,並且佇後壁用括號註明對應的漢字。
image

實作➓:教典祕密資料

10.1 祕密詞彙比較表

教典附錄/方言差/詞彙比較表

教典的詞彙比較表攏總有收錄 1002 的無仝主題的表格,但是並毋是每一條攏有對應的詞目,有一寡干焦有表煞無詞目,下跤的連結是教典附錄頁面的詞彙比較表清單,會當看著表格佮詞目的對應關係,其中詞目欄是空白的部份就是無對應詞目的,一般人揣教典是掀袂著的,一定愛下載辭典文字資料才看會著。

這款無對應詞目的攏總有 47 條,我另外有整理佇下跤的連結:
教典秘密詞彙比較表

image

10.2 近反義詞不單列條目者的又唸作

10.2.1 💁 請綴我做

  • 拍開「又唸作」工作表,利用篩選器共詞目類型是 近反義詞不單列條目者 的又唸作揀出來

關係「近反義詞不單列條目者」的詞目網址僻智識

  • 「近反義詞不單列條目者」其實嘛有家己的網址通好入去,而且有的詞有「又唸作」屬性,平常時仔佇教典是看袂著的,算是教典隱形資料
  • 這个問題我捌寫批和教育部反應過,承辦人員講這是後續擴充事項,遮的詞以後嘛有可能有單獨的詞目
批信內容佮承辦人回批的截圖

image

10.3 近反義詞表格內底的祕密資料

  • 拍開 義項tuì詞目近義 工作表,用篩選器共「詞目」欄的「#NA」揀出來

近反義詞的列表有六个表,分別是 詞目tuì詞目義項tuì詞目義項tuì義項 的近義詞佮反義詞關係,其實表格內底有藏一寡詞目佮義項並無列佇 詞目義項 表格當中。

遮的資料有一寡是 2023/2024 新收詞的近反義詞不單列條目者,其他推測可能是猶咧編輯猶未正式公佈的資料,這个問題已經寫批共團隊反應矣,教育部有講後續會修改。

總結

今仔日的十个實作活動,希望會當予逐家真濟新的想法,只要加觀察規律,斟酌去想教典的規則佮結構,善用表格抑是程式家私就會當發現真濟機關。逐家會當閣進一步想看覓,啥物款的資料是你想欲揣的?會當用啥物家私鬥揣出來?

希望遮的活動予逐家感覺心適,歡迎逐家共你的想法透過下跤的表單共我分享:
表單連結

補遺:一寡你可能閣會有興趣的主題

做一改講我的名

歇寒結束閣欲𤆬新的班,需要做台語的點名單?
用名姓查詢附錄一个一个揣傷費時間,緊用「做一改講我的名」做一改處理好勢

其他字辭典的公開原始資料

毋但是教典,甘字典、台日大辭典佮一寡其他的字辭典的原始資料嘛會當提來處理,多數的這款公開資料攏會用得佇 ChhoeTaigi 字詞資料許揣著。

ChhoeTaigi 找台語:台語字詞資料庫
Kam Jī-tián Chu-liāu-khòo
《台日大辭典》台語譯本資料
國教院臺灣台語語料庫應用檢索系統

電腦台語字有偌長?

咧用佮文字長度相關的功能的時陣,定定會有一寡違反直覺的狀況,像「台」佇多數程式環境當中算是「一个」字,「𠕇」煞會予認定做是「兩个」字,相關的特性佮原理請參考下跤文章解說。

電腦台語字有偌長?-陳建中

教典台華/台台倒反詞

定定聽人講「台語喜歡和華語唱反調,華語熱鬧台語就要講鬧熱,颱風台語就要講風颱……」,你敢會好奇這類的詞教典有收偌濟?這个表格整理所有教典內底的台/華語序顛倒反的詞,閣有台語本身一寡有 AB|BA 閣有 ABC|BCA 關係的詞彙組!
教典倒反詞-Google Sheet

2023/2024 教典新收詞

2023/2024 兩冬教典攏有大更新,攏總新收錄 550 條新的條目,這个 Notion 頁面共這兩冬新收錄的詞攏整理佇遮通好直接看喔。
教典新收詞-Notion

教典詞目詞性/音節數檢索

欲揣教典所有的 量詞 抑是 擬態詞 用這个表格會真方便
另外閣有提供照音節數索引的功能,只要你共教典所有的四字熟語攏背起來,逐家的台語攏是「高級班」!
教典詞目詞性/音節數索引-Google Sheet

教典漢字詞目資料

教典文字資料其實嘛毋是完整的教典資料,內底並無提供漢字的「筆畫」、「部首」、「文/白/俗/替」的屬性,我有寫一个爬蟲程式共遮的資料攏揣出來佇下跤的表格予逐家參考。
(毋過教典的文白音區分其實有真濟烏白標,逐家莫傷相信;閣有俗音佮替代用字的認定嘛有受真濟批評)
教典漢字詞目-Google Sheet