# 十作實作—《教育部臺灣台語常用詞辭典》應用工作坊(高雄場) :::info 這份講義文字內容以 [CC-BY 4.0](https://creativecommons.org/licenses/by/4.0/) 授權開放逐家利用 ::: [補充資料:REGEX心智圖](https://drive.google.com/drive/folders/1yaAAj2uirU0n42gfOgVWXoVqzC4_RuYf?usp=sharing) [今仔日的互動白枋](https://padlet.com/kiantiong7235_/padlet-ho6vljpb7cabzyk) 逐家好 🙋‍♂️,今仔日的這門課會𤆬逐家**十个實作活動**,沓沓仔𤆬逐家練習 REGEX 正規表達式,閣會共教典的文字資料 táng-lóo 落來用 Google sheet 做處理,共規本教典掀透透,揣出濟濟巷仔內才知影的教典祕密資料,順紲共教典的僻智識講予恁聽。 我是今仔日的講者陳建中,自舊年九月佇面冊開始寫教典僻智識系列文章,目前已經 34 篇文章矣,攏有整理佇[教典僻智識系列分類索引](https://hackmd.io/@Q07_QXJ3TiO7QjkHkyOexA/B1boWP9r0),通好揀你有興趣的主題看喔。 ## 實作➊:教典改版導覽 ### 教典三个版本 - 2008年10月:臺灣學術網路試用版([截圖來源](https://www.mobile01.com/topicdetail.php?f=395&t=2195328&p=2)) ![image](https://hackmd.io/_uploads/Hk--XX_mJg.png) - 2011年7月:臺灣學術網路正式版 ![image](https://hackmd.io/_uploads/HJucQmdmkl.png) - 2023年6月:臺灣學術網路第二版(2024年8月26日改名做教育部臺灣台語常用詞辭典) ![image](https://hackmd.io/_uploads/rkaEE7uQkl.png) >[!Important]新版教典的幾若个重點更新內容 > 1. 新收詞彙 > 2. 名姓查詢附錄 > 3. 介面更新、搜揣體驗簡化、例句搜揣功能 > 4. 地名、火車站名、捷運站名更新 > 5. 俗諺語增加例句,例句提供發音檔案 > 6. REGEX 正規表達式搜揣 ### 2023/2024新收詞 [教典新收詞 Notion](https://kiantiong.notion.site/9a9ea381ad024ee398e35e3b68d53811?v=162b14daa27d463eab6d1fe68868cc1f&pvs=74) 教典最近兩冬攏有增加新收錄的詞,有補充真濟捷講以早煞無收入去的詞,比論講「肉燥飯 bah-sò-pn̄g」、「臺票 Tâi-phiò」,所有這兩冬新收錄的詞我攏有整理佇頂面的 Notion 頁面,歡迎逐家罔參考 ### 詞目ID—教典相命術 > 延伸閱讀:[教典相命術——揣著你的教典命運詞](https://www.facebook.com/kiantiong7235/posts/pfbid02vGvknRVGDgWx7B4fYWdDsSVEQcYtAAyj8rCS2pTcLRSCKMjcLaGgTunW2uHUnE4Bl) >[!Note]重點筆記 > - 教典的詞目攏有一个唯一的 ID,就是詞目網址後壁遐的數字 > - 教典攏總有 `27573` 个詞目、毋過 ID 上大有編甲 `29601` ,中央有閬縫 ![image](https://hackmd.io/_uploads/rkSBTxDC0.png) ### 💁 來練習 揣看覓,家己生日、手機仔號碼後壁4碼、抑是任何對你有意義的數字對應教典啥物條目,佇 Padlet 分享你的人生代表詞。 ## 實作➋:名姓查詢附錄 >- [名姓查詢附錄](https://sutian.moe.edu.tw/und-hani/%E9%99%84%E9%8C%84/miasenn/) >- 延伸閱讀:[名姓查詢附錄發展過程 by 林佳怡](https://www.facebook.com/liz462/posts/pfbid0LuZrY8AgTpzmuUhXkyUAn6jxTb5zMctxCgwe2rcxdKGgxYT5D1Ad57K9EuXtB3uBl) >- 延伸閱讀:[實用工具——做一改講我的名(大量名姓讀音做一改查詢)](https://www.facebook.com/kiantiong7235/posts/pfbid0ydyfwcLuiVAErqURaxJTG6GVZRprxTxK5TgfaKy7FBhk8mKW8wT1rBJTrJB1Vx2Hl) >[!Note]重點筆記 > - iTaigi 先發起「你的名字」功能,後來教育部正式列計畫,2020 推出「講我的名」 > - 教典是**常用詞辭典**,毋是**大辭典**,嘛毋是**字典**,嘛毋是**腔口差研究典**,漢字音讀並袂全部攏收錄 > - 名姓查詢附錄以[甘字典](https://taigi.fhl.net/dick/)為基礎補字,加上名姓號名的原理,由許嘉勇先生整理漢字讀音佮排序 > - 2023 「講我的名」合併入去教典附錄 > - 教典僻智識提供表格程式會當批次處理大量名姓音讀 ### 💁 來練習 分別用 [iTaigi 你的名字](https://itaigi.tw/name) 佮 [教典名姓查詢附錄](https://sutian.moe.edu.tw/und-hani/%E9%99%84%E9%8C%84/miasenn/),揣看覓野球 12 強冠軍投手 **張奕**先生的名,想看覓: - 兩爿出來的結果敢相仝? - 是按怎會按呢? 先莫偷看參考解說,共你的想法寫佇 Padlet。 :::spoiler 參考解說 iTaigi 的結果並無正確,因為 iTaigi 的時代干焦是用教典有收錄的漢字讀音去鬥名姓的讀音。 **張奕**先生的名應該是 Tiunn I̍k,毋是 Tiunn Ī。 教典定「奕」讀 ī 是用佇「奕牌仔」、「奕棋」的替代用字。「奕」這字的文讀音 i̍k 教典並無收錄。 ::: ## 實作➌:教典搜揣的僻智識 >[!Note] 新版教典搜揣使用者體驗改良 >以早的教典咧搜揣進前愛先選「精確」抑是「模糊」,若是揀毋著閣愛揤頂一頁重來,揣例句嘛干焦通好用「全文」,閣愛一條一條點入去看。這馬的搜揣體驗誠實是進步足濟 [舊教典搜揣](https://jumpshare.com/v/5D28sg3CBXeIIjNVSvwA?b=DsTuGoHnoxbUbtXKprth) ### 僻智識①:羅馬字整合 用羅馬字揣例句的時陣,隨在你輸入「臺羅」、「白話字」、「臺羅傳統版」、「數字式臺羅」、「數字式白話字」攏會使,濫做伙揣嘛無問題,就算你寫 [ko͘ khut8 che̍h tsing2](https://sutian.moe.edu.tw/und-hani/tshiau/?lui=tai_su&tsha=ko%CD%98+khut8+che%CC%8Dh+tsing2) 嘛揣會著 `孤𣮈絕種 koo-khu̍t-tse̍h-tsíng` 詞目。 ### 僻智識➁:連字符號無影響,無法度單獨搜揣 >延伸閱讀:[教典僻智識23:連字符入門1—「詞」內底的音節連寫](https://www.facebook.com/kiantiong7235/posts/pfbid0nNLzSFGisqjZwHrjXXyJZXm2fDkkAs1VYfkje2u6XXspoYVVdZ2RE17rguoFZkEl) >延伸閱讀:[教典僻智識23:連字符入門2—「詞組」內底的詞佮詞「基本上」分寫](https://www.facebook.com/kiantiong7235/posts/pfbid0eR3xtaFjzWxc3ZUWYsu7EHP8xPSr8rfnY7Punq63tG5GE6EsBCh3M5ZeJuT4sm1Ql) 咧揣羅馬字的時陣連字符號有寫佮無寫是無影響的,無論是輸入 `thâu-mn̂g` 抑是 `thâu mn̂g` 攏揣會著 `頭毛 thâu-mn̂g`。針對詞目佮例句無法度針對連字符號做搜揣,嘛袂使輸入 `--` 揣輕聲 ### 僻智識③:寫 `-` 會揣著啥? >延伸閱讀:[教典僻智識1:巷仔內才知影的外來語詞](https://www.facebook.com/kiantiong7235/posts/pfbid07T5dMus9L65Fq21RC5cRcdQJ5ExwfToNH1Jo94uHmduL7KUhhri2F8MPGaj27UWSl) 有一種其實是例外,就是**寫佇漢字欄位的連字符號**,干焦外來語詞會佇漢字欄寫羅馬字,就按呢咱**會當用 `-` 揣著所有兩音節以上的外來語詞**,嘛會使共藏佇方言差表的外來語詞掠出來,下跤的十一條外來語詞是藏佇方言差表無單獨條目的外來語。 :::spoiler 巷仔內才知影的外來語詞 1. oo-khà-sàng(阿母,外來語附錄收 khà-sàng) 2. mè-sù(月經) 3. gat-lá油(臭油、番仔油) 4. le-khòo-tòo(曲盤) 5. ji-siá-kuh(吸石) 6. bu-lá-tsià(奶帕仔,外來語附錄收 bu-là-jià) 7. ha-sí-khah(出癖) 8. mí-sooh/mí-soh/bí-sooh(豆醬) 9. jiá-khuh/jiak-khuh/jiak-kuh/tsiak-kuh(挩鍊仔) 10. sir-lí-pah/ló-lí仔/su-lí-pah(淺拖仔) 11. ji-lòo-sià/ji-lò-sià/gi-lòo-sià(自動車) ::: 另外,若是怙例句搜揣功能「用臺灣台語查用例」查 `-`,會揣著四句內底有包含外來語詞的例句。 ### 僻智識➃:寫 `。` 會揣著啥? >延伸閱讀:[教典僻智識11:關係教典俗諺的一寡僻智識](https://www.facebook.com/kiantiong7235/posts/pfbid0249D3cPfpNw6JL1JaUth6671UiVWkawnTHAdumNqNP6WVBGDfmSaZRENU1FPHfYTwl) 俗諺語的詞目除了「[仙人拍鼓有時錯,跤步踏差啥人無?](https://sutian.moe.edu.tw/und-hani/su/26963/)」攏是以句號 `。` 做結尾,所以查 `。` 就通好揣著多數的俗諺語例句。 另外閣有一个特性,因為羅馬字的句號 `.` 有 REGEX 的功能,致使查 `ah-á-thiann-luî` 揣會著「鴨仔聽雷。 ah-á-thiann-luî.」 詞目,查 `ah-á-thiann-luî.` 顛倒揣無,因為系統會當做你咧用 REGEX 搜揣。這个問題已經寫批共教育部團隊講矣,承辦人有回覆講會加入後日功能更新的評估。 :::spoiler 批信內容 ![image](https://hackmd.io/_uploads/HyzPzNx41l.png) ::: ## 實作➍:REGEX 正規表達式語法入門 [REGEX 紙本講義](https://drive.google.com/file/d/1WJvQp31lc5NWysDZfvfSQYH2uIe3gS9d/view?usp=sharing) >[!Note] 啥物是正規表達式(Regular Expression, REGEX)? >REGEX 是一種通好表示「**文字的抽象規則**」的語法,透過 REGEX 會使表達各種邏輯佮規律。 > >教典的「用臺灣台語查詞目」欄位會當用正規表達式**揣符合規律的漢字佮羅馬字** >延伸閱讀:- [正規表達式入門①——基礎概念、按怎揣漢字](https://www.facebook.com/kiantiong7235/posts/pfbid02CkJH2aos2XJAE4j9Qjjp5UBfqEKV3YgLeooKJZJNHoNF954tYghognTtz4nS155yl) >延伸閱讀:- [正規表達式入門②——揣羅馬字的撇步](https://www.facebook.com/kiantiong7235/posts/pfbid02pK4PSaF252jR1v6vWSGBMT6dZfeJbgGQNTRcG2EQpLFaJocrJACz7y5AXPeB5wEfl) ### 基礎搜揣語法① >[!Note]REGEX語法:基礎三符號 > - `.` 用一个點代表**任何符號** > - 上頭前寫 `^` 限制開頭。像 `^阿` 通好揣著所有「阿」開頭的詞目 > - 上後壁寫 `$` 限制結尾,像 `店$` 通好揣著所有以「店」做結尾的詞目 > - 頭尾用 `^` 佮 `$` 箍起來,就通好限制字數,像 `^.$` 通好揣著所有干焦孤一字的詞目 #### 💁 請練習下跤四个題目: 1. 寫一條 REGEX,予教典列出**所有的詞目** 2. 寫一條 REGEX,揣出所有的**「會X得」**詞目,像 `會用得 ē-īng-tit`、`會堪得 ē-kham-tit` 3. 寫一條 REGEX,揣出所有**以「仔」做結尾的四字詞**,像 `阿不倒仔 a-put-tó-á`、`愛睏藥仔 ài-khùn-io̍h-á` 4. 寫一條 REGEX,揣出所有**以「好」做結尾的三字詞**,像 `袂拄好 bē-tú-hó`、`無拄好 bô-tú-hó` :::spoiler 參考答案 1. `.` (所有的符號攏**至少有一个符號**,所以寫一个點就通好代表任何的詞目,攏總有25281條) 2. `^會.得$` 3. `^...仔$` 4. `^..好$` ::: ### 基礎搜揣語法② >[!Note]REGEX語法:多選一、重複 > - 共幾若个選項包佇中括號`[]`內底,表示其中任何一个,像 `[紅黃青綠藍紫烏白]` 會當做一改揣八種色水 > - 共符號用小括號 `()` 箍起來,閣照順序用 `\1` `\2` 表示重複出現。像 `^(.)\1$` 會揣著兩字疊詞, `^(.)(.)\1\2$` 會揣著 ABAB 疊詞 #### 💁請練習下跤四个題目: 1. 寫一條 REGEX,揣出所有的第一字佮第三字是數字的四字詞,像 `一必一中 it-pit-it-tiòng`、`三不五時 sam-put-gōo-sî` 2. 寫一條 REGEX,揣出所有的 ABB 三字疊詞,像 `暗漠漠 àm-bo̍k-bo̍k`、`暗趖趖 àm-sô-sô` 3. 寫一條 REGEX,揣出所有頭一字是色水的 ABB 三字疊詞,像 `紅記記 âng-kì-kì`、`烏㽎㽎 oo-sìm-sìm` 4. 寫一條 REGEX,揣出教典所有的 ABBA 四字疊詞,像 `省事事省 síng-sū-sū-síng` :::spoiler 參考答案 1. `^[一二三四五六七八九].[一二三四五六七八九].$` 2. `^(.)\1.$` (註:寫 `^([^a-z])\1.$` 會閣較好,後一段會介紹) 3. `^[紅黃青綠藍紫烏白](.)\1$` 4. `(.)(.)\2\1` ::: ### 漢字欄佮羅馬字攏會做比對 用 REGEX 搜揣詞目的時陣,漢字佮羅馬字攏會做比對,所以若是咧用 `^(.)\1.$` 揣 ABB 疊詞的時陣,嘛會揣著「烏 **oo1**」,所以咱閣愛用一寡技巧去避免揣著無相關的物件。 >[!Note]REGEX語法:範圍表示、排除 > - 頭前有講共幾若个選項包佇中括號`[]`會當表示多選一,毋但會使做一改寫足濟符號,閣會使用 `-` 描述範圍,像 `[a-z]` 會使代表**任何一个小寫羅馬字母**,`[0-9]`會使代表**任何一个阿拉伯數字** > - 只要共中括號內底閣加一个`^`就代表**排除**,像`[^a-z]` 會使揣**任何一个毋是羅馬字的符號**,若是欲揣漢字,咱就會使用這个語法取代其中一个 `.` 共羅馬字排除 #### 💁請練習下跤个題目: 1. 寫一條 REGEX,揣出**所有的 ABAC 結構四字詞**,像 `袂食袂睏`,搜揣結果愛排除方言差表三峽偏泉腔的 `挨 ere1`、`鞋 ere5`、`矮 ere2` 等結果 :::spoiler 參考答案 1. `^([^a-z]).\1.$` ::: ### 數量表示 有一寡符號的數量無確定抑是無固定,咱就需要下跤的語法描述: >[!Note]REGEX語法:數量表示 > - 佇符號的後壁閣寫一个 `?` 會使代表這个符號「有也好無也好」,也就是**出現 0 改抑是 1 改** > - 佇符號的後壁閣寫一个 `*` 代表這个符號「出現幾改攏會使」,也就是**出現 0 改抑是以上** > - 佇符號的後壁閣寫一个 `+`代表這个符號「至少有一改」,也就是**出現 1 改抑是以上** #### 💁請練習下跤兩个題目: 1. 寫一條 REGEX,揣出**所有的五字詞**,像`雞喙變鴨喙`,搜揣結果愛**包含**俗諺語附錄的五字詞,像`見笑轉受氣。`;搜揣結果愛**排除**俗諺語附錄的四字詞,像`鴨仔聽雷。` 2. 寫一條 REGEX,揣出有**包含至少三个數字詞的詞目**,字數無限制 :::spoiler 1. `^[^a-zòá]...[^。]$`(註:閣有 `á-geh` 佮 `òo-bà` 愛排除,寫較長咧寫`^[^a-z][^a-z][^a-z][^a-z][^。]$` )嘛會使 2. `[一二兩三四五六七八九十].*[一二兩三四五六七八九十].*[一二兩三四五六七八九十]` ::: ### 💁 應用練習 >[!Tip]主題性詞目 REGEX 句法創作 >教典的網址通好共你搜揣的結果分享予別人,只要善用 REGEX,就通好揣出一寡有主題性的詞彙列表分享予別人。 > >紲落來請逐家發揮創意激頭腦,**創作一个正規表達式,揣出一寡有主題性的結果,共語法佮網址分享去 padlet!** ## 實作➎:REGEX 揣羅馬字應用 ### 羅馬字 REGEX 資料的標準化 咧用 REGEX 揣羅馬字的時陣,資料是特別經過標準化的模樣,有下跤三个特性: 1. 全部攏是小寫 2. 攏是數字調符 3. 用空白符號共音節分開,無連字符號 像 `a-î` 會標準化變做 `a1 i5`,下跤閣有一寡例: | 臺羅 | 標準化 REGEX 羅馬字 | | --------------- | ------------------- | | kan-lo̍k | kan1 lok8 | | a̋i-sat-tsuh | ai9 sat4 tsuh4 | | Bí-kok-thôo-tāu | bi2 kok4 thoo5 tau7 | | Àm-tǹg kiám tsia̍h tsi̍t kháu, ua̍h kah káu-tsa̍p-káu. | am3 tng3 kiam2 tsiah8 tsit8 khau2, uah8 kah4 kau2 tsap8 kau2.| ### 羅馬字音節的組成 >[!Note]羅馬字音節的組成 > - 經過標準化的 REGEX 羅馬字音節組成非常簡單,由**毋是空白的符號**組成。 > - 寫 `[^ ]` 就代表一个組成羅馬字音節的符號, `[^ ]+` 就通好代表一个音節。(至少有一个毋是空白的符號) #### 💁 請練習下跤的題目: 1. 用羅馬字的理路,揣出教典**所有的四音節詞目**。觀察看覓,按呢揣佮輸入 `^[^a-z]...$` 有啥物精差? :::spoiler 參考答案 1. `^[^ ]+ [^ ]+ [^ ]+ [^ ]+$`,按呢揣會使揣著真正是四个音節的詞目、俗諺語,閣揣會著外來語詞「tsioo-kóo-lè-tòo」 ::: ### 限制聲調、聲母、韻母 >[!Note]限制聲調 >- 聲調攏是寫佇每一个音節上後壁的數字,咱會使真簡單佇 `[^ ]+` 後壁閣加一个數字去限制這个音節的聲調,像 `[^ ]+2` 限制是第二調,`[^ ]+[48]` 代表是入聲。 >- 若是入聲結尾,閣會使佇數字頭前限制你欲揣 ptkh 佗一種韻尾,像 `[^ ]+p[48]` 會使限制揣入聲 p 韻尾的音節。 #### 💁 請練習下跤的題目: 1. 寫一條 REGEX,揣出佮家己名姓仝款聲調的詞 2. 寫一條 REGEX,揣出所有以入聲h韻尾做結尾的詞 :::spoiler 參考答案 1. 以「陳建中 Tân Kiàn-tiong」做例,就是 `^[^ ]+5 [^ ]+3 [^ ]+1` 2. `[^ ]+h[48]$` ::: >[!Note]限制聲母 >- 聲母是每一个音節上頭前的羅馬字,咱會使佇 `[^ ]+` 的頭前加上你欲限制的聲母,像 `j[^ ]+` 限制聲母是 j。 >- 臺羅有一寡聲母有共用的符號,像 `t` `th` `ts` `tsh` 上頭前攏是 `t`,若是欲揣聲母 `t` ,愛會記得限制後壁袂當接 `s` 佮 `h`,寫 `t[^sh][^ ]+` 。 >- 臺羅超過一个符號的聲母有 `kh` 、`ng`、`ph`、`th`、`ts`、`tsh` 六个,愛注意 `k`、`p`、`t`、`n`相關的聲母。 練習: 1. 寫一條 REGEX,揣出佮「高雄 Ko-hiông」兩字仝款聲母的詞目。 2. 寫一條 REGEX,揣出佮「冬天 tang-thinn」兩字仝款聲母的詞目。 3. 寫一條 REGEX,揣出佮家己的名仝款聲母的詞目。 :::spoiler 參考答案 1. `^k[^h][^ ]+ h[^ ]+$` 2. `^t[^sh][^ ]+ th[^s][^ ]+$` 3. 以「建中 Kiàn-tiong」做例,就是 `^k[^h][^ ]+ t[^sh][^ ]+$` ::: >[!Note]限制韻母 >- 韻母是每一个音節中央的羅馬字,頭前有聲母,後壁有聲調的數字,咱會使先寫 `[^ ]+[1-9]` 代表無限制聲調,閣共想欲揣的韻母寫佇中央。像 `[^ ]+iang[1-9]` 會使限制揣 `iang` 聲母。 >- 聲母的情形閣較複雜,愛寫閣較濟排除的規則,若是欲揣 `a` 韻母,就愛排除 `ia` `ua` `an` `ian` `iam` `iang` `am` 等等,所以愛寫做 `[^ ]+[^iu ]a[^nm ][1-9]` 練習: 1. 寫一條 REGEX,揣出所有尾字是 ia 韻母的詞 2. 寫一條 REGEX,揣出所有佮家己的名仝款韻母的詞 :::spoiler 參考答案 1. `ia[^mn ][ptkh]?[1-8]$` (排除 ian iam,閣愛考慮入聲有 ptkh 的狀況) 2. 以「建中 Kiàn-tiong」做例,就是 `^[^ ]+ian[1-8] [^ ]+iong[1-8]$` ::: ### 應用練習 💁 >[!Tip]創作練習 請利用 REGEX 揣著適合的押韻的詞彙創作七字仔抑是歌詞,抑是一寡趣味的語句,共你的成果分享去 Padlet 參考文章:[台語「四句聯、相褒、唸歌」的格律、押韻規則—潘科元](https://taigi.page/posts/%E5%8F%B0%E8%AA%9E-%E5%9B%9B%E5%8F%A5%E8%81%AF-%E7%9B%B8%E8%A4%92-%E5%94%B8%E6%AD%8C-%E7%9A%84%E6%A0%BC%E5%BE%8B-%E6%8A%BC%E9%9F%BB%E8%A6%8F%E5%89%87/) ::: spoiler 參考文章:全入聲漢文——郭沫若沒出息 郭沫若沒出息,不積極閱讀學習熱力學學術力作,讀碩卻不續讀博。 浙北谷穴賊作,郭躑躅不決,擊敵不力,罰祿失職,實屬屈辱。 食齷齪的垃圾食物卻不食六畜熟肉及綠色麥穀,喝血及蜜卻不喝白色的雪碧。 不服佛法,日日月月極作孽,掠獲鹿鴨鶴雀,直接握鐵戟殺戮,切赤舌,鑿白骨,拔黑髮,斫肉末,確實毒辣刻薄,觸及法律。 宅植苜蓿不植菊,客室角落沒竹沒木亦沒石。 特別渴,悒鬱寂寞得哭,納禿髮妾入屋,熱不沐浴,熄滅蠟燭,急摸席側的雪白玉足。 食色蝕力,弱不敵疾,卻一直覺得不值得吃藥。 一夕,忽卒。 [臺羅版本源自複製文圖書館台文翻譯館 Ho̍k tsè bûn tôo su kuán Tâi bûn huan i̍k kuán](https://www.facebook.com/permalink.php?story_fbid=pfbid02phKsMf9z9kYnF2LtixTak2pyKC3fyge4n2RqMg3g9164ZZjmSmqQcVkg6WFt3Z7ol&id=100077577577186) Kok bua̍t-lio̍k bu̍t tshut-sik, put tsik-ki̍k ua̍t-tho̍k ha̍k-si̍p jia̍t-li̍k-ha̍k ha̍k-su̍t li̍k-tsok, tho̍k si̍k khiok put sio̍k tho̍k phok. Tsiat pok kok hia̍t tsi̍k tsok, kok ti̍k-to̍k put kuat, kik ti̍k put li̍k, hua̍t lo̍k sit-tsit, si̍t-siok khut-lio̍k. si̍t ok-tshok tik lap-sap si̍t-bu̍t khiok put si̍t lio̍k-thiok si̍k-jio̍k ki̍p li̍k-sik bi̍k-kok, hat hiat khiok put hat pi̍k-sik tik suat-phik. put ho̍k hu̍t-huat, ji̍t-ji̍t gua̍t-gua̍t ki̍k tsok-gia̍t, lio̍k-hi̍k lo̍k ap ho̍k tshiok, ti̍t-tsiap ak thiat kik sat-lio̍k, tshiat tshik-sia̍t, tsho̍k pi̍k-kut, puat hi̍k-huat, tsiok lio̍k-bua̍t, khak-si̍t to̍k-lua̍t khik-po̍k, tshiok-ki̍p huat-lu̍t. thi̍k si̍t bo̍k-siok put si̍t kiok, khik sik kak-lo̍k bu̍t tiok bu̍t bo̍k i̍k bu̍t si̍k. ti̍k-pia̍t khat, ip-ut tsi̍k-bo̍k tik khok, la̍p thut-huat tshiap ji̍p ok, jia̍t put bo̍k-io̍k, sik-bia̍t la̍p-tsiok, kip bo̍k si̍k tshik tik suat-pi̍k gio̍k-tsiok. si̍t sik si̍t li̍k, lio̍k put ti̍k tsi̍t, khiok it-ti̍t kak-tik put ti̍t-tik khit io̍k. it si̍k, hut tsut. ::: ## 實作➏:辭典資料下載 [教典>相關資源>辭典資料下載](https://sutian.moe.edu.tw/und-hani/siongkuantsuguan/) > 延伸閱讀:[舊教典資料檔(萌典 github)](https://github.com/g0v/moedict-data-twblg) 教典的原始資料才是教典上原初的形態,提遮的資料來看,會當看出真濟平常時仔掀教典袂觀察著的細節喔,今仔日後壁的內容攏會𤆬逐家耍教典原始資料,並且補充真濟教典的細節。以後同學嘛會當共類似的技巧提來處理其他有數位化的辭典抑是資料庫(像甘字典、台日大辭典、國教院臺灣台語語料庫……) ### 💁 請綴我做 請共教典文字資料 táng-lóo -\-落來,用 google sheet 共拍予開(揤匯入、上傳檔案、共教典資料的 .ods 檔案拖入去) :::spoiler 圖解 先建立一个新的試算表,揤 `檔案`→`匯入` ![image](https://hackmd.io/_uploads/SJIatOvCR.png) 佇 `上傳` 遮共對教典táng-lóo的 kautian.ods 拖入去 ![image](https://hackmd.io/_uploads/Byc0YOPCC.png) 選 `取代試算表`,點 `匯入資料` ![image](https://hackmd.io/_uploads/r1sdqdwRC.png) ::: >[!Note] 辭典資料僻智識 >- 以早教典想欲提原始資料愛寄批共討 >- 萌典團隊有共寫批討著的資料整理過了後共用,公開佇 github,就按呢有共舊教典的資料留-\-落來,若是欲研究教典資料的變化就通好用遮的資料。 >- 這馬意傳做的新版教典有程式自動產生上新版本的文字資料表格,免閣寫批就通好直接看,而且以早干焦授權文字資料,這馬連音檔都有 CC-BY-ND 3.0 開放授權喔 >- 2024/9/16文字資料下載功能內容有更新,文字資料的詞目佮例句增加一欄「對應音檔檔名」 :::spoiler 圖:舊教典版權頁說明 ![image](https://hackmd.io/_uploads/H1AuLZDA0.png) ::: :::spoiler 圖:9/16 系統維護公告 ![image](https://hackmd.io/_uploads/ByV1JxdCA.png) ::: ## 實作➐:表格資料處理 ### 篩選器 篩選器\[thai-suán-khì\] 是 Google Sheet 真實用的功能,會當建立一个方便篩選資料的介面,會當做排序、設條件揀家己欲愛的資料 ![image](https://hackmd.io/_uploads/r1k2BuP0C.png) #### 💁 請綴我做 - 佇 `詞目` 工作表共篩選器開開,揀出無仝`詞目類型` 的詞目 - 佇 `義項` 工作表共篩選器開開,揀出無仝 `詞性` 的義項 #### 🤔 想看覓 下跤兩个問題請逐家想看覓,共你的想法寫佇 Padlet,先莫偷看參考解說喔! - 啥物是「單字不成詞者」?啥物是「近反義詞不單列條目者」? - 啥物款的義項,`詞性` 欄位會無寫留空白? :::spoiler 參考解說 - 「單字不成詞者」就是這个字袂單獨使用的漢字 - 「近反義詞不單列條目者」就是這个詞條無單獨列出來的條目,干焦出現佇其他條目的「近義詞」抑是「反義詞」欄位,階級較低,較成是補充性質(補充:以早教典真濟近反義詞不單列條目者無寫羅馬字,這馬有沓沓仔咧補) - 通常是「附錄」、「見【~】條目」閣有「詞綴」的義項袂寫詞性 ::: ### 共資料連起來 >[!Note]教典資料結構 >- 教典的資料是透過 ID 互相關連,一个`詞目`下底有幾若个義項 >- 表格的頭前幾欄攏有記錄一筆資料關連佗一个 ID,像每一條義項攏有寫伊對應的 ID。近反義詞的關係閣有另外的表格記錄 :::spoiler 圖:教典基本資料結構 ![image](https://hackmd.io/_uploads/r14FdTDRR.png) ::: ### 用 `CONCAT()` 共網址鬥出來 頭前咧講教典相命術的時陣有講著教典詞目攏有身份證號碼,而且網址後壁的數字就彼个詞目的 ID。 `CONCAT()` 函數是一个會當**共兩段文字連起來**的函數,用 `CONCAT()` 函數共教典網址佮詞目 ID 鬥做伙,咱就趁好佇咱的表格冬著連去詞目的網頁囉 >[!Tip]`CONCAT()` 函數語法規則 >`=CONCAT(文字1,文字2)` #### 💁 請綴我做 佇 `詞目` 工作表增加一欄 `網址`,用 `CONCAT()` 函數共詞目網址 `https://sutian.moe.edu.tw/und-hani/su/` 佮 `詞目id` 鬥起來 ### 用 `VLOOKUP()` 揣著對應的詞目漢字佮羅馬字 >[!Tip]`VLOOKUP()` 函數語法規則 >`=VLOOKUP(揣啥物內容,佇佗位揣,欲揣佗一欄的資料,false)` >第四的參數的功能今仔日用袂著,請固定寫一个 false 就好矣,莫插伊。 >舉例來講,寫 `VLOOKUP(9,'詞目'!A:F,3,false)`就是先佇 A 欄揣著ID是 `9` 的彼列,閣往正手爿行三步揣著伊彼列的漢字彼欄 `一半个仔` 就是函數運算的結果 >![image](https://hackmd.io/_uploads/BJv3WRvAR.png) `VLOOKUP()` 會當做垂直的搜揣,函數會當佇表格內底行一个 L 型的路徑揣著特定的資料,就按呢咱會當佇 `義項` 佮 `例句` 兩頁透過對應詞目ID揣著詞目的漢字佮羅馬字,處理了後咧看義項佮例句資料的時陣會閣較清楚這條屬於佗一个條目喔 :::info #### 💁 請綴我做 - 佇 `義項` 佮 `例句` 工作表增加兩欄 `對應詞目漢字` 佮 `對應詞目羅馬字`,用 `VLOOKUP()` 揣著 A 欄的詞目 ID 對應的漢字佮羅馬字 ::: ## 實作➑:用正規表達式揣例句 教典無允准人佇「用臺灣台語查詞目」以外的功能拍正規表達式,毋過咱那共資料下載落來用表格軟體處理就無這个限制囉,佇 Google Sheet 揤 `Ctrl/Cmd` + `Alt/Option` + `h` 就通好拍開「搜尋並取代」,共「使用規則運算式進行搜尋」勾起來就通好輸入正規表達式做搜揣,提來揣例句就會當揣特定的句型抑是語法喔。 ![image](https://hackmd.io/_uploads/HyJyo-_C0.png) >[!Note]操作重點 >- 揤 `Ctrl/Cmd` + `Alt/Option` + `h` 拍開「搜尋並取代」 >- 共「使用規則運算式進行搜尋」勾起來 >- 會當揀「特定範圍」指定欲揣的範圍(先共欲揣的範圍箍起來才揤 `Ctrl/Cmd` + `Alt/Option` + `h` 嘛會自動限制範圍) ### 💁 來練習 1. 用正規表達式,揣著有「連……都……」句型的例句 >例: >921彼擺塗牛翻身,幌甲真嚴重,**連**臺北的大樓**都**搖甲倒去。 >921 hit pái thôo-gû-huan-sin, hàinn kah tsin giâm-tiōng, **liân** Tâi-pak ê tuā-lâu **to** iô kah tó--khì. 2. 用正規表達式,揣著佇句中疊詞連用的例句 >例: >伊做著**涼勢涼勢**,別人來做就無遐熟手! >I tsò tio̍h **liâng-sè-liâng-sè**, pa̍t-lâng lâi tsò tō bô hiah si̍k-tshiú! 3. 用正規表達式,揣著例句佇漢字欄濫寫羅馬字的例句 >例: >這台**oo-tóo-bái**的**ia̋n-jín**愛拆,你去共我遐的家私頭仔提來。 >Tsit tâi oo-tóo-bái ê ia̋n-jín ài thiah, lí khì kā guá hia-ê ke-si-thâu-á the̍h--lâi. 4. 用正規表達式,揣著頭字羅馬字大寫的詞目 >例: > 二九暝 **J**ī-káu-mê/**L**ī-káu-mî > 七娘媽 **T**shit-niû-má 5. 用正規表達式,揣著非頭音節羅馬字大寫的詞目 > 例: > 安太歲 an **T**hài-suè > 漳泉濫 Tsiang-**T**suân-lām > 王哥柳哥 Ông--ko-**L**iú--ko 6. 用正規表達式,揣著教典例句當中連續四音節輕聲的例 >例: >閣刣看會減淡薄仔無? >Koh thâi khuànn ē **kiám-\-tām-po̍h-á--bô** ? >糋的物件較厚油,食一半擺仔是無要緊,若傷捷食對健康會有影響喔! >Tsìnn ê mi̍h-kiānn khah kāu iû, **tsia̍h-\-tsi̍t-puànn-pái-á** sī bô iàu-kín, nā siunn tsia̍p tsia̍h tuì kiān-khong ē ū íng-hióng--ooh! :::spoiler 參考語法 1. 連……都:`連.+都` 2. 疊詞連用:`(.)(.)\1\2` `(.)(.)(.)\1\2\3` `(.)(.)(.)(.)\1\2\3\4` 3. 漢字欄濫羅馬字:`[a-zA-Z]` 4. 頭字羅馬字大寫:`^[A-Z]` 5. 非頭音節羅馬字大寫:`[ -][A-Z]` 6. 連續四音節輕聲:`--[^ -]+--?[^ -]+--?[^ -]+--?[^ -]+` ::: ## 實作❾:羅馬字清單、漢字羅馬字對應 `羅馬字清單` 佮 `漢字羅馬字對應` 兩个工作表是程式自動產生,有整理所有教典的羅馬字音節,閣有漢字羅馬字的對應關係。嘛有列出來源 透過觀察這兩个表,會當揣著真濟你以早毋捌注意過的教典特例,請先綴我操作,做伙來觀察羅馬字清單的機關。 ### 💁 請綴我做 拍開 `羅馬字清單`,快速共規个清單巡過,觀察內底明顯毋是臺羅的物件,並討論下跤四个問題,共你的想法寫佇 Padlet: 1. 出現佇 `釋義` 的白話字音節 `ōe` 是啥? 2. 出現佇 `詞彙比較` 的日文khá-nah `け` `じ` `ゃ` `ん` 是啥? 3. 出現佇 `詞彙比較` 的漢字像 `中` `大` `婆` 是啥? 4. 出現佇 `又唸作` 的漢字像 `下` `二` `冬` 是啥? :::spoiler 參考解說 1. 就是「[白話字 Pe̍h-uē-jī](https://sutian.moe.edu.tw/und-hani/su/13982/)」詞目解說內底寫著 「Pe̍h-ōe-jī」的 `ōe` 2. 詞彙比較表編號 968 「猜拳」表格的「三峽偏泉腔」毋知是按怎漢字佮羅馬字攏寫「じゃんけん」,致使遮有收錄著,毋過這條是頭前實作➑有講著的祕密資料,一般人佇教典掀袂著 3. 詞彙比較表有一寡詞有用括號註解一寡資訊,像編號 144 「梳子」的臺中偏漳腔有註明大細支的精差,標「捋仔 lua̍ih-á(小)」佮「柴梳 tshâ-se(大)」。編號 632 有標金門的「錢 tsînn」佮「鐳 lui」差佇「錢的中央愛有空」 4. 又唸作的漢字請看下跤段落「以早舊教典地名附錄的特殊體例」的詳細解說 ::: ### 舊教典火車站地名附錄的特殊體例 以早舊教典的真濟附錄攏是獨立的表格,佮一般詞目的格式無啥仝,2023 改版才統一,結果就致使講一寡資料的轉換會出現一寡較歹處理的所在,就會造成特例。 以早的火車頭地號名表格毋是一般詞目的「主音讀/第二優勢腔」+「又唸作」。是像下跤的圖按呢「站名」加上「讀音一」佮「讀音二」,其實原底按呢處理就免去改漢字,就是一个表予人知影華語寫遐的漢字站名的火車頭台語按怎稱呼。(會當對 [Web Archieve](https://web.archive.org/web/20180603094438/http://twblg.dict.edu.tw/holodict_new/index.html) 看舊教典附錄的格式) ![image](https://hackmd.io/_uploads/HycOa3811x.png) 「讀音二」內底有真濟資料是舊地名讀音,音節數嘛可能佮讀音一抑是站名會對袂起來,所以 2023 教典改版就共讀音二囥佇「又唸作」,並且佇後壁用括號註明對應的漢字。 ![image](https://hackmd.io/_uploads/rydszT8J1g.png) ## 實作➓:教典祕密資料 ### 祕密詞彙比較表 [教典附錄/方言差/詞彙比較表](https://sutian.moe.edu.tw/und-hani/%E9%99%84%E9%8C%84/sutsha/) 教典的詞彙比較表攏總有收錄 1002 的無仝主題的表格,但是並毋是每一條攏有對應的詞目,有一寡干焦有表煞無詞目,下跤的連結是教典附錄頁面的詞彙比較表清單,會當看著表格佮詞目的對應關係,其中詞目欄是空白的部份就是無對應詞目的,一般人揣教典是掀袂著的,一定愛下載辭典文字資料才看會著。 這款無對應詞目的攏總有 47 條,我另外有整理佇下跤的連結: [教典秘密詞彙比較表](https://docs.google.com/spreadsheets/d/1RSYbYOd0rgA3bpnjY15wk7F3nb7_tov1RpWsC-WfeoM/edit?usp=sharing) ![image](https://hackmd.io/_uploads/SJuDnGL1yx.png) ### 近反義詞不單列條目者的又唸作 :::info #### 💁 請綴我做 - 佇 `又唸作` 工作表增加一欄 `詞目類型`,用 `VLOOKUP()` 揣著 A 欄詞目 ID 對應 `主詞目` 工作表的詞目類型 - 佇 `又唸作` 工作表增加一欄 `網址`,用 `CONCAT()` 共詞目網址 `https://sutian.moe.edu.tw/und-hani/su/` 佮 詞目id 鬥起來 - 拍開篩選器,共詞目類型是 `近反義詞不單列條目者` 的又唸作揀出來 ::: >[!Note]關係「近反義詞不單列條目者」的詞目網址僻智識 >- 「近反義詞不單列條目者」其實嘛有家己的網址通好入去,而且有的詞有「又唸作」屬性,平常時仔佇教典是看袂著的,算是教典隱形資料 >- 這个問題我捌寫批和教育部反應過,承辦人員講這是後續擴充事項,遮的詞以後嘛有可能有單獨的詞目 >:::spoiler 批信內容佮承辦人回批的截圖 >![image](https://hackmd.io/_uploads/SJTseTDRC.png) >::: ### 近反義詞表格內底的祕密資料 近反義詞的列表有六个表,分別是 `詞目tuì詞目`、`義項tuì詞目` 佮 `義項tuì義項` 的近義詞佮反義詞關係,其實表格內底有藏一寡詞目佮義項並無列佇 `詞目` 佮 `義項` 表格當中,咱會當用 `COUNTIF()` 函數配合篩選器共遮的詞揣出來。 遮的資料有一寡是 2023/2024 新收詞的近反義詞不單列條目者,其他推測可能是猶咧編輯猶未正式公佈的資料,這个問題我已經寫批共團隊反應矣,教育部有講後續會修改。 >[!Tip]`COUNTIF()` 函數語法規則 >`=COUNTIF(欲揣的範圍, 欲揣的物件)` >`COUNTIF()` 函數會當揣出範圍當中有偌濟符合條件的儲存格,並且共數量回傳。 :::info #### 💁 請綴我做 - 拍開 `義項tuì詞目近義` 工作表 - 增加一欄,用 `COUNTIF()` 揣 A 欄的義項 ID 敢有出現佇 `義項` 工作表內底 - 閣增加一欄,用 `COUNTIF()` 揣 D 欄的詞目 ID 敢有出現佇 `詞目` 工作表內底 - 拍開篩選器,共新增加的兩欄數量是 0 的資料撈出來觀察 ::: ## 總結 今仔日的十个實作活動,希望會當予逐家真濟新的想法,只要加觀察規律,斟酌去想教典的規則佮結構,善用表格抑是程式家私就會當發現真濟機關。逐家會當閣進一步想看覓,啥物款的資料是你想欲揣的?會當用啥物家私鬥揣出來? 希望遮的活動予逐家感覺心適,歡迎逐家共你的想法透過下跤的表單共我分享: [表單連結](https://forms.gle/1XwgeK4SPWnJadN97) ## 補遺:一寡你可能閣會有興趣的主題 ### 其他字辭典的公開原始資料 毋但是教典,甘字典、台日大辭典佮一寡其他的字辭典的原始資料嘛會當提來處理,多數的這款公開資料攏會用得佇 ChhoeTaigi 字詞資料許揣著。 [ChhoeTaigi 找台語:台語字詞資料庫](https://github.com/ChhoeTaigi/ChhoeTaigiDatabase) [Kam Jī-tián Chu-liāu-khòo](https://github.com/fhl-net/Kam-Ui-lim_1913_Kam-Ji-tian) [《台日大辭典》台語譯本資料](https://github.com/fhl-net/Lim-Chun-iok_2008_Tai-jip-Tua-su-tian) ### 教典詞目詞性/音節數檢索 欲揣教典所有的 `量詞` 抑是 `擬態詞` 用這个表格會真方便 另外閣有提供照音節數索引的功能,只要你共教典所有的四字熟語攏背起來,逐家的台語攏是「高級班」! [教典詞目詞性/音節數索引-Google Sheet](https://docs.google.com/spreadsheets/d/195libam9WnRPbxHuSkIdbmWZFbzIShRENm4YK8saXqw/edit?usp=sharing) ### 電腦台語字有偌長? 咧用佮文字長度相關的功能的時陣,定定會有一寡違反直覺的狀況,像「台」佇多數程式環境當中算是「一个」字,「𠕇」煞會予認定做是「兩个」字,相關的特性佮原理請參考下跤文章解說。 [電腦台語字有偌長?-陳建中](https://hackmd.io/@Q07_QXJ3TiO7QjkHkyOexA/r1WMAyynR) ### 教典台華/台台倒反詞 定定聽人講「台語喜歡和華語唱反調,華語`熱鬧`台語就要講`鬧熱`,颱風台語就要講`風颱`……」,你敢會好奇這類的詞教典有收偌濟?這个表格整理所有教典內底的台/華語序顛倒反的詞,閣有台語本身一寡有 AB|BA 閣有 ABC|BCA 關係的詞彙組! [教典倒反詞-Google Sheet](https://docs.google.com/spreadsheets/d/1x_8jrcWrIZeP8xfer0bToVyfEnzMbOvBtPRH_C1himQ/edit?gid=668365147#gid=668365147) ### 教典漢字詞目資料 教典文字資料其實嘛毋是完整的教典資料,內底並無提供漢字的「筆畫」、「部首」、「文/白/俗/替」的屬性,我有寫一个爬蟲程式共遮的資料攏揣出來佇下跤的表格予逐家參考。 (毋過教典的文白音區分其實有真濟烏白標,逐家莫傷相信;閣有俗音佮替代用字的認定嘛有受真濟批評) [教典漢字詞目-Google Sheet](https://docs.google.com/spreadsheets/d/1GKk2g-a7616BkNTjNvHwW_3lWJkXzZwqhD3MUmP3x1E/edit?usp=sharing) ### 2023/2024 教典新收詞 2023/2024 兩冬教典攏有大更新,攏總新收錄 550 條新的條目,這个 Notion 頁面共這兩冬新收錄的詞攏整理佇遮通好直接看喔。 [教典新收詞-Notion](https://www.notion.so/kiantiong/9a9ea381ad024ee398e35e3b68d53811?v=dd7a988f9ee3489081abd5fc72bfdbf5)