活用教典101

這份講義文字內容以 CC-BY 4.0 授權開放逐家利用

20250306@台中教育大學

相關資源佮連結總表:

主題➊:教典改版導覽

1.1 教典三个版本

  • 2008年10月:臺灣學術網路試用版(截圖來源

    Image Not Showing Possible Reasons
    • The image was uploaded to a note which you don't have access to
    • The note which the image was originally uploaded to has been deleted
    Learn More →

  • 2011年7月:臺灣學術網路正式版

    Image Not Showing Possible Reasons
    • The image was uploaded to a note which you don't have access to
    • The note which the image was originally uploaded to has been deleted
    Learn More →

  • 2023年6月:臺灣學術網路第二版(2024年8月26日改名做教育部臺灣台語常用詞辭典)

    Image Not Showing Possible Reasons
    • The image was uploaded to a note which you don't have access to
    • The note which the image was originally uploaded to has been deleted
    Learn More →

新版教典的幾若个重點更新內容

  1. 新收詞彙
  2. 名姓查詢附錄
  3. 介面更新、搜揣體驗簡化、例句搜揣功能
  4. 地名、火車站名、捷運站名更新
  5. 俗諺語增加例句,例句提供發音檔案
  6. REGEX 正規表達式搜揣

1.2 2023/2024新收詞

教典新收詞 Notion

教典最近兩冬攏有增加新收錄的詞,有補充真濟捷講以早煞無收入去的詞,比論講「肉燥飯 bah-sò-pn̄g」、「臺票 Tâi-phiò」,所有這兩冬新收錄的詞我攏有整理佇頂面的 Notion 頁面,歡迎逐家罔參考

1.3 詞目ID—教典相命術

延伸閱讀:教典相命術——揣著你的教典命運詞

重點筆記

  • 教典的詞目攏有一个唯一的 ID,就是詞目網址後壁遐的數字
  • 教典攏總有 27573 个詞目、毋過 ID 上大有編甲 29601 ,中央有閬縫

Image Not Showing Possible Reasons
  • The image was uploaded to a note which you don't have access to
  • The note which the image was originally uploaded to has been deleted
Learn More →

1.4 💁 來練習

揣看覓,家己生日、手機仔號碼後壁4碼、抑是任何對你有意義的數字對應教典啥物條目,佇 Padlet 分享你的人生代表詞。

主題➋:名姓查詢附錄

重點筆記

  • iTaigi 先發起「你的名字」功能,後來教育部正式列計畫,2020 推出「講我的名」
  • 教典是常用詞辭典,毋是大辭典,嘛毋是字典,嘛毋是腔口差研究典,漢字音讀並袂全部攏收錄
  • 名姓查詢附錄以甘字典為基礎補字,加上名姓號名的原理,由許嘉勇先生整理漢字讀音佮排序
  • 2023 「講我的名」合併入去教典附錄
  • 教典僻智識提供表格程式會當批次處理大量名姓音讀

2.1 💁 來練習

分別用 iTaigi 你的名字教典名姓查詢附錄,揣看覓野球 12 強冠軍投手 張奕先生的名,想看覓:

  • 兩爿出來的結果敢相仝?
  • 是按怎會按呢?

先莫偷看參考解說,共你的想法寫佇 Padlet。

參考解說

iTaigi 的結果並無正確,因為 iTaigi 的時代干焦是用教典有收錄的漢字讀音去鬥名姓的讀音。

張奕先生的名應該是 Tiunn I̍k,毋是 Tiunn Ī。

教典定「奕」讀 ī 是用佇「奕牌仔」、「奕棋」的替代用字。「奕」這字的文讀音 i̍k 教典並無收錄。

主題➌:教典搜揣的僻智識

新版教典搜揣使用者體驗改良

以早的教典咧搜揣進前愛先選「精確」抑是「模糊」,若是揀毋著閣愛揤頂一頁重來,揣例句嘛干焦通好用「全文」,閣愛一條一條點入去看。這馬的搜揣體驗誠實是進步足濟
舊教典搜揣體驗錄影

3.1 僻智識①:羅馬字整合

用羅馬字揣例句的時陣,隨在你輸入「臺羅」、「白話字」、「臺羅傳統版」、「數字式臺羅」、「數字式白話字」攏會使,濫做伙揣嘛無問題,就算你寫 ko͘ khut8 che̍h tsing2 嘛揣會著 孤𣮈絕種 koo-khu̍t-tse̍h-tsíng 詞目。

3.2 僻智識➁:連字符號無影響,無法度單獨搜揣

延伸閱讀:教典僻智識23:連字符入門1—「詞」內底的音節連寫
延伸閱讀:教典僻智識23:連字符入門2—「詞組」內底的詞佮詞「基本上」分寫

咧揣羅馬字的時陣連字符號有寫佮無寫是無影響的,無論是輸入 thâu-mn̂g 抑是 thâu mn̂g 攏揣會著 頭毛 thâu-mn̂g。針對詞目佮例句無法度針對連字符號做搜揣,嘛袂使輸入 -- 揣輕聲

3.3 僻智識③:寫 - 會揣著啥?

延伸閱讀:教典僻智識1:巷仔內才知影的外來語詞

有一種其實是例外,就是寫佇漢字欄位的連字符號,干焦外來語詞會佇漢字欄寫羅馬字,就按呢咱會當用 - 揣著所有兩音節以上的外來語詞,嘛會使共藏佇方言差表的外來語詞掠出來,下跤的十一條外來語詞是藏佇方言差表無單獨條目的外來語。

巷仔內才知影的外來語詞
  1. oo-khà-sàng(阿母,外來語附錄收 khà-sàng)
  2. mè-sù(月經)
  3. gat-lá油(臭油、番仔油)
  4. le-khòo-tòo(曲盤)
  5. ji-siá-kuh(吸石)
  6. bu-lá-tsià(奶帕仔,外來語附錄收 bu-là-jià)
  7. ha-sí-khah(出癖)
  8. mí-sooh/mí-soh/bí-sooh(豆醬)
  9. jiá-khuh/jiak-khuh/jiak-kuh/tsiak-kuh(挩鍊仔)
  10. sir-lí-pah/ló-lí仔/su-lí-pah(淺拖仔)
  11. ji-lòo-sià/ji-lò-sià/gi-lòo-sià(自動車)

另外,若是怙例句搜揣功能「用臺灣台語查用例」查 -,會揣著四句內底有包含外來語詞的例句。

3.4 僻智識➃:寫 會揣著啥?

延伸閱讀:教典僻智識11:關係教典俗諺的一寡僻智識

俗諺語的詞目除了「仙人拍鼓有時錯,跤步踏差啥人無?」攏是以句號 做結尾,所以查 就通好揣著多數的俗諺語例句。

另外閣有一个特性,因為羅馬字的句號 . 有 REGEX 的功能,致使查 ah-á-thiann-luî 揣會著「鴨仔聽雷。 ah-á-thiann-luî.」 詞目,查 ah-á-thiann-luî. 顛倒揣無,因為系統會當做你咧用 REGEX 搜揣。這个問題已經寫批共教育部團隊講矣,承辦人有回覆講會加入後日功能更新的評估。

批信內容

image

主題➍:正規表達式基礎

啥物是正規表達式?

  • 正規表達式就是一種揣規律的技術
  • 只要文字有某乜規律會當描述出來,就會當揣著
  • 教典的「用臺灣台語查詞目」會當用正規表達式揣漢字佮羅馬字

4.1符號解說

  • ^ 揣開頭
  • $ 揣結尾
  • . 代表任何一个符號
  • + 頭前的符號出現一改以上
  • [] 中央的符號出現任何一个,像 [有無會袂] 就是揣 任何一个。嘛會當寫範圍,寫 [1-8] 就代表 1~8 的數字
  • [^] 非中央任何的符號,像 [^a-z] 就代表毋是 a~z 的任何一个符號
  • (.)(.)\1\2 會當共幾若个符號用月眉號做標記,閣照順序用 \1 \2 代表揣著的符號重複出現

撇步

  • 若欲限定字數,就用 ^$ 共頭尾包起來
  • 無欲揣羅馬字,就用 [^a-z] 取代 .
咒語貧惰包

揣所有 4 字詞(數字會當換做其他的):
[^a-z]{4}
AA仔B:
^(.)\1仔.$
有無四字詞:
^[有無].[有無].$
色水ABB形容詞:
^[紅黃青綠藍紫烏白](.)\1$
數字四字詞:
^[一二三四五六七八九].[一二三四五六七八九].$
A跤B手:
^.跤.手$
會/袂環綴三字詞:
^[會袂].[得通過]$
AA疊詞:
^(.)\1$
AAB疊詞:
^([^a-z])\1.$
ABB疊詞:
^.(.)\1$
ABA疊詞:
^(.).\1$
AABB疊詞:
^(.)\1(.)\2$
ABBA疊詞:
^(.)(.)\2\1$
ABCA疊詞:
^(.)..\1$
ABAB疊詞:
^(.)(.)\1\2$
ABAC疊詞:
^([^a-z]).\1.$
ABCB疊詞:
^.(.).\1$

4.2 💁 基礎正規表達式練習

  • 揣出所有的 ABB 格式的疊詞
  • 揣出所有的 有A無B 格式的疊詞
  • 揣出任何 會……袂 的詞目,中央毋管有偌濟字攏共揣出來
  • 揣出任何有十二生相的俗諺語(以句點做結尾)
參考答案
  • .(.)\1
  • ^有.無.$
  • 會.+袂
  • [鼠牛虎兔龍蛇馬羊猴雞狗豬].+。$

主題➎:教典原始資料佮應用

5.1 辭典資料下載

教典>相關資源>辭典資料下載

延伸閱讀:舊教典資料檔(萌典 github)

教典的原始資料才是教典較原始的形態,提遮的資料來分析,會當開發出閣較濟教典網頁無的功能,嘛會使觀察著閣較濟的趣味代。真濟教典的民間延伸專案(萌典、ChhoeTaigi、芋圓台語辭典)攏是對辭典文字資料來的。

辭典資料僻智識

  • 以早教典想欲提原始資料愛寄批共討
  • 萌典團隊有共寫批討著的資料整理過了後共用,公開佇 github,就按呢有共舊教典的資料留--落來,若是欲研究教典資料的變化就通好用遮的資料。
  • 這馬意傳做的新版教典有程式自動產生上新版本的文字資料表格,免閣寫批就通好直接看,而且以早干焦授權文字資料,這馬連音檔都有 CC-BY-ND 3.0 開放授權喔
  • 2024/9/16文字資料下載功能內容有更新,文字資料的詞目佮例句增加一欄「對應音檔檔名」
圖:舊教典版權頁說明

image

圖:9/16 系統維護公告

image

5.2 活用教典 101

只要善用一寡表格函數,就通好予教典文字資料的表格閣較好用,頂面的連結是是經過陳建中加工整理的教典文字資料,所有的「詞目」、「義項」、「例句」、「又唸作」等等的表格攏有共對應的詞目資料囥入去,嘛有教典的網址連結,予逐家看資料會閣較方便。另外閣有增加一寡功能佮資料表格,方便咱揣著特定的詞目佮資料。

請揤「檔案」→「建立副本」khóo-phih 一份到家己的 Google 口座利用,後壁的一寡活動嘛會佇這个表格進行。

5.3 篩選器

篩選器[thai-suán-khì] 是 Google Sheet 真實用的功能,會當建立一个方便篩選資料的介面,會當做排序、設條件揀家己欲愛的資料
image

image

5.4 💁 請綴我做

  • 詞目 工作表共篩選器開開,揀出無仝詞目類型 的詞目
  • 義項 工作表共篩選器開開,揀出無仝 詞性 的義項

5.5 🤔 想看覓

下跤兩个問題請逐家想看覓,共你的想法寫佇 Padlet

  • 啥物是「單字不成詞者」?啥物是「近反義詞不單列條目者」?
  • 啥物款的義項,詞性 欄位會無寫留空白?
參考解說
  • 「單字不成詞者」就是這个字袂單獨使用的漢字
  • 「近反義詞不單列條目者」就是這个詞條無單獨列出來的條目,干焦出現佇其他條目的「近義詞」抑是「反義詞」欄位,階級較低,較成是補充性質(補充:以早教典真濟近反義詞不單列條目者無寫羅馬字,這馬有沓沓仔咧補)
  • 通常是「附錄」、「見【~】條目」閣有「詞綴」的義項袂寫詞性

主題➏:活用教典資料

6.1 實用資料表格

6.1.1 音節數、詞性索引資料

共欲揣教典所有的 量詞 抑是 擬態詞 用這个表格會真方便
另外閣有提供照音節數索引的功能,只要你共教典所有的四字熟語攏背起來,逐家的台語攏是「高級班」!

6.1.2 漢字詞目

教典文字資料其實嘛毋是完整的教典資料,內底並無提供漢字的「筆畫」、「部首」、「文/白/俗/替」的屬性,我有寫一个爬蟲程式共遮的資料攏揣出來佇下跤的表格予逐家參考。
(毋過教典的文白音區分標準、俗音佮替代用字的認定有真濟爭議,請逐家罔參考就好)

6.1.3用正規表達式揣例句

教典網頁無允准人用 REGEX 揣例句,毋過用 Google Sheet 的搜揣功能(揤 Ctrl+Shift+H),抑是「活用教典 101」的「例句 REGEX 搜揣」工作表,就通好利用 REGEX 揣例句喔。

6.1.4 💁 揣句型練習

  1. 用正規表達式,揣著有「連……都……」句型的例句

例:
921彼擺塗牛翻身,幌甲真嚴重,臺北的大樓搖甲倒去。
921 hit pái thôo-gû-huan-sin, hàinn kah tsin giâm-tiōng, liân Tâi-pak ê tuā-lâu to iô kah tókhì.

  1. 用正規表達式,揣著佇句中疊詞連用的例句

例:
伊做著涼勢涼勢,別人來做就無遐熟手!
I tsò tio̍h liâng-sè-liâng-sè, pa̍t-lâng lâi tsò tō bô hiah si̍k-tshiú!

  1. 用正規表達式,揣著例句佇漢字欄濫寫羅馬字的例句

例:
這台oo-tóo-báiia̋n-jín愛拆,你去共我遐的家私頭仔提來。
Tsit tâi oo-tóo-bái ê ia̋n-jín ài thiah, lí khì kā guá hia-ê ke-si-thâu-á the̍hlâi.

  1. 用正規表達式,揣著頭字羅馬字大寫的詞目

例:
二九暝 Jī-káu-mê/Lī-káu-mî
七娘媽 Tshit-niû-má

  1. 用正規表達式,揣著非頭音節羅馬字大寫的詞目

例:
安太歲 an Thài-suè
漳泉濫 Tsiang-Tsuân-lām
王哥柳哥 Ôngko-Lko

  1. 用正規表達式,揣著教典例句當中連續四音節輕聲的例

例:
閣刣看會減淡薄仔無?
Koh thâi khuànn ē kiám--tām-po̍h-á ?
糋的物件較厚油,食一半擺仔是無要緊,若傷捷食對健康會有影響喔!
Tsìnn ê mi̍h-kiānn khah kāu iû, tsia̍h--tsi̍t-puànn-pái-á sī bô iàu-kín, nā siunn tsia̍p tsia̍h tuì kiān-khong ē ū íng-hióngooh!

參考語法
  1. 連……都:連.+都
  2. 疊詞連用:(.)(.)\1\2 (.)(.)(.)\1\2\3 (.)(.)(.)(.)\1\2\3\4
  3. 漢字欄濫羅馬字:[a-zA-Z]
  4. 頭字羅馬字大寫:^[A-Z]
  5. 非頭音節羅馬字大寫:[ -][A-Z]
  6. 連續四音節輕聲:--[^ -]+--?[^ -]+--?[^ -]+--?[^ -]+

主題➐:羅馬字清單、漢字羅馬字對應

羅馬字清單漢字羅馬字對應 兩个工作表是程式自動產生,有整理所有教典的羅馬字音節,閣有漢字羅馬字的對應關係。嘛有列出來源

透過觀察這兩个表,會當揣著真濟你以早毋捌注意過的教典特例,請先綴我操作,做伙來觀察羅馬字清單的機關。

7.1 💁 請綴我做

拍開 羅馬字清單,快速共規个清單巡過,觀察內底明顯毋是臺羅的物件,並討論下跤四个問題,共你的想法寫佇 Padlet:

  1. 出現佇 釋義 的白話字音節 ōe 是啥?
  2. 出現佇 詞彙比較 的日文khá-nah 是啥?
  3. 出現佇 詞彙比較 的漢字像 是啥?
  4. 出現佇 又唸作 的漢字像 是啥?
參考解說
  1. 就是「白話字 Pe̍h-uē-jī」詞目解說內底寫著 「Pe̍h-ōe-jī」的 ōe
  2. 詞彙比較表編號 968 「猜拳」表格的「三峽偏泉腔」毋知是按怎漢字佮羅馬字攏寫「じゃんけん」,致使遮有收錄著,毋過這條是頭前實作➑有講著的祕密資料,一般人佇教典掀袂著
  3. 詞彙比較表有一寡詞有用括號註解一寡資訊,像編號 144 「梳子」的臺中偏漳腔有註明大細支的精差,標「捋仔 lua̍ih-á(小)」佮「柴梳 tshâ-se(大)」。編號 632 有標金門的「錢 tsînn」佮「鐳 lui」差佇「錢的中央愛有空」
  4. 又唸作的漢字請看下跤段落「以早舊教典地名附錄的特殊體例」的詳細解說

7.2 舊教典火車站地名附錄的特殊體例

以早舊教典的真濟附錄攏是獨立的表格,佮一般詞目的格式無啥仝,2023 改版才統一,結果就致使講一寡資料的轉換會出現一寡較歹處理的所在,就會造成特例。

以早的火車頭地號名表格毋是一般詞目的「主音讀/第二優勢腔」+「又唸作」。是像下跤的圖按呢「站名」加上「讀音一」佮「讀音二」,其實原底按呢處理就免去改漢字,就是一个表予人知影華語寫遐的漢字站名的火車頭台語按怎稱呼。(會當對 Web Archieve 看舊教典附錄的格式)

image

「讀音二」內底有真濟資料是舊地名讀音,音節數嘛可能佮讀音一抑是站名會對袂起來,所以 2023 教典改版就共讀音二囥佇「又唸作」,並且佇後壁用括號註明對應的漢字。
image

主題➑:教典祕密資料

8.1 祕密詞彙比較表

教典附錄/方言差/詞彙比較表

教典的詞彙比較表攏總有收錄 1002 的無仝主題的表格,但是並毋是每一條攏有對應的詞目,有一寡干焦有表煞無詞目,下跤的連結是教典附錄頁面的詞彙比較表清單,會當看著表格佮詞目的對應關係,其中詞目欄是空白的部份就是無對應詞目的,一般人揣教典是掀袂著的,一定愛下載辭典文字資料才看會著。

這款無對應詞目的攏總有 47 條,我另外有整理佇下跤的連結:
教典秘密詞彙比較表

image

8.2 近反義詞不單列條目者的又唸作

8.2.1 💁 請綴我做

  • 拍開「又唸作」工作表,利用篩選器共詞目類型是 近反義詞不單列條目者 的又唸作揀出來

關係「近反義詞不單列條目者」的詞目網址僻智識

  • 「近反義詞不單列條目者」其實嘛有家己的網址通好入去,而且有的詞有「又唸作」屬性,平常時仔佇教典是看袂著的,算是教典隱形資料
  • 這个問題我捌寫批和教育部反應過,承辦人員講這是後續擴充事項,遮的詞以後嘛有可能有單獨的詞目
批信內容佮承辦人回批的截圖

image

8.3 近反義詞表格內底的祕密資料

  • 拍開 義項tuì詞目近義 工作表,用篩選器共「詞目」欄的「#NA」揀出來

近反義詞的列表有六个表,分別是 詞目tuì詞目義項tuì詞目義項tuì義項 的近義詞佮反義詞關係,其實表格內底有藏一寡詞目佮義項並無列佇 詞目義項 表格當中。

遮的資料有一寡是 2023/2024 新收詞的近反義詞不單列條目者,其他推測可能是猶咧編輯猶未正式公佈的資料,這个問題已經寫批共團隊反應矣,教育部有講後續會修改。