這份講義文字內容以 CC-BY 4.0 授權開放逐家利用
逐家好 🙋♂️,今仔日的這門課會𤆬逐家十个實作活動,沓沓仔𤆬逐家練習 REGEX 正規表達式,閣會共教典的文字資料 táng-lóo 落來用 Google sheet 做處理,共規本教典掀透透,揣出濟濟巷仔內才知影的教典祕密資料,順紲共教典的僻智識講予恁聽。
我是今仔日的講者陳建中,自舊年九月佇面冊開始寫教典僻智識系列文章,目前已經 34 篇文章矣,攏有整理佇教典僻智識系列分類索引,通好揀你有興趣的主題看喔。
2008年10月:臺灣學術網路試用版(截圖來源)
2011年7月:臺灣學術網路正式版
2023年6月:臺灣學術網路第二版(2024年8月26日改名做教育部臺灣台語常用詞辭典)
新版教典的幾若个重點更新內容
教典最近兩冬攏有增加新收錄的詞,有補充真濟捷講以早煞無收入去的詞,比論講「肉燥飯 bah-sò-pn̄g」、「臺票 Tâi-phiò」,所有這兩冬新收錄的詞我攏有整理佇頂面的 Notion 頁面,歡迎逐家罔參考
延伸閱讀:教典相命術——揣著你的教典命運詞
重點筆記
27573
个詞目、毋過 ID 上大有編甲 29601
,中央有閬縫揣看覓,家己生日、手機仔號碼後壁4碼、抑是任何對你有意義的數字對應教典啥物條目,佇 Padlet 分享你的人生代表詞。
- 名姓查詢附錄
- 延伸閱讀:名姓查詢附錄發展過程 by 林佳怡
- 延伸閱讀:實用工具——做一改講我的名(大量名姓讀音做一改查詢)
- 延伸閱讀:台語名姓音讀的原理原則—教典編輯說明
重點筆記
分別用 iTaigi 你的名字 佮 教典名姓查詢附錄,揣看覓野球 12 強冠軍投手 張奕先生的名,想看覓:
先莫偷看參考解說,共你的想法寫佇 Padlet。
iTaigi 的結果並無正確,因為 iTaigi 的時代干焦是用教典有收錄的漢字讀音去鬥名姓的讀音。
張奕先生的名應該是 Tiunn I̍k,毋是 Tiunn Ī。
教典定「奕」讀 ī 是用佇「奕牌仔」、「奕棋」的替代用字。「奕」這字的文讀音 i̍k 教典並無收錄。
新版教典搜揣使用者體驗改良
以早的教典咧搜揣進前愛先選「精確」抑是「模糊」,若是揀毋著閣愛揤頂一頁重來,揣例句嘛干焦通好用「全文」,閣愛一條一條點入去看。這馬的搜揣體驗誠實是進步足濟
舊教典搜揣體驗錄影
用羅馬字揣例句的時陣,隨在你輸入「臺羅」、「白話字」、「臺羅傳統版」、「數字式臺羅」、「數字式白話字」攏會使,濫做伙揣嘛無問題,就算你寫 ko͘ khut8 che̍h tsing2 嘛揣會著 孤𣮈絕種 koo-khu̍t-tse̍h-tsíng
詞目。
延伸閱讀:教典僻智識23:連字符入門1—「詞」內底的音節連寫
延伸閱讀:教典僻智識23:連字符入門2—「詞組」內底的詞佮詞「基本上」分寫
咧揣羅馬字的時陣連字符號有寫佮無寫是無影響的,無論是輸入 thâu-mn̂g
抑是 thâu mn̂g
攏揣會著 頭毛 thâu-mn̂g
。針對詞目佮例句無法度針對連字符號做搜揣,嘛袂使輸入 --
揣輕聲
-
會揣著啥?延伸閱讀:教典僻智識1:巷仔內才知影的外來語詞
有一種其實是例外,就是寫佇漢字欄位的連字符號,干焦外來語詞會佇漢字欄寫羅馬字,就按呢咱會當用 -
揣著所有兩音節以上的外來語詞,嘛會使共藏佇方言差表的外來語詞掠出來,下跤的十一條外來語詞是藏佇方言差表無單獨條目的外來語。
另外,若是怙例句搜揣功能「用臺灣台語查用例」查 -
,會揣著四句內底有包含外來語詞的例句。
。
會揣著啥?延伸閱讀:教典僻智識11:關係教典俗諺的一寡僻智識
俗諺語的詞目除了「仙人拍鼓有時錯,跤步踏差啥人無?」攏是以句號 。
做結尾,所以查 。
就通好揣著多數的俗諺語例句。
另外閣有一个特性,因為羅馬字的句號 .
有 REGEX 的功能,致使查 ah-á-thiann-luî
揣會著「鴨仔聽雷。 ah-á-thiann-luî.」 詞目,查 ah-á-thiann-luî.
顛倒揣無,因為系統會當做你咧用 REGEX 搜揣。這个問題已經寫批共教育部團隊講矣,承辦人有回覆講會加入後日功能更新的評估。
啥物是正規表達式(Regular Expression, REGEX)?
REGEX 是一種通好表示「文字的抽象規則」的語法,透過 REGEX 會使表達各種邏輯佮規律。
教典的「用臺灣台語查詞目」欄位會當用正規表達式揣符合規律的漢字佮羅馬字
延伸閱讀:- 正規表達式入門①——基礎概念、按怎揣漢字
延伸閱讀:- 正規表達式入門②——揣羅馬字的撇步
REGEX語法:基礎三符號
.
用一个點代表任何符號^
限制開頭。像 ^阿
通好揣著所有「阿」開頭的詞目$
限制結尾,像 店$
通好揣著所有以「店」做結尾的詞目^
佮 $
箍起來,就通好限制字數,像 ^.$
通好揣著所有干焦孤一字的詞目會用得 ē-īng-tit
、會堪得 ē-kham-tit
阿不倒仔 a-put-tó-á
、愛睏藥仔 ài-khùn-io̍h-á
袂拄好 bē-tú-hó
、無拄好 bô-tú-hó
.
(所有的符號攏至少有一个符號,所以寫一个點就通好代表任何的詞目,攏總有25281條)^會.得$
^...仔$
^..好$
REGEX語法:多選一、重複
[]
內底,表示其中任何一个,像 [紅黃青綠藍紫烏白]
會當做一改揣八種色水、 [一二三四五六七八九十]
會當做一改揣十个數字()
箍起來,閣照順序用 \1
\2
表示重複出現。像 ^(.)\1$
會揣著兩字疊詞, ^(.)(.)\1\2$
會揣著 ABAB 疊詞暗漠漠 àm-bo̍k-bo̍k
、暗趖趖 àm-sô-sô
省事事省 síng-sū-sū-síng
紅記記 âng-kì-kì
、烏㽎㽎 oo-sìm-sìm
一必一中 it-pit-it-tiòng
、三不五時 sam-put-gōo-sî
^.(.)\1$
(註:寫 ^.([^a-z])\1$
會閣較好,後一段會介紹)(.)(.)\2\1
^[紅黃青綠藍紫烏白](.)\1$
^[一二三四五六七八九十].[一二三四五六七八九十].$
用 REGEX 搜揣詞目的時陣,漢字佮羅馬字攏會做比對,所以若是咧用 ^(.)\1.$
揣 ABB 疊詞的時陣,嘛會揣著「烏 oo1」,所以咱閣愛用一寡技巧去避免揣著無相關的物件。
REGEX語法:範圍表示、排除
[]
會當表示多選一,毋但會使做一改寫足濟符號,閣會使用 -
描述範圍,像 [a-z]
會使代表任何一个小寫羅馬字母,[0-9]
會使代表任何一个阿拉伯數字^
就代表排除,像[^a-z]
會使揣任何一个毋是羅馬字的符號,若是欲揣漢字,咱就會使用這个語法取代其中一个 .
共羅馬字排除袂食袂睏
,搜揣結果愛排除方言差表三峽偏泉腔的 挨 ere1
、鞋 ere5
、矮 ere2
等結果^([^a-z]).\1.$
有一寡符號的數量無確定抑是無固定,咱就需要下跤的語法描述:
REGEX語法:數量表示
?
會使代表這个符號「有也好無也好」,也就是出現 0 改抑是 1 改*
代表這个符號「出現幾改攏會使」,也就是出現 0 改抑是以上+
代表這个符號「至少有一改」,也就是出現 1 改抑是以上雞喙變鴨喙
,搜揣結果愛包含俗諺語附錄的五字詞,像見笑轉受氣。
;搜揣結果愛排除俗諺語附錄的四字詞,像鴨仔聽雷。
^[^a-zòá]...[^。]$
(註:閣有 á-geh
佮 òo-bà
愛排除,寫較長咧寫^[^a-z][^a-z][^a-z][^a-z][^。]$
)嘛會使[一二兩三四五六七八九十].*[一二兩三四五六七八九十].*[一二兩三四五六七八九十]
主題性詞目 REGEX 句法創作
教典的網址通好共你搜揣的結果分享予別人,只要善用 REGEX,就通好揣出一寡有主題性的詞彙列表分享予別人。
紲落來請逐家發揮創意激頭腦,創作一个正規表達式,揣出一寡有主題性的結果,共語法佮網址分享去 padlet!
咧用 REGEX 揣羅馬字的時陣,資料是特別經過標準化的模樣,有下跤三个特性:
像 a-î
會標準化變做 a1 i5
,下跤閣有一寡例:
臺羅 | 標準化 REGEX 羅馬字 |
---|---|
kan-lo̍k | kan1 lok8 |
a̋i-sat-tsuh | ai9 sat4 tsuh4 |
Bí-kok-thôo-tāu | bi2 kok4 thoo5 tau7 |
Àm-tǹg kiám tsia̍h tsi̍t kháu, ua̍h kah káu-tsa̍p-káu. | am3 tng3 kiam2 tsiah8 tsit8 khau2, uah8 kah4 kau2 tsap8 kau2. |
羅馬字音節的組成
[^ ]
就代表一个組成羅馬字音節的符號, [^ ]+
就通好代表一个音節。(至少有一个毋是空白的符號)^[^a-z]...$
有啥物精差?^[^ ]+ [^ ]+ [^ ]+ [^ ]+$
,按呢揣會使揣著真正是四个音節的詞目、俗諺語,閣揣會著外來語詞「tsioo-kóo-lè-tòo」限制聲調
[^ ]+
後壁閣加一个數字去限制這个音節的聲調,像 [^ ]+2
限制是第二調,[^ ]+[48]
代表是入聲。[^ ]+p[48]
會使限制揣入聲 p 韻尾的音節。^[^ ]+5 [^ ]+3 [^ ]+1
[^ ]+h[48]$
限制聲母
[^ ]+
的頭前加上你欲限制的聲母,像 j[^ ]+
限制聲母是 j。t
th
ts
tsh
上頭前攏是 t
,若是欲揣聲母 t
,愛會記得限制後壁袂當接 s
佮 h
,寫 t[^sh][^ ]+
。kh
、ng
、ph
、th
、ts
、tsh
六个,愛注意 k
、p
、t
、n
相關的聲母。練習:
^k[^h][^ ]+ h[^ ]+$
^t[^sh][^ ]+ th[^s][^ ]+$
^k[^h][^ ]+ t[^sh][^ ]+$
限制韻母
[^ ]+[1-9]
代表無限制聲調,閣共想欲揣的韻母寫佇中央。像 [^ ]+iang[1-9]
會使限制揣 iang
聲母。a
韻母,就愛排除 ia
ua
an
ian
iam
iang
am
等等,所以愛寫做 [^ ]+[^iu ]a[^nm ][1-9]
練習:
ia[^mn ][ptkh]?[1-8]$
(排除 ian iam,閣愛考慮入聲有 ptkh 的狀況)^[^ ]+ian[1-8] [^ ]+iong[1-8]$
創作練習
請利用 REGEX 揣著適合的押韻的詞彙創作七字仔抑是歌詞,抑是一寡趣味的語句,共你的成果分享去 Padlet
參考文章:台語「四句聯、相褒、唸歌」的格律、押韻規則—潘科元
郭沫若沒出息,不積極閱讀學習熱力學學術力作,讀碩卻不續讀博。
浙北谷穴賊作,郭躑躅不決,擊敵不力,罰祿失職,實屬屈辱。
食齷齪的垃圾食物卻不食六畜熟肉及綠色麥穀,喝血及蜜卻不喝白色的雪碧。
不服佛法,日日月月極作孽,掠獲鹿鴨鶴雀,直接握鐵戟殺戮,切赤舌,鑿白骨,拔黑髮,斫肉末,確實毒辣刻薄,觸及法律。
宅植苜蓿不植菊,客室角落沒竹沒木亦沒石。
特別渴,悒鬱寂寞得哭,納禿髮妾入屋,熱不沐浴,熄滅蠟燭,急摸席側的雪白玉足。
食色蝕力,弱不敵疾,卻一直覺得不值得吃藥。
一夕,忽卒。
臺羅版本源自複製文圖書館台文翻譯館 Ho̍k tsè bûn tôo su kuán Tâi bûn huan i̍k kuán
Kok bua̍t-lio̍k bu̍t tshut-sik, put tsik-ki̍k ua̍t-tho̍k ha̍k-si̍p jia̍t-li̍k-ha̍k ha̍k-su̍t li̍k-tsok, tho̍k si̍k khiok put sio̍k tho̍k phok.
Tsiat pok kok hia̍t tsi̍k tsok, kok ti̍k-to̍k put kuat, kik ti̍k put li̍k, hua̍t lo̍k sit-tsit, si̍t-siok khut-lio̍k.
si̍t ok-tshok tik lap-sap si̍t-bu̍t khiok put si̍t lio̍k-thiok si̍k-jio̍k ki̍p li̍k-sik bi̍k-kok, hat hiat khiok put hat pi̍k-sik tik suat-phik.
put ho̍k hu̍t-huat, ji̍t-ji̍t gua̍t-gua̍t ki̍k tsok-gia̍t, lio̍k-hi̍k lo̍k ap ho̍k tshiok, ti̍t-tsiap ak thiat kik sat-lio̍k, tshiat tshik-sia̍t, tsho̍k pi̍k-kut, puat hi̍k-huat, tsiok lio̍k-bua̍t, khak-si̍t to̍k-lua̍t khik-po̍k, tshiok-ki̍p huat-lu̍t.
thi̍k si̍t bo̍k-siok put si̍t kiok, khik sik kak-lo̍k bu̍t tiok bu̍t bo̍k i̍k bu̍t si̍k.
ti̍k-pia̍t khat, ip-ut tsi̍k-bo̍k tik khok, la̍p thut-huat tshiap ji̍p ok, jia̍t put bo̍k-io̍k, sik-bia̍t la̍p-tsiok, kip bo̍k si̍k tshik tik suat-pi̍k gio̍k-tsiok.
si̍t sik si̍t li̍k, lio̍k put ti̍k tsi̍t, khiok it-ti̍t kak-tik put ti̍t-tik khit io̍k.
it si̍k, hut tsut.
經過足濟練習 REGEX 的過程,是毋是略仔有概念矣?抑是已經舞甲足花足花😵💫?
來做伙共 REGEX 搜揣的思考理路畫做心智圖👍
延伸閱讀:舊教典資料檔(萌典 github)
教典的原始資料才是教典較原始的形態,提遮的資料來分析,會當開發出閣較濟教典網頁無的功能,嘛會使觀察著閣較濟的趣味代。真濟教典的民間延伸專案(萌典、ChhoeTaigi、芋圓台語辭典)攏是對辭典文字資料來的。
辭典資料僻智識
只要善用一寡表格函數,就通好予教典文字資料的表格閣較好用,頂面的連結是是經過陳建中加工整理的教典文字資料,所有的「詞目」、「義項」、「例句」、「又唸作」等等的表格攏有共對應的詞目資料囥入去,嘛有教典的網址連結,予逐家看資料會閣較方便。另外閣有增加一寡功能佮資料表格,方便咱揣著特定的詞目佮資料。
請揤「檔案」→「建立副本」khóo-phih 一份到家己的 Google 口座利用,後壁的一寡活動嘛會佇這个表格進行。
篩選器[thai-suán-khì] 是 Google Sheet 真實用的功能,會當建立一个方便篩選資料的介面,會當做排序、設條件揀家己欲愛的資料
詞目
工作表共篩選器開開,揀出無仝詞目類型
的詞目義項
工作表共篩選器開開,揀出無仝 詞性
的義項下跤兩个問題請逐家想看覓,共你的想法寫佇 Padlet,先莫偷看參考解說喔!
詞性
欄位會無寫留空白?共欲揣教典所有的 量詞
抑是 擬態詞
用這个表格會真方便
另外閣有提供照音節數索引的功能,只要你共教典所有的四字熟語攏背起來,逐家的台語攏是「高級班」!
教典文字資料其實嘛毋是完整的教典資料,內底並無提供漢字的「筆畫」、「部首」、「文/白/俗/替」的屬性,我有寫一个爬蟲程式共遮的資料攏揣出來佇下跤的表格予逐家參考。
(毋過教典的文白音區分標準、俗音佮替代用字的認定有真濟爭議,請逐家罔參考就好)
教典網頁無允准人用 REGEX 揣例句,毋過用 Google Sheet 的搜揣功能(揤 Ctrl+Shift+H),抑是「活用教典 101」的「例句 REGEX 搜揣」工作表,就通好利用 REGEX 揣例句喔。
例:
921彼擺塗牛翻身,幌甲真嚴重,連臺北的大樓都搖甲倒去。
921 hit pái thôo-gû-huan-sin, hàinn kah tsin giâm-tiōng, liân Tâi-pak ê tuā-lâu to iô kah tó–khì.
例:
伊做著涼勢涼勢,別人來做就無遐熟手!
I tsò tio̍h liâng-sè-liâng-sè, pa̍t-lâng lâi tsò tō bô hiah si̍k-tshiú!
例:
這台oo-tóo-bái的ia̋n-jín愛拆,你去共我遐的家私頭仔提來。
Tsit tâi oo-tóo-bái ê ia̋n-jín ài thiah, lí khì kā guá hia-ê ke-si-thâu-á the̍h–lâi.
例:
二九暝 Jī-káu-mê/Lī-káu-mî
七娘媽 Tshit-niû-má
例:
安太歲 an Thài-suè
漳泉濫 Tsiang-Tsuân-lām
王哥柳哥 Ông–ko-Liú–ko
例:
閣刣看會減淡薄仔無?
Koh thâi khuànn ē kiám--tām-po̍h-á–bô ?
糋的物件較厚油,食一半擺仔是無要緊,若傷捷食對健康會有影響喔!
Tsìnn ê mi̍h-kiānn khah kāu iû, tsia̍h--tsi̍t-puànn-pái-á sī bô iàu-kín, nā siunn tsia̍p tsia̍h tuì kiān-khong ē ū íng-hióng–ooh!
連.+都
(.)(.)\1\2
(.)(.)(.)\1\2\3
(.)(.)(.)(.)\1\2\3\4
[a-zA-Z]
^[A-Z]
[ -][A-Z]
--[^ -]+--?[^ -]+--?[^ -]+--?[^ -]+
羅馬字清單
佮 漢字羅馬字對應
兩个工作表是程式自動產生,有整理所有教典的羅馬字音節,閣有漢字羅馬字的對應關係。嘛有列出來源
透過觀察這兩个表,會當揣著真濟你以早毋捌注意過的教典特例,請先綴我操作,做伙來觀察羅馬字清單的機關。
拍開 羅馬字清單
,快速共規个清單巡過,觀察內底明顯毋是臺羅的物件,並討論下跤四个問題,共你的想法寫佇 Padlet:
釋義
的白話字音節 ōe
是啥?詞彙比較
的日文khá-nah け
じ
ゃ
ん
是啥?詞彙比較
的漢字像 中
大
婆
是啥?又唸作
的漢字像 下
二
冬
是啥?ōe
以早舊教典的真濟附錄攏是獨立的表格,佮一般詞目的格式無啥仝,2023 改版才統一,結果就致使講一寡資料的轉換會出現一寡較歹處理的所在,就會造成特例。
以早的火車頭地號名表格毋是一般詞目的「主音讀/第二優勢腔」+「又唸作」。是像下跤的圖按呢「站名」加上「讀音一」佮「讀音二」,其實原底按呢處理就免去改漢字,就是一个表予人知影華語寫遐的漢字站名的火車頭台語按怎稱呼。(會當對 Web Archieve 看舊教典附錄的格式)
「讀音二」內底有真濟資料是舊地名讀音,音節數嘛可能佮讀音一抑是站名會對袂起來,所以 2023 教典改版就共讀音二囥佇「又唸作」,並且佇後壁用括號註明對應的漢字。
教典的詞彙比較表攏總有收錄 1002 的無仝主題的表格,但是並毋是每一條攏有對應的詞目,有一寡干焦有表煞無詞目,下跤的連結是教典附錄頁面的詞彙比較表清單,會當看著表格佮詞目的對應關係,其中詞目欄是空白的部份就是無對應詞目的,一般人揣教典是掀袂著的,一定愛下載辭典文字資料才看會著。
這款無對應詞目的攏總有 47 條,我另外有整理佇下跤的連結:
教典秘密詞彙比較表
近反義詞不單列條目者
的又唸作揀出來關係「近反義詞不單列條目者」的詞目網址僻智識
義項tuì詞目近義
工作表,用篩選器共「詞目」欄的「#NA」揀出來近反義詞的列表有六个表,分別是 詞目tuì詞目
、義項tuì詞目
佮 義項tuì義項
的近義詞佮反義詞關係,其實表格內底有藏一寡詞目佮義項並無列佇 詞目
佮 義項
表格當中。
遮的資料有一寡是 2023/2024 新收詞的近反義詞不單列條目者,其他推測可能是猶咧編輯猶未正式公佈的資料,這个問題已經寫批共團隊反應矣,教育部有講後續會修改。
今仔日的十个實作活動,希望會當予逐家真濟新的想法,只要加觀察規律,斟酌去想教典的規則佮結構,善用表格抑是程式家私就會當發現真濟機關。逐家會當閣進一步想看覓,啥物款的資料是你想欲揣的?會當用啥物家私鬥揣出來?
希望遮的活動予逐家感覺心適,歡迎逐家共你的想法透過下跤的表單共我分享:
表單連結
歇寒結束閣欲𤆬新的班,需要做台語的點名單?
用名姓查詢附錄一个一个揣傷費時間,緊用「做一改講我的名」做一改處理好勢
毋但是教典,甘字典、台日大辭典佮一寡其他的字辭典的原始資料嘛會當提來處理,多數的這款公開資料攏會用得佇 ChhoeTaigi 字詞資料許揣著。
ChhoeTaigi 找台語:台語字詞資料庫
Kam Jī-tián Chu-liāu-khòo
《台日大辭典》台語譯本資料
國教院臺灣台語語料庫應用檢索系統
咧用佮文字長度相關的功能的時陣,定定會有一寡違反直覺的狀況,像「台」佇多數程式環境當中算是「一个」字,「𠕇」煞會予認定做是「兩个」字,相關的特性佮原理請參考下跤文章解說。
定定聽人講「台語喜歡和華語唱反調,華語熱鬧
台語就要講鬧熱
,颱風台語就要講風颱
……」,你敢會好奇這類的詞教典有收偌濟?這个表格整理所有教典內底的台/華語序顛倒反的詞,閣有台語本身一寡有 AB|BA 閣有 ABC|BCA 關係的詞彙組!
教典倒反詞-Google Sheet
2023/2024 兩冬教典攏有大更新,攏總新收錄 550 條新的條目,這个 Notion 頁面共這兩冬新收錄的詞攏整理佇遮通好直接看喔。
教典新收詞-Notion
欲揣教典所有的 量詞
抑是 擬態詞
用這个表格會真方便
另外閣有提供照音節數索引的功能,只要你共教典所有的四字熟語攏背起來,逐家的台語攏是「高級班」!
教典詞目詞性/音節數索引-Google Sheet
教典文字資料其實嘛毋是完整的教典資料,內底並無提供漢字的「筆畫」、「部首」、「文/白/俗/替」的屬性,我有寫一个爬蟲程式共遮的資料攏揣出來佇下跤的表格予逐家參考。
(毋過教典的文白音區分其實有真濟烏白標,逐家莫傷相信;閣有俗音佮替代用字的認定嘛有受真濟批評)
教典漢字詞目-Google Sheet