# <font color="#000000">臺灣話 ê (數位)開放內容現況-以臺灣閩南語維基 kah Wikidata做例 </font> <!-- Put the link to this slide here so people can follow --> <font color="#000000">slide: [https://hackmd.io/@wikidata-tw/HkYR08Vuc#/](https://hackmd.io/@wikidata-tw/HkYR08Vuc#/)</font> <!-- .slide: data-background="https://i.imgur.com/cOXo0Yj.jpg" --> <font color="#000000">COSCUP 2022 台灣維基協會 陳瑞霖</font> Note: 逐家好,我sī陳瑞霖,sī OpenStreetMap kah Wikidata 社群ê參與者, 今仔日ê題目sī「臺灣話ê(數位)開放內容現況-以臺灣閩南語維基 kah Wikidata做例 」 紹介台灣話欲按怎tī線頂ê百科全書來書寫臺灣話 --- ## 我 sī 啥人? - Supaplex - OpenStreetMap :heart: Wikidata :heart: - Wikimedia Taiwan :cat: Note: 阮網路上ê名號sī Supaplex,這馬 tī OpenStreetMap kah Wikidata 社群走傱 mā-sī 台灣維基協會ê理事 --- ## 舊年 ê 演講 * 維基百科嘛ē-tàng寫台語 * 毋但 POJ,嘛會當寫台文漢字 * 需要新ê人來寫 Note: 最近學台語變時行,毋過無啥人欲來寫閩南語維基百科,雖然舊年有林阿猴來講伊寫ê經驗 你這馬拍開zh-min-nan Wikipedia,攏sī看著白話字,其實你嘛會當寫台文漢字 需要新ê人參與 ---- ## 新年 ê 向望 * 無欲吵名號,無欲探討書寫系統 * 台語ê復興運動 * 學台語ê風氣興 * 台語娛樂親像歌曲猶是ū群眾 * Wikidata 辭條hōo外國人注意 Note: 我欲強調,我無欲吵這个語言愛叫啥,抑是欲用佗一个書寫方式 頭一頁講著台語ê復興運動,長期sī台語主要ê發表領域ê台語歌壇,嘛ū愈來愈濟ê歌曲sī用教育部規範ê台文漢字 我參與 ê Wikidata --- ## 台灣台語 ê 數位化挑戰 * 口說傳統強,書面無時行 * (漢)本字之爭 * 白羅字 vs 漢字 * 重建zh-min-nan Wikipedia社群 Note: 台語sī臺灣代表性ê語言相信逐家sī同意ê,口說kah娛樂圈sī重要ê語言,毋過tī數位化方面,濟濟問題 欲選漢字ū本字之爭,POJ 抑是漢字ê問題 zh-min-nan無啥人寫,愛重建 --- ## 臺灣話 kah 臺灣閩南語 * 官方名稱:臺灣閩南語(Tâi-uân Bân-lâm-gú/Tâi-uân Bân-lâm-gí/Tâi-uân Bân-lâm-gír) * 歷史上ê 名稱:臺灣話,臺語 * 新 ê 官方名稱:臺灣臺語(研擬) * 東南亞:Hokkian/Hokkien/福建話 * 菲律賓:咱人話/咱儂話 * 客家人予 ê 稱呼:鶴老話 Note: 真濟人無愛閩南語這个名號,毋過臺灣閩南語sī目前ê官方名號 歷史上有人講叫做臺灣話,台語 官方ū拍算欲改做台灣台語這个名 福建話(Hok-kiàn-uē),sī 自稱 mā-ū 別人 hōo-ê 稱呼,mā-ū 對家己 ê 角度 ê 稱呼 ê 咱人話。客人sī叫鶴老話 ---- ## 台灣話 ê 定位-青盲摸象 ![](https://upload.wikimedia.org/wikipedia/commons/1/17/Illustrated_proverb-_Blind_men_and_an_elephant.jpg) <a href="https://commons.wikimedia.org/wiki/File:Illustrated_proverb-_Blind_men_and_an_elephant.jpg">Pawyi Lee</a>, Public domain, via Wikimedia Commons Note: 逐家lóng知影青盲摸象ê故事,台灣話mā-ū相𫝛ê狀況,有人講台灣話sī古早ê漢語,嘛有人講幾若代 ê 官方 sī講台語 ê 敢有影? ---- ## 台灣話 ê 定位-濟來源 * ū 上古漢語ê詞-鼎 * ū 文讀系統-真濟中古漢語ê詞-劍(kiàm)、箭(tsìnn)ê分別,念唐詩較合韻(相對華語) * ū 南方族群百越-狀侗語族ê底層-虼蚻、狗蟻、風颱 * 和製漢字,日文來ê詞-thôo-má-toh Note: 實際上 ê 狀況sī臺灣話ū真濟來源,無遐古早,差不多唐朝時形成 ê 臺灣話 ū 上古漢語ê古早時字,譬如講鼎 中古漢語影響臺灣話ê文讀音,所以唸唐詩較合韻 ū一寡字華語變走音ah,但是tī-teh臺語猶是照中古音 mā-ū 百越ê影響,台灣話ê底層詞,會當tuì虼蚻, 狗蟻 ka 起頭ê詞,sī 非漢語ê 風颱這个詞相對華語 sī 倒反(tò-píng) ê ---- ## 台灣台語 ê 危機 * 政治弱勢 * 少年輩較袂曉講 * 會曉書寫方式ê人真少 * 出版品不足 * 數位書寫不足 Note: 台語ê現代化問題:政治上弱勢,少年人普遍較袂曉講,捌書寫方式的人少,整體出版品不足,數位空間書寫嘛少 ---- ## 台語腔口 kah 用詞 * 近溪炊魚 * 皮鞋 * 柑仔蜜 vs thoo-má-tooh * 露西亞 vs 俄羅斯 Note: 因為整體sī弱勢ê,嘛袂注意著各地頭ê腔口、用詞差異,外來語選日語ia̍h-sī華語來源ê詞?這攏愛注意 --- ## 維基頂懸 kah 臺灣話相關ê計劃 * [閩南語維基百科](https://nan.wikipedia.org/) * [維基辭典](https://www.wiktionary.org/) ** [英文維基辭典](https://en.wiktionary.org/wiki/Wiktionary:Main_Page) ** [中文維基辭典](https://zh.wiktionary.org/zh-hant/Wiktionary:%E9%A6%96%E9%A1%B5) ** [閩南語維基辭典](https://zh-min-nan.wiktionary.org/wiki/Th%C3%A2u-ia%CC%8Dh) * [維基數據](https://wikidata.org) ** [辭條](https://www.wikidata.org/wiki/Wikidata:Lexicographical_data) Note: 辭典無夠好,網路頂揣人來同齊(tâng-tsê)來編寫 ū閩南語維基百科,維基辭典,猶有新興ê維基數據(sòo-kù)mā會當寫辭條 ---- ## 是按怎 bô 臺灣話維基百科 * 臺灣臺語無獨立的 ISO 639-3 代碼 * 臺灣話 ê Wikipedia ài ū 家己 ê 代碼 * 關心ê臺灣人愛了解規則,愛家己tī-teh國際來爭取 * 家己mā ài ū共識 * 相𫝛語言無仝ê代碼例: ** 塞爾維亞語(srp)/克羅埃西亞語(hrv) ** 馬來西亞語(ms)/印尼語(id) Note: Ū真濟人無愛閩南語這个名號,就無愛插閩南語維基百科。這sī因為臺灣話sī無獨立ê ISO 639-3 ê 代碼 對語言學ê角度來講,ū兩組語言,Serbian/Croatia、Bahasa Melayu/Bahasa Indonesia sī真相𫝛,毋過 ū 無仝 ê 代碼,受著政治邊界 ê 影響 ---- ## ISO 639-3 nan 拆做 11 个代碼的提案 * 意傳科技kah一寡團體[申請](https://iso639-3.sil.org/request/2021-045) iso 639-3 新代碼予台灣台語 * 台灣台語:oan * 原來nan之下攏總分做 11 ê:雷州話、海南話、海陸話、浙南閩語、潮汕話、漳泉話、龍嚴話 etc Note: 意傳科技佮一寡團體共同申請,欲共原來nan代碼拆開,變成11ê新代碼,包括台灣台語ê oan 其他相關語言,親像雷州話、潮州話、海陸話,根據提案有新ê代碼 --- ## 閩南語維基百科 * 白話字為主,排斥漢字(教會ê人) * 小數 ū 漢字版本 * 毋過視作過度ê,態度上sī ài學習白話字來寫 * ū台語人無遐熟白話字所以無啥人來寫 * 社群無活力,無綴著最近ê台語復興風潮 Note: 閩南語維基百科白話字為主,hōo人講排斥(pâi-thik)漢字,所以漢字ê內容真少 𪜶認為用白話字來寫較著,所以造成無人來寫,社群無活力(ua̍h-li̍k) ---- ## 閩南語維基百科 [Tâi-tang-koān](https://nan.wikipedia.org/wiki/T%C3%A2i-tang-ko%C4%81n) án-ni niā-niā ![](https://i.imgur.com/ZbkYMmJ.png) Note: ISO-639-3 hōo 閩南語 ū 獨立 ê 代碼sī teh 閩南語維基百科成立後tsiah-ū ê,所以後來 ū 對nan轉址到 zh-min-nan 社群 bô 活力,kah台灣相關ê條目,親像臺東縣無啥人tī-teh寫,敢若 ū 底下 ê 鄉鎮市 ê 連結 --- ## nan 百科問題 * 排斥漢字 * 傷濟行政區,欠缺科學相關條目 * 重覆條目無用重定向 * 濟條目無對應 Wikidata 連結 * 無使用永久重覆項處理無仝書寫方式 Note: 咱來看 nan Wikipedia 問題,早期參與者ê決定,𪜶排斥(pâi-thik)漢字,無愛人來寫漢字 為著條目ê數量夠濟,大量用機器人加添無啥內容ê地號名 應對小數漢字版本ê條目,嘛無用永久重複項處理tī Wikidata ê 連結問題 --- ## 問題案例1:重覆匯入波蘭地號名 ![](https://i.imgur.com/34pAuwY.png) Note: 重複匯入資料,仝款ê波蘭地號名。臺灣遮嘛有人做佮Cebu仝款的代誌,大量機器人去創造條目,毋過後續無人來編輯 --- ## 問題案例2:上千條無對應 Wikidata ![](https://i.imgur.com/7McrjBB.png) Note: 無對著較新 ê Wikidata 計畫,zh-min-nan Wikipedia ū 上千ê條目無對應到Wikidata --- ## 問題案例3:重覆 ê 台北市 ê 里 ![](https://i.imgur.com/WvSv8co.png) Note: 進前兩冬有處理匯入臺灣村里到 Wikidata 遐,自本sī認為干焦ū兩三个人仝時做,無細膩重複。毋過代誌毋是咱想ê遐簡單 --- ## 問題案例3:重覆 ê 台北市 ê 里 ![](https://i.imgur.com/MPomHNc.png) Note: 以早有人tī zh-min-nan 建立條目,干焦兩句話ê條目,毋過嘛hōo機器人建立對應 ê Wikidata 項目 --- ## 問題案例3:重覆 ê 台北市 ê 里 ![](https://i.imgur.com/WjEmd46.png) Note: 後來匯入時無檢查到,煞重複增加ê里 --- ## POJ kah 漢字共存 ê 可能-永久重覆項 * 客家話、閩東話有 buē-tsio 漢字 kah POJ ê 條目 * 予講仝一件代誌無仝ê書寫方式會當tī Wikidata 連結 Note: 因為長江南爿 ê 漢語族語言,比如講吳語、閩東話、客家話 ū 真深 ê 羅馬字拼寫傳統,佮官話系統音差真濟,所以仝款ê內容(luē-iông),ū 兩種無仝寫法ê頁面 tī Wikidata 遮就 hōo 其中一頁指定sī永久重覆頁面來處理,白話字kah漢字版本之間 iōng 永久重複項連結 ---- ## [永久重複項](https://www.wikidata.org/wiki/Property:P2959)(P2959) > 此項對應的重複項,且兩者不能被合併,因為同一維基媒體項目中包含兩個頁面,例如使用不同字母或語言 Note: 仝內容,毋過用無仝書寫系統,親像無仝字母抑是語言。以早是因為閩東語關係有用漢字抑是白話字的條目,所以提這个屬性property ---- ## [維基媒體永久重複頁面](https://www.wikidata.org/wiki/Q21286738)(Q21286738) > 此項目與其他項目重複,但兩項不能被合併,因為某一維基媒體項目上有兩個條目描述同一事物,例如使用不同的文字或語言。增加屬性P2959(永久重複項)以及連結至對應語言版本wiki頁面的項目 Note: 說明是無法度合併,因為書寫系統無仝。 ---- ## Wikidata 頁面 [中華民國永久重覆頁面](https://www.wikidata.org/wiki/Q22337467) ![](https://i.imgur.com/PNFXPJ8.png) Note: 來看覓咱國中華民國ê永久重複頁面,ū客家話、閩東話、zh min-nan,kah印度遐ê語言 ---- ## 永久重覆項關系 || 主項目 | 永久重覆項 | |------| -------- | -------- | |Wikidata| [Q865](https://www.wikidata.org/wiki/Q865) | [Q22337467](https://www.wikidata.org/wiki/Q22337467) | | zh-min-nan | [Tiong-hôa-bîn-kok](https://zh-min-nan.wikipedia.org/wiki/Tiong-ho%C3%A2_B%C3%AEn-kok) | [中華民國](https://zh-min-nan.wikipedia.org/wiki/Pang-chān:中華民國) | | hak | [Chûng-fà Mìn-koet](https://hak.wikipedia.org/wiki/Ch%C3%BBng-f%C3%A0_M%C3%ACn-koet) | [中華民國](https://hak.wikipedia.org/wiki/中華民國) | | cdo | [Dṳ̆ng-huà Mìng-guók](https://cdo.wikipedia.org/wiki/D%E1%B9%B3%CC%86ng-hu%C3%A0_M%C3%ACng-gu%C3%B3k) | [中華民國](https://cdo.wikipedia.org/wiki/中華民國) | Note: 咱來直接看仝語言,用無仝書寫系統是啥意思,zh-min-nan維基百科的中華民國條目有白話字kah台文漢字的版本 --- ## Wikidata 標籤(label) 描述(Description) 母語名稱([P1705](https://www.wikidata.org/wiki/Property:P1705)) 官方名稱([P1448](https://www.wikidata.org/wiki/Property:P1448)) Note: Wikidata 遮會當寫台語ê欄位(lân-uī):標籤,描述,母語名稱,官方名稱 --- ## Wikidata 辭條 [Wikidata辭條:箸](https://www.wikidata.org/wiki/Lexeme:L305178) ![](https://i.imgur.com/rXkl1wR.png) Note: Wikidataê辭條sī新ê物件,收語言資料 毋但主流ê語言,mā會當收小數語言 ---- ## Wikidata 辭條 意義 kah 翻譯 ![](https://i.imgur.com/ktG7XRc.png) Note: 辭條會當寫字詞ê意義,猶閣ū翻譯,翻譯會當連到別ê語言ê辭條 ---- ## Wikidata 辭條 ū 各種方音變體 ê 處理方式 ![](https://i.imgur.com/gL7PxDe.png) Note: 收無仝所在ê方音變體,台灣較ū聽著ê漳州腔,泉州腔,猶有鹿港仔腔(lo̍k-ka̋ng-á),安溪話,宜蘭腔,永靖腔(eng-tseng) ---- ## Wikidata 辭條 例句 ![](https://i.imgur.com/CF927La.png) Note: mā-ū收例句,主要iōng漢字kah羅馬字 ---- ## Wikidata ê 優點 * 跨語言,會當直接對英文ê資料 ** 擺脫台語倚佇華語底下ê情形 ** 國際接軌 * 會當寫bô-kâng ê書寫方式 * 連接資料 (Linked Data) Note: Wikidata親像in-ê兄弟維基百科,Wikidata sī國際化ê,所以mā會當直接連結外國語言 你無滿意當前ê書寫方式,mā會當照這種書寫方式來累積(luí-tsik)資料 愛注意ū可能無啥人bueh照你ê書寫方式來參與,你家己ài出較濟力 上重要 ê 一部份 sī 遮 ê 資料 sī Linked Data --- ## 姊妹仔計畫 ê 狀況 * OpenStreetMap ū 收 name:nan * Wikidata 有人寫台語的說明文件 * OpenStreetMap 嘛有人寫台語的文件 * Wikidata ū Label_nan,mā-ū 辭條 * 閩南語維基百科停滯不前 Note: 姊妹計畫ê狀況 sī ū 真濟計畫愈來愈重視本土語言,除了國際上時行ê語言,本地ê官方語言以外,在庄ê語言 mā ū 收錄 舉一个例,線頂共編 ê OpenStreetMap ū 收袂少 ê 台語地號名,相對之下閩南語維基百科無啥動能 ---- ## OSM 台語標示 [Overpass 檢索](https://overpass-turbo.eu/s/19i0) ![](https://i.imgur.com/oGXZgZt.jpg) Note: 咱親身看覓OpenStreetMap遮 用Overpass API來搜查(soo-tsa),大臺北尤其中永和ū真濟小地名,sī參照地方誌來標示。除了客家區,原住民區以外,真濟在庄小地名來源 sī 台語 ---- ## Wikimedia Map [Wikimedia Map lang label nan](https://maps.wikimedia.org/?lang=nan#7/24.722/117.806) OpenStreetMap ê 資料 [台文漢字](https://maps.wikimedia.org/?lang=nan-HJ#16/24.9725/121.5437)、[台羅](https://maps.wikimedia.org/?lang=nan-TL#16/24.9725/121.5437) ![](https://i.imgur.com/C6z5Uu4.png) Note: 維基基金會 ê 地圖 Wikimedia Map,mā會當改代碼來即時變成你想欲 ê 語言,nan sī 代表閩南話,改做nan-TL變成台羅標示,tī OpenStreetMap 遐ū資料ê攏會使顯示 ---- ## 閩南語維基百科 ê 計畫 * 緊來寫,毋管 sī POJ ia̍h-sī 漢字攏來 * 漢字用教育部[規範漢字](https://zh.wikipedia.org/zh-tw/%E8%87%BA%E7%81%A3%E9%96%A9%E5%8D%97%E8%AA%9E%E6%8E%A8%E8%96%A6%E7%94%A8%E5%AD%97) * 漢字-POJ版本佇Wikidata用永久重複項處理 Note: 講遐濟,我認為你真真正正關心台語,mā-ài開一寡時間貢獻台語ê書面化,會當貢獻tī線頂資料庫 趁著教育界統一用規範字,來閩南語維基百科用規範字來寫漢文版本,嘛是會當寫POJ內容,莫攏是機器人處理的地號名矣 --- ## 閩南語維基百科 ê 計畫 * 閩南語維基百科大量建漢字版本 * 臺灣本地的內容:縣市、行政區 * 科學智識 * Wikidata建永久重覆項 Note: 所以 ài tī 閩南語維基百科遐建立基礎,kā基礎ê資料建漢文版本,親像縣市行政區 mā-ài建 Wikidata ê永久重複項hōo程式了解 in ê關係 --- ## 台語腔口差 ê 處理 * 參與者寫啥就收 * 讀音的差異、字辭的差異 * 透過轉換系統來處理無仝的腔口差 * [中文維基百科的繁簡地區詞轉換系統](https://zh.wikipedia.org/wiki/Wikipedia:%E5%AD%97%E8%A9%9E%E8%BD%89%E6%8F%9B%E8%99%95%E7%90%86) ![](https://i.imgur.com/ac0V5UV.png) Note: 中文維基百科已經ū運作誠久ê轉換系統,處理ū規則ê kah 特殊 ê 地區用詞lóng會使 運作ê方式sī án-ni,ài先建腔口ê對照表,猶有用詞對照表 ---- ## 倡議之外多多來寫 * ISO-639-3 新代碼若是成功,閣來才有機會成立台語ê百科 * 來寫閩南語維基百科,抑是其他用臺灣台語的維基百科 * 來寫維基辭典 * 來寫Wikidata辭條 Note: 爭取ISO-693-3新代 學術ê成果hōo維基百科來當做文獻 ài-ū 人線頂協作參與共編ê計畫,多多來寫,寫啥物,來寫維基百科,維基辭典,Wikidata --- ## OSM x Wikidata 月聚 * 8/15 19:30 @摩茲工寮 * Facebook [OpenStreetMap台灣](https://www.facebook.com/groups/OpenStreetMap.TW/) Note: 工商服務時間, 8月初9希望解封,防疫第二級會當佇 Moz 工寮聚會,毋過無法度就繼續線頂虛擬(hi-gí)聚會(tsū-huē) --- ## 謝謝! :sheep: Q&A: []() 你會當佇紲來ê管道揣著我 - [GitHub](https://github.com/Supaplextw/)、[Wikidata](https://wikidata.org/wiki/User:Supaplex)、[OpenStreetMap](https://www.openstreetmap.org/user/Supaplex) - 或是 [email](mailto:dennis@wikimedia.tw) 我 - 臉書 [Wikidata Taiwan](https://www.facebook.com/groups/2212207218990971/)、[OpenStreetMap台灣](https://www.facebook.com/groups/OpenStreetMap.TW/) Note: 提供聯絡訊,歡迎來揣我
{"metaMigratedAt":"2023-06-17T02:02:29.052Z","metaMigratedFrom":"YAML","breaks":true,"description":"View the slide with \"Slide Mode\".","title":"臺灣話 ê (數位)開放內容現況-以臺灣閩南語維基 kah Wikidata做例","slideOptions":"{}","contributors":"[{\"id\":\"6d29f5f5-3da6-40f2-b920-e9a4cc2181dd\",\"add\":15314,\"del\":5002}]"}
    851 views
   Owned this note