# <font color="#000000">臺灣話 ê (數位)開放內容現況-以臺灣閩南語維基 kah Wikidata做例 </font>
<!-- Put the link to this slide here so people can follow -->
<font color="#000000">slide: [https://hackmd.io/@wikidata-tw/HkYR08Vuc#/](https://hackmd.io/@wikidata-tw/HkYR08Vuc#/)</font>
<!-- .slide: data-background="https://i.imgur.com/cOXo0Yj.jpg" -->
<font color="#000000">COSCUP 2022
台灣維基協會 陳瑞霖</font>
Note:
逐家好,我sī陳瑞霖,sī OpenStreetMap kah Wikidata 社群ê參與者,
今仔日ê題目sī「臺灣話ê(數位)開放內容現況-以臺灣閩南語維基 kah Wikidata做例 」
紹介台灣話欲按怎tī線頂ê百科全書來書寫臺灣話
---
## 我 sī 啥人?
- Supaplex
- OpenStreetMap :heart: Wikidata :heart:
- Wikimedia Taiwan :cat:
Note:
阮網路上ê名號sī Supaplex,這馬 tī OpenStreetMap kah Wikidata 社群走傱
mā-sī 台灣維基協會ê理事
---
## 舊年 ê 演講
* 維基百科嘛ē-tàng寫台語
* 毋但 POJ,嘛會當寫台文漢字
* 需要新ê人來寫
Note:
最近學台語變時行,毋過無啥人欲來寫閩南語維基百科,雖然舊年有林阿猴來講伊寫ê經驗
你這馬拍開zh-min-nan Wikipedia,攏sī看著白話字,其實你嘛會當寫台文漢字
需要新ê人參與
----
## 新年 ê 向望
* 無欲吵名號,無欲探討書寫系統
* 台語ê復興運動
* 學台語ê風氣興
* 台語娛樂親像歌曲猶是ū群眾
* Wikidata 辭條hōo外國人注意
Note:
我欲強調,我無欲吵這个語言愛叫啥,抑是欲用佗一个書寫方式
頭一頁講著台語ê復興運動,長期sī台語主要ê發表領域ê台語歌壇,嘛ū愈來愈濟ê歌曲sī用教育部規範ê台文漢字
我參與 ê Wikidata
---
## 台灣台語 ê 數位化挑戰
* 口說傳統強,書面無時行
* (漢)本字之爭
* 白羅字 vs 漢字
* 重建zh-min-nan Wikipedia社群
Note:
台語sī臺灣代表性ê語言相信逐家sī同意ê,口說kah娛樂圈sī重要ê語言,毋過tī數位化方面,濟濟問題
欲選漢字ū本字之爭,POJ 抑是漢字ê問題
zh-min-nan無啥人寫,愛重建
---
## 臺灣話 kah 臺灣閩南語
* 官方名稱:臺灣閩南語(Tâi-uân Bân-lâm-gú/Tâi-uân Bân-lâm-gí/Tâi-uân Bân-lâm-gír)
* 歷史上ê 名稱:臺灣話,臺語
* 新 ê 官方名稱:臺灣臺語(研擬)
* 東南亞:Hokkian/Hokkien/福建話
* 菲律賓:咱人話/咱儂話
* 客家人予 ê 稱呼:鶴老話
Note:
真濟人無愛閩南語這个名號,毋過臺灣閩南語sī目前ê官方名號
歷史上有人講叫做臺灣話,台語
官方ū拍算欲改做台灣台語這个名
福建話(Hok-kiàn-uē),sī 自稱 mā-ū 別人 hōo-ê 稱呼,mā-ū 對家己 ê 角度 ê 稱呼 ê 咱人話。客人sī叫鶴老話
----
## 台灣話 ê 定位-青盲摸象
![](https://upload.wikimedia.org/wikipedia/commons/1/17/Illustrated_proverb-_Blind_men_and_an_elephant.jpg)
<a href="https://commons.wikimedia.org/wiki/File:Illustrated_proverb-_Blind_men_and_an_elephant.jpg">Pawyi Lee</a>, Public domain, via Wikimedia Commons
Note:
逐家lóng知影青盲摸象ê故事,台灣話mā-ū相𫝛ê狀況,有人講台灣話sī古早ê漢語,嘛有人講幾若代 ê 官方 sī講台語 ê
敢有影?
----
## 台灣話 ê 定位-濟來源
* ū 上古漢語ê詞-鼎
* ū 文讀系統-真濟中古漢語ê詞-劍(kiàm)、箭(tsìnn)ê分別,念唐詩較合韻(相對華語)
* ū 南方族群百越-狀侗語族ê底層-虼蚻、狗蟻、風颱
* 和製漢字,日文來ê詞-thôo-má-toh
Note:
實際上 ê 狀況sī臺灣話ū真濟來源,無遐古早,差不多唐朝時形成 ê
臺灣話 ū 上古漢語ê古早時字,譬如講鼎
中古漢語影響臺灣話ê文讀音,所以唸唐詩較合韻
ū一寡字華語變走音ah,但是tī-teh臺語猶是照中古音
mā-ū 百越ê影響,台灣話ê底層詞,會當tuì虼蚻, 狗蟻 ka 起頭ê詞,sī 非漢語ê
風颱這个詞相對華語 sī 倒反(tò-píng) ê
----
## 台灣台語 ê 危機
* 政治弱勢
* 少年輩較袂曉講
* 會曉書寫方式ê人真少
* 出版品不足
* 數位書寫不足
Note:
台語ê現代化問題:政治上弱勢,少年人普遍較袂曉講,捌書寫方式的人少,整體出版品不足,數位空間書寫嘛少
----
## 台語腔口 kah 用詞
* 近溪炊魚
* 皮鞋
* 柑仔蜜 vs thoo-má-tooh
* 露西亞 vs 俄羅斯
Note:
因為整體sī弱勢ê,嘛袂注意著各地頭ê腔口、用詞差異,外來語選日語ia̍h-sī華語來源ê詞?這攏愛注意
---
## 維基頂懸 kah 臺灣話相關ê計劃
* [閩南語維基百科](https://nan.wikipedia.org/)
* [維基辭典](https://www.wiktionary.org/)
** [英文維基辭典](https://en.wiktionary.org/wiki/Wiktionary:Main_Page)
** [中文維基辭典](https://zh.wiktionary.org/zh-hant/Wiktionary:%E9%A6%96%E9%A1%B5)
** [閩南語維基辭典](https://zh-min-nan.wiktionary.org/wiki/Th%C3%A2u-ia%CC%8Dh)
* [維基數據](https://wikidata.org)
** [辭條](https://www.wikidata.org/wiki/Wikidata:Lexicographical_data)
Note:
辭典無夠好,網路頂揣人來同齊(tâng-tsê)來編寫
ū閩南語維基百科,維基辭典,猶有新興ê維基數據(sòo-kù)mā會當寫辭條
----
## 是按怎 bô 臺灣話維基百科
* 臺灣臺語無獨立的 ISO 639-3 代碼
* 臺灣話 ê Wikipedia ài ū 家己 ê 代碼
* 關心ê臺灣人愛了解規則,愛家己tī-teh國際來爭取
* 家己mā ài ū共識
* 相𫝛語言無仝ê代碼例:
** 塞爾維亞語(srp)/克羅埃西亞語(hrv)
** 馬來西亞語(ms)/印尼語(id)
Note:
Ū真濟人無愛閩南語這个名號,就無愛插閩南語維基百科。這sī因為臺灣話sī無獨立ê ISO 639-3 ê 代碼
對語言學ê角度來講,ū兩組語言,Serbian/Croatia、Bahasa Melayu/Bahasa Indonesia sī真相𫝛,毋過 ū 無仝 ê 代碼,受著政治邊界 ê 影響
----
## ISO 639-3 nan 拆做 11 个代碼的提案
* 意傳科技kah一寡團體[申請](https://iso639-3.sil.org/request/2021-045) iso 639-3 新代碼予台灣台語
* 台灣台語:oan
* 原來nan之下攏總分做 11 ê:雷州話、海南話、海陸話、浙南閩語、潮汕話、漳泉話、龍嚴話 etc
Note:
意傳科技佮一寡團體共同申請,欲共原來nan代碼拆開,變成11ê新代碼,包括台灣台語ê oan
其他相關語言,親像雷州話、潮州話、海陸話,根據提案有新ê代碼
---
## 閩南語維基百科
* 白話字為主,排斥漢字(教會ê人)
* 小數 ū 漢字版本
* 毋過視作過度ê,態度上sī ài學習白話字來寫
* ū台語人無遐熟白話字所以無啥人來寫
* 社群無活力,無綴著最近ê台語復興風潮
Note:
閩南語維基百科白話字為主,hōo人講排斥(pâi-thik)漢字,所以漢字ê內容真少
𪜶認為用白話字來寫較著,所以造成無人來寫,社群無活力(ua̍h-li̍k)
----
## 閩南語維基百科
[Tâi-tang-koān](https://nan.wikipedia.org/wiki/T%C3%A2i-tang-ko%C4%81n) án-ni niā-niā
![](https://i.imgur.com/ZbkYMmJ.png)
Note:
ISO-639-3 hōo 閩南語 ū 獨立 ê 代碼sī teh 閩南語維基百科成立後tsiah-ū ê,所以後來 ū 對nan轉址到 zh-min-nan
社群 bô 活力,kah台灣相關ê條目,親像臺東縣無啥人tī-teh寫,敢若 ū 底下 ê 鄉鎮市 ê 連結
---
## nan 百科問題
* 排斥漢字
* 傷濟行政區,欠缺科學相關條目
* 重覆條目無用重定向
* 濟條目無對應 Wikidata 連結
* 無使用永久重覆項處理無仝書寫方式
Note:
咱來看 nan Wikipedia 問題,早期參與者ê決定,𪜶排斥(pâi-thik)漢字,無愛人來寫漢字
為著條目ê數量夠濟,大量用機器人加添無啥內容ê地號名
應對小數漢字版本ê條目,嘛無用永久重複項處理tī Wikidata ê 連結問題
---
## 問題案例1:重覆匯入波蘭地號名
![](https://i.imgur.com/34pAuwY.png)
Note:
重複匯入資料,仝款ê波蘭地號名。臺灣遮嘛有人做佮Cebu仝款的代誌,大量機器人去創造條目,毋過後續無人來編輯
---
## 問題案例2:上千條無對應 Wikidata
![](https://i.imgur.com/7McrjBB.png)
Note:
無對著較新 ê Wikidata 計畫,zh-min-nan Wikipedia ū 上千ê條目無對應到Wikidata
---
## 問題案例3:重覆 ê 台北市 ê 里
![](https://i.imgur.com/WvSv8co.png)
Note:
進前兩冬有處理匯入臺灣村里到 Wikidata 遐,自本sī認為干焦ū兩三个人仝時做,無細膩重複。毋過代誌毋是咱想ê遐簡單
---
## 問題案例3:重覆 ê 台北市 ê 里
![](https://i.imgur.com/MPomHNc.png)
Note:
以早有人tī zh-min-nan 建立條目,干焦兩句話ê條目,毋過嘛hōo機器人建立對應 ê Wikidata 項目
---
## 問題案例3:重覆 ê 台北市 ê 里
![](https://i.imgur.com/WjEmd46.png)
Note:
後來匯入時無檢查到,煞重複增加ê里
---
## POJ kah 漢字共存 ê 可能-永久重覆項
* 客家話、閩東話有 buē-tsio 漢字 kah POJ ê 條目
* 予講仝一件代誌無仝ê書寫方式會當tī Wikidata 連結
Note:
因為長江南爿 ê 漢語族語言,比如講吳語、閩東話、客家話 ū 真深 ê 羅馬字拼寫傳統,佮官話系統音差真濟,所以仝款ê內容(luē-iông),ū 兩種無仝寫法ê頁面
tī Wikidata 遮就 hōo 其中一頁指定sī永久重覆頁面來處理,白話字kah漢字版本之間 iōng 永久重複項連結
----
## [永久重複項](https://www.wikidata.org/wiki/Property:P2959)(P2959)
> 此項對應的重複項,且兩者不能被合併,因為同一維基媒體項目中包含兩個頁面,例如使用不同字母或語言
Note:
仝內容,毋過用無仝書寫系統,親像無仝字母抑是語言。以早是因為閩東語關係有用漢字抑是白話字的條目,所以提這个屬性property
----
## [維基媒體永久重複頁面](https://www.wikidata.org/wiki/Q21286738)(Q21286738)
> 此項目與其他項目重複,但兩項不能被合併,因為某一維基媒體項目上有兩個條目描述同一事物,例如使用不同的文字或語言。增加屬性P2959(永久重複項)以及連結至對應語言版本wiki頁面的項目
Note:
說明是無法度合併,因為書寫系統無仝。
----
## Wikidata 頁面
[中華民國永久重覆頁面](https://www.wikidata.org/wiki/Q22337467)
![](https://i.imgur.com/PNFXPJ8.png)
Note:
來看覓咱國中華民國ê永久重複頁面,ū客家話、閩東話、zh min-nan,kah印度遐ê語言
----
## 永久重覆項關系
|| 主項目 | 永久重覆項 |
|------| -------- | -------- |
|Wikidata| [Q865](https://www.wikidata.org/wiki/Q865) | [Q22337467](https://www.wikidata.org/wiki/Q22337467) |
| zh-min-nan | [Tiong-hôa-bîn-kok](https://zh-min-nan.wikipedia.org/wiki/Tiong-ho%C3%A2_B%C3%AEn-kok) | [中華民國](https://zh-min-nan.wikipedia.org/wiki/Pang-chān:中華民國) |
| hak | [Chûng-fà Mìn-koet](https://hak.wikipedia.org/wiki/Ch%C3%BBng-f%C3%A0_M%C3%ACn-koet) | [中華民國](https://hak.wikipedia.org/wiki/中華民國) |
| cdo | [Dṳ̆ng-huà Mìng-guók](https://cdo.wikipedia.org/wiki/D%E1%B9%B3%CC%86ng-hu%C3%A0_M%C3%ACng-gu%C3%B3k) | [中華民國](https://cdo.wikipedia.org/wiki/中華民國) |
Note:
咱來直接看仝語言,用無仝書寫系統是啥意思,zh-min-nan維基百科的中華民國條目有白話字kah台文漢字的版本
---
## Wikidata
標籤(label)
描述(Description)
母語名稱([P1705](https://www.wikidata.org/wiki/Property:P1705))
官方名稱([P1448](https://www.wikidata.org/wiki/Property:P1448))
Note:
Wikidata 遮會當寫台語ê欄位(lân-uī):標籤,描述,母語名稱,官方名稱
---
## Wikidata 辭條
[Wikidata辭條:箸](https://www.wikidata.org/wiki/Lexeme:L305178)
![](https://i.imgur.com/rXkl1wR.png)
Note:
Wikidataê辭條sī新ê物件,收語言資料
毋但主流ê語言,mā會當收小數語言
----
## Wikidata 辭條
意義 kah 翻譯
![](https://i.imgur.com/ktG7XRc.png)
Note:
辭條會當寫字詞ê意義,猶閣ū翻譯,翻譯會當連到別ê語言ê辭條
----
## Wikidata 辭條
ū 各種方音變體 ê 處理方式
![](https://i.imgur.com/gL7PxDe.png)
Note:
收無仝所在ê方音變體,台灣較ū聽著ê漳州腔,泉州腔,猶有鹿港仔腔(lo̍k-ka̋ng-á),安溪話,宜蘭腔,永靖腔(eng-tseng)
----
## Wikidata 辭條
例句
![](https://i.imgur.com/CF927La.png)
Note:
mā-ū收例句,主要iōng漢字kah羅馬字
----
## Wikidata ê 優點
* 跨語言,會當直接對英文ê資料
** 擺脫台語倚佇華語底下ê情形
** 國際接軌
* 會當寫bô-kâng ê書寫方式
* 連接資料 (Linked Data)
Note:
Wikidata親像in-ê兄弟維基百科,Wikidata sī國際化ê,所以mā會當直接連結外國語言
你無滿意當前ê書寫方式,mā會當照這種書寫方式來累積(luí-tsik)資料
愛注意ū可能無啥人bueh照你ê書寫方式來參與,你家己ài出較濟力
上重要 ê 一部份 sī 遮 ê 資料 sī Linked Data
---
## 姊妹仔計畫 ê 狀況
* OpenStreetMap ū 收 name:nan
* Wikidata 有人寫台語的說明文件
* OpenStreetMap 嘛有人寫台語的文件
* Wikidata ū Label_nan,mā-ū 辭條
* 閩南語維基百科停滯不前
Note:
姊妹計畫ê狀況 sī ū 真濟計畫愈來愈重視本土語言,除了國際上時行ê語言,本地ê官方語言以外,在庄ê語言 mā ū 收錄
舉一个例,線頂共編 ê OpenStreetMap ū 收袂少 ê 台語地號名,相對之下閩南語維基百科無啥動能
----
## OSM 台語標示
[Overpass 檢索](https://overpass-turbo.eu/s/19i0)
![](https://i.imgur.com/oGXZgZt.jpg)
Note:
咱親身看覓OpenStreetMap遮
用Overpass API來搜查(soo-tsa),大臺北尤其中永和ū真濟小地名,sī參照地方誌來標示。除了客家區,原住民區以外,真濟在庄小地名來源 sī 台語
----
## Wikimedia Map
[Wikimedia Map lang label nan](https://maps.wikimedia.org/?lang=nan#7/24.722/117.806)
OpenStreetMap ê 資料
[台文漢字](https://maps.wikimedia.org/?lang=nan-HJ#16/24.9725/121.5437)、[台羅](https://maps.wikimedia.org/?lang=nan-TL#16/24.9725/121.5437)
![](https://i.imgur.com/C6z5Uu4.png)
Note:
維基基金會 ê 地圖 Wikimedia Map,mā會當改代碼來即時變成你想欲 ê 語言,nan sī 代表閩南話,改做nan-TL變成台羅標示,tī OpenStreetMap 遐ū資料ê攏會使顯示
----
## 閩南語維基百科 ê 計畫
* 緊來寫,毋管 sī POJ ia̍h-sī 漢字攏來
* 漢字用教育部[規範漢字](https://zh.wikipedia.org/zh-tw/%E8%87%BA%E7%81%A3%E9%96%A9%E5%8D%97%E8%AA%9E%E6%8E%A8%E8%96%A6%E7%94%A8%E5%AD%97)
* 漢字-POJ版本佇Wikidata用永久重複項處理
Note:
講遐濟,我認為你真真正正關心台語,mā-ài開一寡時間貢獻台語ê書面化,會當貢獻tī線頂資料庫
趁著教育界統一用規範字,來閩南語維基百科用規範字來寫漢文版本,嘛是會當寫POJ內容,莫攏是機器人處理的地號名矣
---
## 閩南語維基百科 ê 計畫
* 閩南語維基百科大量建漢字版本
* 臺灣本地的內容:縣市、行政區
* 科學智識
* Wikidata建永久重覆項
Note:
所以 ài tī 閩南語維基百科遐建立基礎,kā基礎ê資料建漢文版本,親像縣市行政區
mā-ài建 Wikidata ê永久重複項hōo程式了解 in ê關係
---
## 台語腔口差 ê 處理
* 參與者寫啥就收
* 讀音的差異、字辭的差異
* 透過轉換系統來處理無仝的腔口差
* [中文維基百科的繁簡地區詞轉換系統](https://zh.wikipedia.org/wiki/Wikipedia:%E5%AD%97%E8%A9%9E%E8%BD%89%E6%8F%9B%E8%99%95%E7%90%86)
![](https://i.imgur.com/ac0V5UV.png)
Note:
中文維基百科已經ū運作誠久ê轉換系統,處理ū規則ê kah 特殊 ê 地區用詞lóng會使
運作ê方式sī án-ni,ài先建腔口ê對照表,猶有用詞對照表
----
## 倡議之外多多來寫
* ISO-639-3 新代碼若是成功,閣來才有機會成立台語ê百科
* 來寫閩南語維基百科,抑是其他用臺灣台語的維基百科
* 來寫維基辭典
* 來寫Wikidata辭條
Note:
爭取ISO-693-3新代
學術ê成果hōo維基百科來當做文獻
ài-ū 人線頂協作參與共編ê計畫,多多來寫,寫啥物,來寫維基百科,維基辭典,Wikidata
---
## OSM x Wikidata 月聚
* 8/15 19:30 @摩茲工寮
* Facebook [OpenStreetMap台灣](https://www.facebook.com/groups/OpenStreetMap.TW/)
Note:
工商服務時間, 8月初9希望解封,防疫第二級會當佇 Moz 工寮聚會,毋過無法度就繼續線頂虛擬(hi-gí)聚會(tsū-huē)
---
## 謝謝! :sheep:
Q&A: []()
你會當佇紲來ê管道揣著我
- [GitHub](https://github.com/Supaplextw/)、[Wikidata](https://wikidata.org/wiki/User:Supaplex)、[OpenStreetMap](https://www.openstreetmap.org/user/Supaplex)
- 或是 [email](mailto:dennis@wikimedia.tw) 我
- 臉書 [Wikidata Taiwan](https://www.facebook.com/groups/2212207218990971/)、[OpenStreetMap台灣](https://www.facebook.com/groups/OpenStreetMap.TW/)
Note:
提供聯絡訊,歡迎來揣我
{"metaMigratedAt":"2023-06-17T02:02:29.052Z","metaMigratedFrom":"YAML","breaks":"true","description":"View the slide with \"Slide Mode\".","title":"臺灣話 ê (數位)開放內容現況-以臺灣閩南語維基 kah Wikidata做例","slideOptions":"{}","contributors":"[{\"id\":\"6d29f5f5-3da6-40f2-b920-e9a4cc2181dd\",\"add\":15314,\"del\":5002}]"}