用臺灣話來貢獻語音資料庫
Common Voice 語音資料庫
華語、台語CC0句庫
Irvin Chen
Contributor of Mozilla & MozTW.org
Mozilla Taiwan Community
摩茲工寮 moztw.space
Free & Open hackerspace


人:「Hey Siri, 明仔載會落雨袂?」
Siri:「我不太清楚你想表達什麼。」

解方
Mozilla 在 2017 年發起 Common Voice 語音資料庫專案,邀請大家一同錄音,建立各語言的語音資料庫,並採 CC0 授權(無任何版權限制)釋出,以促進 語音辨識、語音合成 等相關科技的開發與研究。
市面上的中文語料庫
政府(國科會/科技部)多年來補助了非常多錢…
限制身份與用途
- 蘋果開發台語 Siri
- 語音合成台灣的虛擬偶像
- Mozilla 製作國語辨識
- Coqui 語音合成模型
- AI Labs 雅婷逐字稿
- 更多 G0v/公民專案
- 非營利組織?社會企業?提供在地服務的商業公司?
📵 皆不適用!
稅金資助的資料庫,為何限制對國人有益的用途?
Public Money, Non-Public Data?
目前錄音成果 📈

為什麼台語花了四年?
想透過錄音建立 CC0(無任何版權限制)的語音資料庫,需要準備 CC0(無任何版權限制)的句子。
=> 找無現成可用的句子!
華語
- 24,244 句
- 3,495 不重複字
- 涵蓋 83.8% 常用字(教育部 2015 常用字 P99.75,3011/3593)
- 1,040 發音
- 涵蓋 66.37% 中文發音(根據注音輸入表計算,1,040/1,567 音)
(統計至 2022/3 資料)
台語
句庫收錄的原則
- 以台灣當代口語、日常對話為主
- 結構簡單
- 無任何版權、使用限制
目前詞句來源
- 個人捐贈文章、小說散文作品
- 對話紀錄(g0v #rand0m 頻道為主)
- 政治人物(公務員)講稿 & 政府新聞稿
- 曲名、書名、地名
- iTaigi 愛台語網站
目前資料來源較單一,希望更多口語化的句子
其他參與方向
- 文本處理(對話紀錄、新聞稿)
- 語言學、資料統計
- 開發統計與分析工具 (node.js scripts)
- 有多好、多重複、多完整、缺什麼字詞
- 人工智慧
- 宣傳協力、洽談合作
更多語言 📓
用臺灣話來貢獻語音資料庫 Common Voice 語音資料庫 華語、台語CC0句庫 https://github.com/moztw/cc0-sentences/ https://commonvoice.mozilla.org 逐家好,咱今仔日欲用短短的時間,來紹介開放語音資料庫 Common Voice,嘛順紲講台語語言資料的現況 我的台語無偌好,但是這擺亦是欲來配合這主題,試看覓用台灣話來佮逐家分享
{"metaMigratedAt":"2023-06-15T12:01:53.034Z","metaMigratedFrom":"YAML","title":"用臺灣話來貢獻語音資料庫","breaks":false,"slideOptions":"{\"allottedMinutes\":1,\"overview\":true}","contributors":"[{\"id\":\"ba29681d-bafa-44cc-a6a0-f3c4b0bb5a48\",\"add\":20352,\"del\":14177},{\"id\":\"6d29f5f5-3da6-40f2-b920-e9a4cc2181dd\",\"add\":2952,\"del\":1140}]","description":"https://github.com/moztw/cc0-sentences/"}