# 用臺灣話來貢獻語音資料庫 ## Common Voice 語音資料庫 ## 華語、台語CC0句庫 - https://github.com/moztw/cc0-sentences/ - https://commonvoice.mozilla.org Note: 逐家好,咱今仔日欲用短短的時間,來紹介開放語音資料庫 Common Voice,嘛順紲講台語語言資料的現況 我的台語無偌好,但是這擺亦是欲來配合這主題,試看覓用台灣話來佮逐家分享 --- ## Irvin Chen Contributor of Mozilla & MozTW.org Mozilla Taiwan Community Note: 自我介紹一下,Mozilla 志工, Firefox 火狐狸hôo-lî的推廣者,摩茲工寮顧門的志工 --- ## 摩茲工寮 moztw.space Free & Open hackerspace ![](https://i.imgur.com/ThLWCe9.png =500x) ![](https://i.imgur.com/5mE8hw9.png =500x) Note: 廣告一下我們經營的免費閣開放的公家所在 歡迎逐家每禮拜五暗時來摩茲工寮kang-liâu,維基百科Uî-ki-pah-kho 佮 Mozilla 社群siā-kûn 做伙團聚thuân-tsū 若是有想要辦什麼活動、講演káng-ián,也可以到我們的的網站來申請 --- ![logo of alexa, cortana, siri and ok google](https://i.imgur.com/rzT2FTa.png =700x) > 人:「Hey Siri, 明仔載會落雨袂?」 > Siri:「我不太清楚你想表達什麼。」 Note: 現代大家手頭的手機仔,無論你是 Andorid 抑 Apple,都會使用聲音來控制,毋過這馬可能你問講「Hey Siri,明仔載落雨袂?」 伊會應講「我聽無矣」 如果有一天,咱會當用台語來佮手機對話,會使予更多人用習慣的母語來互動,更加便利生活。 <!-- 現代科技進步,咱人會當講話來控制機器,查今仔日天氣啥款。進前有蘋果的新聞,講𪜶欲開發的會當聽有臺語的 Siri,若是推出,你會當對恁的蘋果手機仔問天氣啥款 毋過這馬可能你問講「Hey Siri,明仔載落雨袂?」 伊會應講「我聽無矣」 --> --- ![Freeing Speech: (Open Corpus) Taiwnaese Mandarin & Taigi CC0 Corpus > (Open Speech Data) Common Voice > (Open STT/TTS) DeepSpeech / Coqui > Bring Diversity to Speech > Enriching Global Community](https://i.imgur.com/oJ0mH0N.png) Note: 除了 siri 這種智慧秘書以外,最重要的是,台灣有50%左右的人可以最少講一點點台語,但是我猜測tshai-tshik像我不會寫台文的人,可能有九成以上。如果我們有台語的語音輸入法,就可以跟人在 Line 上面用台語來開講、寫文章等等 Common Voice 整個計畫是想欲促進語言相關的技術,頭起先愛有句庫、連後逐家來錄音,收集唸文句的聲音檔,才會當訓練聽有語音的模型,最後才會得發展做咱人會當用的語音技術,像語音輸入、語音合成還是 siri 這種自然對話 piān-sik --- ## 解方 Mozilla 在 2017 年發起 [Common Voice](https://commonvoice.mozilla.org/zh-TW) 語音資料庫專案,邀請大家一同錄音,建立各語言的語音資料庫,並採 CC0 授權(無任何版權限制)釋出,以促進 <u>語音辨識</u>、<u>語音合成</u> 等相關科技的開發與研究。 Note: Common Voice 是對 2017 年起頭的,欲相招逐家來參與錄音,建立種種語言的語音資料庫,濟濟的資料用 CC0 授權,白話講就是無任何版權的限制,來促進(tshiok-tsìn) 語言辨識、語言合成等等技術的開發佮研究 --- - commonvoice.mozilla.org - [華語錄音](https://commonvoice.mozilla.org/zh-tw/listen) - [台語錄音](https://commonvoice.mozilla.org/nan-tw/listen) - [語音資料庫下載](https://commonvoice.mozilla.org/nan-tw/datasets) - https://github.com/moztw/cc0-sentences/ - [華語、台語 CC0 句庫](https://github.com/moztw/cc0-sentences/) - [統計 & 清理工具](github.com/irvin/voice-text-tools) Note: 這個專案四個主要的功能所在 Common Voice 的網站有包含台語錄音、華語錄音、語音資料庫的下載(táng-lóo) 另外用來予人錄音的華語佮台語詞句sû-kù,阮是整理在 Github 頂頭 配合的資料統計與清理的家私 這馬臺灣的語言的部份,已經有臺灣華語佮台語的錄音矣,嘛有相關的文字形式的句庫 --- ![screenshot of common voice](https://i.imgur.com/Cb305vy.png) Note: 這是 Common Voice 的頭頁,上頂懸正手頂仔的所在會當換語言,圖倒爿是收集講話聲音,正爿是驗證逐家貢獻的聲音,共錄音檔播送出來。 --- ![languages that available in common voice](https://i.imgur.com/BBqXDei.png =700x) Note: Common Voice 這馬有 99 種語言,有較濟人講的語言親像英文法國話,嘛有較少人講的像國際話 --- ![screenshot of cc0 corpus github repo](https://i.imgur.com/Sf6Nb4g.png) Note: 這是 CC0 詞句庫的形體,一條一條的詞句,華語差不多有2萬4千條,台語有一萬九千條 --- ### 市面上的中文語料庫 ``` 政府(國科會/科技部)多年來補助了非常多錢… ``` - [中央研究院漢語平衡語料庫](http://asbc.iis.sinica.edu.tw/) (1990-) - 19,247 篇文章;1,396,133 句數 - [版權資訊](http://www.teldap.tw/copyright.html)、[授權條件與價格](http://www.aclclp.org.tw/use_asbc_c.php) - [LIVAC 漢語共時語料庫](http://www.livac.org/index.php?lang=tc) (1995-) - 源自香港城市大學,[版權資訊1](http://www.livac.org/intro.php?lang=tc)、[2](http://www.chilin.hk/?page_id=25626) - [北京大學現代漢語語料庫](http://ccl.pku.edu.cn:8080/ccl_corpus/) - 581,794,456 字[*](https://languageresources.github.io/2018/03/07/%E5%B4%94%E6%AC%A3%E7%AD%89_CCL%E8%AF%AD%E6%96%99%E5%BA%93/) - [台文語音合成語料庫](http://www.aclclp.org.tw/use_mat_c.php#tat) - 「北科大/交大『民視台語語料庫』」(2020/12) - [其他各語系語料](https://languageresources.github.io/) Note: 來看目前的中文語音資料庫的形狀hîng-tsōng ,有中國的,有臺灣中研院tiong-gián-īnn 的平衡語料庫,嘛有香港的。擱有最新的北科交大2020年12月上新聞「民視台語語料庫」 --- ### 現有語料庫的共通問題 💼 限非商業使用/🏫 限學術研究用/💰 價格 ![](https://i.imgur.com/SziNGcM.png =500x) (圖片:[中華民國語言計算機學會 「中央研究院漢語平衡語料庫」 申請說明](http://www.aclclp.org.tw/use_asbc_c.php)) Note: 這是中研院平衡語料庫的申請的說明,限制非商業使用,限制學術研究使用,上重要是有價數kè-siàu --- #### 限制身份與用途 - 蘋果開發台語 Siri - 語音合成台灣的虛擬偶像 - Mozilla 製作國語辨識 - Coqui 語音合成模型 - AI Labs 雅婷逐字稿 - 更多 G0v/公民專案 - 非營利組織?社會企業?提供在地服務的商業公司? 📵 皆不適用! Note: 有使用限制的狀況之下,遮所寫的應用,親像蘋果台語Siri,抑是公民團體的專案,攏無法度用! --- 稅金資助的資料庫,為何限制對國人有益的用途? > Public Money, Non-Public Data? Note: 這就予咱想問,為何用政府對民眾收的sè-kim,建立的資料庫,有遮濟限制,甚至國人嘛無法度用 <!-- --- --> <!-- ## 發展方向 🗂️ - 建立流程文件 - 語料處理方法、捐獻資料方法 - 定期舉辦 workshop 招募更多成員 - 隔週三 working night - 統計工具 - 上傳句子時,自動計算字數、句數、涵蓋範圍 (國語 done! 台語 todo!) --> --- ## 歡迎參與 🤗 Note: 歡迎來加入錄音跟收集 siu-tsi̍p 詞句行列hâng-lia̍t --- ### 錄音 🎙 [錄華語](http://commonvoice.mozilla.org/zh-tw) | [錄台語](http://commonvoice.mozilla.org/nan-tw) ![](https://i.imgur.com/oxwe5zn.png) *自己錄錄 也揪更多人來錄!* Note: 逐家來幫贊錄音!相招親情朋友來錄 --- [DEMO 錄音](https://commonvoice.mozilla.org/nan-tw) Note: 咱來來示範錄音 --- ## 目前錄音成果 📈 ![華語錄音時數110小時, 驗證63%](https://i.imgur.com/17iqmPP.png =500x) ![臺語錄音時數10小時, 驗證20%](https://i.imgur.com/p6Dfdmk.png =500x) Note: 這會當看著這馬錄音的成果,華語總錄音時數 110 點鐘;台語有錄10點鐘,經過檢驗20% --- 華語:<!-- 台灣志工最初搜集了[兩千句繁體中文的句子](https://github.com/mozilla/common-voice/tree/main/server/data/zh-TW),-->於 2018/7 啟動華語錄音。 台語:<!--又經過四年努力,-->於 [2022/2 開放台語錄音](https://hackmd.io/@moztw/commonvoice8)。 Note: 雖然台語佮華語攏是臺灣日常時咧講的語言,毋過你會當看著台語晚四年才開始的 --- ## 為什麼台語花了四年? 想透過錄音建立 CC0(*無任何版權限制*)的語音資料庫,需要準備 CC0(*無任何版權限制*)的句子。 => 找無現成可用的句子! Note: 詞句 因為無準備好,無任何版權限制的詞句 --- ## 語料庫資料現況 📈 現在有多少句子?句子多完整? <!-- 搜集整理無版權限制的繁體中文句子,建立 CC0 授權、不限定任何用途的語料庫,作為正體中文專案的基礎建設 --> Note: 聽到遮,你應該好玄hònn-hiân有偌濟文句?字詞有偌加圇ka-nn̂g --- ### 華語 - 24,244 句 - 3,495 不重複字 - 涵蓋 83.8% 常用字(教育部 2015 常用字 P99.75,3011/3593) - 1,040 發音 - 涵蓋 66.37% 中文發音(根據注音輸入表計算,1,040/1,567 音) ([統計至 2022/3 資料](https://github.com/moztw/cc0-sentences/commit/c397d2b3a836075e51dc1bfd45aef5c27f17d1e3)) Note: 這馬臺灣華語有 24,000 詞句,3,495 無仝的字,差不多是捷用字的 83%, 1,040 的發音 --- ### 台語 - 約 21,400 詞/句 <!-- (其他統計資料:仍待開發) --> Note: 台語的部份是 21,400 詞句,其他的統計資料需要有人鬥跤手 來想欲按怎算,參考華語的工具開發出來 --- <!-- ## 建立 CC0(公眾授權)國台語句庫 --> <!-- 要開放公眾錄音,必須蒐集無版權問題的句子 --> ### 句庫收錄的原則 - 以台灣當代口語、日常對話為主 - 結構簡單 - 無任何版權、使用限制 <!-- - 易於存取:直接以 TXT 檔形式置於 Github --> Note: 句庫的收錄原則是當代的,日常的對話,文句的結構是簡單的,嘛愛無任何版權 --- ### 目前詞句來源 - 個人捐贈文章、小說散文作品 - 對話紀錄(g0v #rand0m 頻道為主) - 政治人物(公務員)講稿 & 政府新聞稿 - 曲名、書名、地名 - iTaigi 愛台語網站 目前資料來源較單一,希望更多口語化的句子 - 亟需**台語日常對話**句子(教材?) Note: 個人的文章bûn-tsiong、對話記錄、政治人物公務員的講稿káng-kó抑是新聞稿;歌曲名、書名、地號名 歡迎有熟似si̍k-sāi教台語的先生(sian-senn)的人,會當走傱tsáu-tsông問看覓,是毋是會當捐教材予 Common Voice 來用,予 Common Voice 有閣較口語的文句 --- <!-- ### 句庫範例用途 可用於⋯⋯ - 🔈 收集語音的專案: 運用句子錄音 - 🎒 教育應用相關: 識字測驗 - 📚 字典/語言學領域: 作為例句、語言研究分析素材 - 📐 UX 相關專案: 假文產生器素材 > 沒有任何限制,就能產生更多意想不到的用途 --> <!-- Note: 收來的句庫會當用來語言專案、捌字的測驗、字詞的領域,UX 的,親像假文章產生器 --> --- ### 其他參與方向 - 文本處理(對話紀錄、新聞稿) - 截斷過長複合句 - 去除可識別化資訊<!--- 一小時可以整理數百至數千句--> - 語言學、資料統計 - 開發統計與分析工具 (node.js scripts) - 有多好、多重複、多完整、缺什麼字詞 - 人工智慧 - 下載語音資料庫用用看 - 宣傳協力、洽談合作 Note: 整個 Common Voice 計畫需要有人做資料處理,語言學gí-giân-ha̍k、統計資料,人造智慧jîn-tsō-tì-huì 。suan-thuân叫大家來錄音,嘛真重要。 --- ## 更多語言 📓 - 收集客語 & 原住民語語料 - 你會講會寫嗎? - 「沒有人」有能力幫忙,等你動手! <!-- - 與現有學術單位的合作 - 開放中研院資料集 --> - 協助聯絡 - 台語客語老師、語言教材作者 Note: 嘛是有可能開別个臺灣語言的站,親像 Hakka fa,原住民guân-tsū-bîn族的濟濟言語giân-gí。鬥跤手聯絡,接接tsih-tsiap母語機關佮華語、台語、客話、母語老師,討論敢會當捐教材資料 --- <!--## 這邊參加--> ![](https://i.imgur.com/Z5qDiUx.png) - G0v Slack: [join.g0v.tw](https://join.g0v.tw) #rand0m - Telegram: [t.me / moztwCV](https://t.me/moztwCV) - Line: [cvline.moztw.space](https://cvline.moztw.space) [![hackmd-github-sync-badge](https://hackmd.io/gJM-G1JQTpm1cWLzi3ox7g/badge)](https://hackmd.io/gJM-G1JQTpm1cWLzi3ox7g) Note: 咱講到遮,這是咱 Common Voice 臺灣志工 tsì-kang 的聯絡管道,有 Line 佮 Telegram 群組kûn-tsoo ,歡迎加入, 毋知影有啥物提議提議,歡迎這馬提出 等下可能要用華語回答,望大家見諒 <!-- # 專案目標、受眾與獨特性: 為了解決任何繁體中文相關的專案遇到的「沒有無版權限制的繁體中文語句文本資料庫」的困難,我的專案提供「大量無版權問題的繁體中文句子」,可以做到「不受任何限制的運用」。 我的專案跟「現有的任何繁體文本資料庫」,在「版權限制」(市面上的文本資料庫均使用「非商業性」或「限學術使用」授權)上不同,因此具有不可取代性。 --> <!-- - 主要貢獻者 - [MozTW](https://moztw.org) 社群 [Common Voice 專案貢獻者](https://t.me/moztwcv) - [G0v Slack](https://join.g0v.tw/) #rand0m 成員 --> ###### tags: `Common Voice`,`CC0-Corpus`
{"metaMigratedAt":"2023-06-15T12:01:53.034Z","metaMigratedFrom":"YAML","title":"用臺灣話來貢獻語音資料庫","breaks":false,"slideOptions":"{\"allottedMinutes\":1,\"overview\":true}","contributors":"[{\"id\":\"ba29681d-bafa-44cc-a6a0-f3c4b0bb5a48\",\"add\":20352,\"del\":14177},{\"id\":\"6d29f5f5-3da6-40f2-b920-e9a4cc2181dd\",\"add\":2952,\"del\":1140}]","description":"https://github.com/moztw/cc0-sentences/"}
    7667 views
   owned this note