# Common Voice 族語錄音計劃 <!-- Open Formosan Languages Voice Database via Mozilla Common Voice --> 建立族語開放語音資料庫,促進族語科技發展 ###### tags: `Common Voice`, `Mozilla` <!-- - https://github.com/moztw/cc0-sentences/ --> - https://commonvoice.mozilla.org <!-- (台語錄音介面) --> ![Screen Shot 2024-09-29 10.00.00](https://hackmd.io/_uploads/H1gLHN80A.jpg) --- ## 負責人 Irvin Chen 台灣維基媒體協會 專案執行 <!-- Project Coordinator --> Mozilla Firefox 瀏覽器(火狐)志工 MozTW 台灣社群聯絡人 網頁工程師 ![moztw 網站](https://hackmd.io/_uploads/rkZmn5el1g.jpg) Note: 自我介紹一下,Mozilla 志工, Firefox 火狐狸hôo-lî的推廣者,摩茲工寮顧門的志工 <!-- --- ## Mozilla Firefox 瀏覽器(火狐) 基金會 / 公司 / 全球志工社群 mozilla.org / moztw.org ![moztw 網站](https://hackmd.io/_uploads/rkZmn5el1g.jpg) Note: --> --- ## Common Voice 希望促成的目標 - 讓電腦/手機的語音助理可以說各種語言 - 教 AI 用族語說話 - 讓手機可以翻譯族語與世界上的其他語言 ![google assistant](https://hackmd.io/_uploads/Sylwa5el1x.png) --- ## Common Voice 簡介 - 專案於 2017 年開始 - 建立世界上所有語言的自由(免費)語音資料 - 國語(華語)2018 臺語 2022 --- ## 步驟 1. 收集語音,上網站錄音 2. Mozilla 每三個月<!--以 **CC0 授權** -->免費釋出資料庫 3. 研究者與商業公司**自由**使用,研究與開發相關科技 - eg., - 語音辨識 speech-to-text - 文字轉語音 text-to-speech - 語音合成 voice synthesis - 口譯, AI, 字典... 任何用途 <!-- ## pitch slide https://docs.google.com/presentation/d/1xGgs49tvU1AHhsN1Q6-KXzkfOKeRzlNYVg9h97nd47U/edit?usp=sharing --> --- ## 資料庫現況 @2024-10-19 https://commonvoice.mozilla.org/languages - 華語 124 小時 / 2229 人錄音 - 台語 23 小時 / 232 人錄音 ![Japanese / Korean / Mandarin / Taiwanese stats](https://hackmd.io/_uploads/SJYA_tp9A.png =x400) <!-- --- ## 語料庫資料現況 📈 現在有多少句子?句子多完整? <!-- 搜集整理無版權限制的繁體中文句子,建立 CC0 授權、不限定任何用途的語料庫,作為正體中文專案的基礎建設 Note: 聽到遮,你應該好玄hònn-hiân有偌濟文句?字詞有偌加圇ka-nn̂g --> <!-- --- ### 國台語語料庫現況 📈 ([統計至 2022/3 資料](https://github.com/moztw/cc0-sentences/commit/c397d2b3a836075e51dc1bfd45aef5c27f17d1e3)) - 華語 - 24,244 句 - 3,495 不重複字 - 涵蓋 83.8% 常用字(教育部 2015 常用字 P99.75,3011/3593) - 1,040 發音 - 涵蓋 66.37% 中文發音(根據注音輸入表計算,1,040/1,567 音) - 台語 - 約 21,400 詞/句 --> <!-- (其他統計資料:仍待開發) --> Note: 這馬臺灣華語有 24,000 詞句,3,495 無仝的字,差不多是捷用字的 83%, 1,040 的發音 台語的部份是 21,400 詞句,其他的統計資料需要有人鬥跤手 來想欲按怎算,參考華語的工具開發出來 --- ## 計劃範圍 - 2024/11~2025/2,第一階段暫定範圍 - 阿美語 & 達悟語之外的其他十種族語 排灣語 Pinayuanan (pwn), 賽德克語 Seediq & Taroko (trv), 布農語 Bunun (bnn), 噶瑪蘭語 Kavalan (ckv), 魯凱語 Rukai (dru), 卑南語 Puyuma (pyu), 撒奇萊雅語 Sakizaya (szy), 泰雅語 Atayal (tay), 鄒語 Tsou (tsu), 賽夏語 Saisiyat (xsy) - 原因:Facebook MMS-TTS (Massively Multilingual Speech) 專案[已涵蓋阿美與達悟](https://dl.fbaipublicfiles.com/mms/misc/language_coverage_mms.html) <!-- - https://huggingface.co/facebook/mms-tts-ami - https://huggingface.co/facebook/mms-tts-tao --> --- ## 兩階段 - 第一階段 - 2 個族語 - 2 位專案助手 - 100 句 - 各 25 人錄音 - 第二階段 - 8 個族語 - 8 位專案助手 - 50 句 - 各 6~7 人錄音 --- ## 工作內容 - 收集族語例句(文字) - 各語言 100 / 50 句 - 也可以將自己的維基作品整理成句子 - 上傳網站後台開啟錄音介面 (irvin) - 錄音 - 小幫手協助聯繫族人 - 到部落現場或在網站上錄音 - 驗證 - 小幫手與另外一協助重聽,確認錄音正確 --- ### 工作時數 - 第一階段:2 族語,各 14 小時 - 第二階段:8 族語,各 7 小時 <!-- - https://commonvoice.mozilla.org/speak - 翻譯網站介面 Translate website - https://pontoon.mozilla.org/projects/common-voice/ - 收集語料 Collect Sentences for record - 繁中 / 台語 / 原住民語 (TBD!) - Mandarin Chinese / Taiwanese Hokkien / Aboriginal Languages (TBD) --> --- ## 錄音語料(例句)需求 - 生活對話的例句 - 單詞為輔 - 無版權限制 (不可直接擷取自市售圖書) - 方言語群處理方式確認中 - 例:維基百科條目(需經原編者同意) <!-- - 歡迎幫忙整理現有的許多繁中語料 RAW,包含 G0v Slack #rand0m 頻道 --> <!-- - Short and life sentences - No license restriction (Public Domain / CC0) --> -> https://github.com/moztw/cc0-sentences ![mandarin & taiwanese corpus](https://hackmd.io/_uploads/B1LTAd650.png =x500) --- ## 費用補助 - 各族小幫手 x1,按工作時數計算(整理語料、協助現場錄音、確認錄音) - 錄音補助: - 第一階段 2 族語 x25 人 - 第二階段 8 族語 x8 人 確切金額確認中(參考協會等過去錄音專案標準) <!-- --- ## 其他資料 https://hackmd.io/@moztw?tags=%5B%22Common+Voice%22%5D --> --- ## 聯絡方式 - 陳心一 - 0933561278 - irvin@moztw.org
{"title":"Common Voice 族語錄音計畫","description":"Common Voice - commonvoice.mozilla.org","contributors":"[{\"id\":\"ba29681d-bafa-44cc-a6a0-f3c4b0bb5a48\",\"add\":4861,\"del\":928}]"}
    923 views
   Owned this note