# Common Voice 族語錄音計劃
<!-- Open Formosan Languages Voice Database via Mozilla Common Voice -->
建立族語開放語音資料庫,促進族語科技發展
###### tags: `Common Voice`, `Mozilla`
<!-- - https://github.com/moztw/cc0-sentences/ -->
- https://commonvoice.mozilla.org
<!-- (台語錄音介面) -->

---
## 負責人 Irvin Chen
台灣維基媒體協會 專案執行
<!-- Project Coordinator -->
Mozilla Firefox 瀏覽器(火狐)志工
MozTW 台灣社群聯絡人
網頁工程師

Note:
自我介紹一下,Mozilla 志工, Firefox 火狐狸hôo-lî的推廣者,摩茲工寮顧門的志工
<!--
---
## Mozilla
Firefox 瀏覽器(火狐)
基金會 / 公司 / 全球志工社群
mozilla.org / moztw.org

Note:
-->
---
## Common Voice 希望促成的目標
- 讓電腦/手機的語音助理可以說各種語言
- 教 AI 用族語說話
- 讓手機可以翻譯族語與世界上的其他語言

---
## Common Voice 簡介
- 專案於 2017 年開始
- 建立世界上所有語言的自由(免費)語音資料
- 國語(華語)2018 臺語 2022
---
## 步驟
1. 收集語音,上網站錄音
2. Mozilla 每三個月<!--以 **CC0 授權** -->免費釋出資料庫
3. 研究者與商業公司**自由**使用,研究與開發相關科技
- eg.,
- 語音辨識 speech-to-text
- 文字轉語音 text-to-speech
- 語音合成 voice synthesis
- 口譯, AI, 字典... 任何用途
<!--
## pitch slide
https://docs.google.com/presentation/d/1xGgs49tvU1AHhsN1Q6-KXzkfOKeRzlNYVg9h97nd47U/edit?usp=sharing
-->
---
## 資料庫現況
@2024-10-19
https://commonvoice.mozilla.org/languages
- 華語 124 小時 / 2229 人錄音
- 台語 23 小時 / 232 人錄音

<!--
---
## 語料庫資料現況 📈
現在有多少句子?句子多完整?
<!--
搜集整理無版權限制的繁體中文句子,建立 CC0 授權、不限定任何用途的語料庫,作為正體中文專案的基礎建設
Note:
聽到遮,你應該好玄hònn-hiân有偌濟文句?字詞有偌加圇ka-nn̂g
-->
<!--
---
### 國台語語料庫現況 📈
([統計至 2022/3 資料](https://github.com/moztw/cc0-sentences/commit/c397d2b3a836075e51dc1bfd45aef5c27f17d1e3))
- 華語
- 24,244 句
- 3,495 不重複字
- 涵蓋 83.8% 常用字(教育部 2015 常用字 P99.75,3011/3593)
- 1,040 發音
- 涵蓋 66.37% 中文發音(根據注音輸入表計算,1,040/1,567 音)
- 台語
- 約 21,400 詞/句
-->
<!-- (其他統計資料:仍待開發) -->
Note:
這馬臺灣華語有 24,000 詞句,3,495 無仝的字,差不多是捷用字的 83%, 1,040 的發音
台語的部份是 21,400 詞句,其他的統計資料需要有人鬥跤手
來想欲按怎算,參考華語的工具開發出來
---
## 計劃範圍
- 2024/11~2025/2,第一階段暫定範圍
- 阿美語 & 達悟語之外的其他十種族語
排灣語 Pinayuanan (pwn), 賽德克語 Seediq & Taroko (trv), 布農語 Bunun (bnn), 噶瑪蘭語 Kavalan (ckv), 魯凱語 Rukai (dru), 卑南語 Puyuma (pyu), 撒奇萊雅語 Sakizaya (szy), 泰雅語 Atayal (tay), 鄒語 Tsou (tsu), 賽夏語 Saisiyat (xsy)
- 原因:Facebook MMS-TTS (Massively Multilingual Speech) 專案[已涵蓋阿美與達悟](https://dl.fbaipublicfiles.com/mms/misc/language_coverage_mms.html)
<!-- - https://huggingface.co/facebook/mms-tts-ami
- https://huggingface.co/facebook/mms-tts-tao
-->
---
## 兩階段
- 第一階段
- 2 個族語
- 2 位專案助手
- 100 句
- 各 25 人錄音
- 第二階段
- 8 個族語
- 8 位專案助手
- 50 句
- 各 6~7 人錄音
---
## 工作內容
- 收集族語例句(文字)
- 各語言 100 / 50 句
- 也可以將自己的維基作品整理成句子
- 上傳網站後台開啟錄音介面 (irvin)
- 錄音
- 小幫手協助聯繫族人
- 到部落現場或在網站上錄音
- 驗證
- 小幫手與另外一協助重聽,確認錄音正確
---
### 工作時數
- 第一階段:2 族語,各 14 小時
- 第二階段:8 族語,各 7 小時
<!-- - https://commonvoice.mozilla.org/speak
- 翻譯網站介面 Translate website
- https://pontoon.mozilla.org/projects/common-voice/
- 收集語料 Collect Sentences for record
- 繁中 / 台語 / 原住民語 (TBD!)
- Mandarin Chinese / Taiwanese Hokkien / Aboriginal Languages (TBD)
-->
---
## 錄音語料(例句)需求
- 生活對話的例句
- 單詞為輔
- 無版權限制 (不可直接擷取自市售圖書)
- 方言語群處理方式確認中
- 例:維基百科條目(需經原編者同意)
<!-- - 歡迎幫忙整理現有的許多繁中語料 RAW,包含 G0v Slack #rand0m 頻道 -->
<!-- - Short and life sentences
- No license restriction (Public Domain / CC0) -->
-> https://github.com/moztw/cc0-sentences

---
## 費用補助
- 各族小幫手 x1,按工作時數計算(整理語料、協助現場錄音、確認錄音)
- 錄音補助:
- 第一階段 2 族語 x25 人
- 第二階段 8 族語 x8 人
確切金額確認中(參考協會等過去錄音專案標準)
<!--
---
## 其他資料
https://hackmd.io/@moztw?tags=%5B%22Common+Voice%22%5D
-->
---
## 聯絡方式
- 陳心一
- 0933561278
- irvin@moztw.org
{"title":"Common Voice 族語錄音計畫","description":"Common Voice - commonvoice.mozilla.org","contributors":"[{\"id\":\"ba29681d-bafa-44cc-a6a0-f3c4b0bb5a48\",\"add\":4861,\"del\":928}]"}