# Common Voice 句庫松 II (2019/2/23)
(本 pad 短網址) bit.ly/2E3AMec
前次活動紀錄: [Common Voice Sprint])(https://moztw.hackpad.tw/common-voice-sprint-tw#Untitled)
###### tags: `Common Voice`,`CC0-Corpus`
## 基本介紹
- Common Voice 網站 https://voice.mozilla.org/zh-TW
- Beta 資料(含台灣40小時)下載說明:[Multi-language Dataset Beta Release](https://discourse.mozilla.org/t/multi-language-dataset-beta-release/34373/22) (近期會上到正式網站)
- 專案討論版 https://discourse.mozilla.org/c/voice
- Common Voice 新聞相關 [News about Common Voice in zh tw](https://moztw.hackpad.tw/common-voice-zhtw-news#News-about-Common-Voice-in-zh-tw)
- 今年前半的目標
* 六月錄音達 400 小時 / 中文(目前 40 小時)
* 句子總數三月達到 7200 句(翻倍)
* 今年由 Deep Speech 釋出中文辨識模型
- 台灣討論空間
* Line - http://line.me/ti/g/GXvGlgG0As/
* Telegram - https://t.me/moztwCV
- 站上現有句子: https://github.com/mozilla/voice-web/blob/master/server/data/zh-TW/
- 中文發音涵蓋率統計狀態與工具 https://github.com/irvin/voice-text-tools
- Mozilla 相關專案
* Firefox Reality (VR 內的瀏覽器) https://mixedreality.mozilla.org/
* 包含 A-Frame (HTML VR framework)、Unity WebVR Assets、與其他 VR 實驗
* Deep Speech (訓練語音模型) https://github.com/mozilla/DeepSpeech
- 現有中文語音資料集
* 中華民國語言計算機學會18件 http://www.aclclp.org.tw/use_mat_c.php
* OpenSLR 整理中國與多國資料集 http://www.openslr.org/resources.php
* 中国中文信息学会 http://www.chineseldc.org/resource_list.php
## 可用資料來源
基本限制:
* 相容 CC0,完全沒有版權限制的資料
* 個人捐出(對話紀錄、blog、著作)
* 政府與公務員公文書、新聞稿(各政府單位新聞稿、公務員著作)
* 著作權法第九條規定的文件不受著作權保護
* https://law.moj.gov.tw/LawClass/LawSingle.aspx?Pcode=J0070017&FLNO=9
* 下列各款不得為著作權之標的︰
* 一、憲法、法律、命令或公文。
* 二、中央或地方機關就前款著作作成之翻譯物或編輯物。
* 三、標語及通用之符號、名詞、公式、數表、表格、簿冊或時曆。
* 四、單純為傳達事實之新聞報導所作成之語文著作。
* 五、依法令舉行之各類考試試題及其備用試題。
* 前項第一款所稱公文,包括公務員於職務上草擬之文告、講稿、新聞稿及其他文書。
* 因此政府新聞稿、公務員講稿可用
* 唐鳳會議記錄
* https://sayit.archive.tw/
* http://archive.tw/
* 爬維基百科 CC0 資料的 python script
* https://github.com/jeanbaptisteb/commonvoice-fr/blob/master/Wikipedia_CC0.py
## 本次成果收集
大家把成果 link 貼上來:
https://docs.google.com/document/d/1sJp0CM7VBtFzbvqre5JdQk1tXGtbyXAGNZ5mIYgs1DY/edit?usp=sharing
https://docs.google.com/document/d/1Jc1TOdpFGbCQGTpIT08QzFCrGqsplveR1_5BLHSzEq4/edit?usp=sharing
https://docs.google.com/document/d/11Jo0fmM-RmYLAB7DfKLf_AedSG170iwqbo8yjN3-bVI
https://docs.google.com/document/d/1Ed10_jPxjxoyg-Yn402QsVwyR3vFHUmA8T0m33njVfM/edit?usp=sharing
https://drive.google.com/file/d/1h9lyRXi71Vi-JS9sc7yqL4LFWXb9o0Cw/view?usp=sharing
https://hackmd.io/s/rkjdDKRS4