# Common Voice 句庫松 II (2019/2/23) (本 pad 短網址) bit.ly/2E3AMec 前次活動紀錄: [Common Voice Sprint])(https://moztw.hackpad.tw/common-voice-sprint-tw#Untitled) ###### tags: `Common Voice`,`CC0-Corpus` ## 基本介紹 - Common Voice 網站 https://voice.mozilla.org/zh-TW - Beta 資料(含台灣40小時)下載說明:[Multi-language Dataset Beta Release](https://discourse.mozilla.org/t/multi-language-dataset-beta-release/34373/22) (近期會上到正式網站) - 專案討論版 https://discourse.mozilla.org/c/voice - Common Voice 新聞相關 [News about Common Voice in zh tw](https://moztw.hackpad.tw/common-voice-zhtw-news#News-about-Common-Voice-in-zh-tw) - 今年前半的目標 * 六月錄音達 400 小時 / 中文(目前 40 小時) * 句子總數三月達到 7200 句(翻倍) * 今年由 Deep Speech 釋出中文辨識模型 - 台灣討論空間 * Line - http://line.me/ti/g/GXvGlgG0As/ * Telegram - https://t.me/moztwCV - 站上現有句子: https://github.com/mozilla/voice-web/blob/master/server/data/zh-TW/ - 中文發音涵蓋率統計狀態與工具 https://github.com/irvin/voice-text-tools - Mozilla 相關專案 * Firefox Reality (VR 內的瀏覽器) https://mixedreality.mozilla.org/ * 包含 A-Frame (HTML VR framework)、Unity WebVR Assets、與其他 VR 實驗 * Deep Speech (訓練語音模型) https://github.com/mozilla/DeepSpeech - 現有中文語音資料集 * 中華民國語言計算機學會18件 http://www.aclclp.org.tw/use_mat_c.php * OpenSLR 整理中國與多國資料集 http://www.openslr.org/resources.php * 中国中文信息学会 http://www.chineseldc.org/resource_list.php ## 可用資料來源 基本限制: * 相容 CC0,完全沒有版權限制的資料 * 個人捐出(對話紀錄、blog、著作) * 政府與公務員公文書、新聞稿(各政府單位新聞稿、公務員著作) * 著作權法第九條規定的文件不受著作權保護 * https://law.moj.gov.tw/LawClass/LawSingle.aspx?Pcode=J0070017&FLNO=9 * 下列各款不得為著作權之標的︰ * 一、憲法、法律、命令或公文。 * 二、中央或地方機關就前款著作作成之翻譯物或編輯物。 * 三、標語及通用之符號、名詞、公式、數表、表格、簿冊或時曆。 * 四、單純為傳達事實之新聞報導所作成之語文著作。 * 五、依法令舉行之各類考試試題及其備用試題。 * 前項第一款所稱公文,包括公務員於職務上草擬之文告、講稿、新聞稿及其他文書。 * 因此政府新聞稿、公務員講稿可用 * 唐鳳會議記錄 * https://sayit.archive.tw/ * http://archive.tw/ * 爬維基百科 CC0 資料的 python script * https://github.com/jeanbaptisteb/commonvoice-fr/blob/master/Wikipedia_CC0.py ## 本次成果收集 大家把成果 link 貼上來: https://docs.google.com/document/d/1sJp0CM7VBtFzbvqre5JdQk1tXGtbyXAGNZ5mIYgs1DY/edit?usp=sharing https://docs.google.com/document/d/1Jc1TOdpFGbCQGTpIT08QzFCrGqsplveR1_5BLHSzEq4/edit?usp=sharing https://docs.google.com/document/d/11Jo0fmM-RmYLAB7DfKLf_AedSG170iwqbo8yjN3-bVI https://docs.google.com/document/d/1Ed10_jPxjxoyg-Yn402QsVwyR3vFHUmA8T0m33njVfM/edit?usp=sharing https://drive.google.com/file/d/1h9lyRXi71Vi-JS9sc7yqL4LFWXb9o0Cw/view?usp=sharing https://hackmd.io/s/rkjdDKRS4