FSW-SSPW 20210319

# FSW-SSPW 20210319 ###### tags: `lecture` `ASR` `台語` [toc] ## speaker: 李宏毅 - GAN - unpaired speech-text data * Generater: acoustic feature分群取id(acoustic pattern discovery) -> phoneme sequence * Discriminater: phoneme sequence -> Real/Generated - 用 timit 以 generator (50%wer)做為 unsupervised ASR boostraping-> pseudo labeling-> iterative training - self-supervised - BERT->audio BERT(mockingjay)[youtube](https://youtu.be/JlOSyRNFjOw) * sequence 太長：1. down sampling 2. consecutive masking * 適用 phoneme classification, speaker recognition - speech processing decathlon 參考 github [S3PRL](https://github.com/s3prl/s3prl) - meta learning(learn to learn) - MAML: learning to initialize - DARTS: network architecture search * 成效：自動加入 skip connection, 自動加大 filter ## speaker: 楊允言「所有語料庫如果都要授權，那就什麼都不用做了」🤣 - 台語/華語差異：台語同字太多發音(腔調,用法) - 詞彙查詢系統 - 教育部台灣閩南語常用辭典 2.5萬詞還在增補 - chhoeTaigi 找台語有重複的10萬詞 (其中 Embree 傳教士編寫的台英辭典，可英語查詢) - 語料庫 - 教育部文字(程俊源) 語音（廖元甫）！！未release！！網路來源：羅馬拼音、漢字多需要整理 - 閩客語文學獎教育部 - 全國語文競賽閩客語朗讀（搜 “國賽台語”可找到有出版社整理音檔對照的[表格](http://ip194097.ntcu.edu.tw/longthok/longthok.asp)） - 台語文語詞檢索（樂暢）台語文 concordance - 台文館 1.台灣民間文學歌仔冊資料庫 2. 台語文數位典藏資料庫（500萬字） - 要授權：公視台語台,意傳科技 - scan:台灣民間文學館,台灣白話字文獻館,台語文記憶 ## speaker: 盧文祥不停講古，講自己故事拖時間導致後面都在趕，pass ## sspw參賽 track1:台語語音->中字 track2:台語語音->台字 track3:台語語音->台羅phoneme corpus: TAT, 公視民視戲劇, ... ### NCU-IISR蔡宗翰的學生 - 系統：data->增強(Lite audio-visual speech enhancement)->kaldi AM-> conformer LM->result ### 成大吳宗憲-謝宜庭 - 自備語料 - 台語平衡語料（自錄） - 台語專用音素擴充語料庫（用ipa標記,以調性相似度取中文資料中共同的tone,phone） - 台語日常語料 - 主辦提供戲劇語料庫 - 只有中文轉錄->自建詞對詞翻譯辭典 - 系統架構 - multi-stream:5 stream, subsampling \[1,1,2,2,3,3,4,5\] - LM:5-gram ### 雲科沒參考性直接pass ### 中山陳嘉平的學生 - E2E: ESPNet - 實驗數據 conformer LM 比Transformer LM差一點(encoder數量比decoder數量重要) - improve data quality with CTC-segmentation - 王新民老師： kaldi cleanup比較準 ### 台科 - E2E: ESPNet - conformer比起transformer訓練時間較長但效果稍好一點點 - Hybrid: kaldi ### 成大王駿發的學生 - 設置：LM 54萬詞 lexicon 3萬詞 enhanced rir, musan - 系統：kaldi - GMM不用tone效果較好, chain model有tone較好 - chain model架構使用cnn-lstm-tdnn較好但和其他差距不大 ### 中央王家慶的學生 - 策略：因語料未對準，採用self-supervised - 模型：encoder:wav2vec2.0(pre-train用librivox);decoder:CTC ### 華碩員工洪孝宗吳孟哲自己參加 - 拿呂道誠的辭典做增量，無用的詞太多但沒羅馬字和外來詞 - 用i taigi找發音 - 合併中台語發音辭典共用部分發音 - 語言模型華文台文共同訓練卻沒真的共享(類似中英文情境) ### 台達電 - 資料庫 (Track1:台語->華文 2:台語->台文 3.台語->台羅) | Track | dataset name | text | Time(hr) | | ------ | ------------- | ---- | -------- | | Track1 | Formosa TV | Yes | 120 | | Track1 | youtube NoisyI| Yes | 567 | | Track2 | TAT Vol1 | Yes | 46 | | Track2 | 公視台語 | Yes | 85 | | Track2 | 長庚TW02,TW03 | Yes | 75 | | Track2 | SuiSiann 0.2 | Yes | 7 | | Track3 | TAT Vol1 | Yes | 46 | | Track3 | SuiSiann 0.2 | Yes | 7 | | Track3 | 長庚TW03 | No | 50 | | Track3 | Youtube clean | No | 10 | - 系統: ESPnet(egs-aishell) - encoder: conformer - hybrid decoder: CTC Attention - 數據: - SP: speed perturb - NST: Noisy student training - MST: Multi-Sytle Training - spec-aug: spec augment | Track | training setting | CER w/o tone | with tone | | ------ | ----------------- | ------------ | --------- | | Track1 | SP | 81.6 | ----- | | Track2 | SP+spec-aug | 67.1 | ----- | | Track2 | SP+spec-aug+MST | 57.09 | ----- | | Track3 | SP | 23.70 | 27.73 | | Track3 | SP+spec-aug | 18.24 | 21.19 | | Track3 | SP+spec-aug+Sytle Training| 13.78 | 17.03 | | Track3 | SP+spec-aug+MST | 13.91 | 16.77 | | Track3 | SP+spec-aug+MST+NST| 10.35 | 13.05 | ### 師大陳柏琳的學生(track3 第一名) - 系統：kaldi AM+4-gram(2-state bi-phone) - transfer: NER corpus to TAT-vol1 - 處理speech enhanced參考2019 conv-tasnet效果不錯 ### 中華電信 - 系統: wav2vec2.0 - 策略: train 語音->台羅、台羅->台文(語言模型)、台羅->華文(翻譯模型) - 參考論文 [don't stop pretraining](https://arxiv.org/pdf/2004.10964.pdf) ### 中研院 (覺得沒第一名是因為都沒認真做，很多優化策略都沒做) - 資料: 沒做 augmentation，corpus 部分私有部分公布 - YTTD: youtube dramas cleanup - Taibun: 台語文標記 - Tailo: 台羅拼音標記 | corpus | tokens | # utts | hours | sec/utt | | ------------ | -------- | ------ | ------ | ------- | | FSR-2020 | Taibun | 22551 | 40.85 | 6.52 | | MOE-Dict | Taibun | 12139 | 3.6 | 1.07 | | MOE-Read | Tailo | 13397 | 10.07 | 2.71 | | PTS-Taigi-C3 | Taibun | 59690 | 37.43 | 2.26 | | TWISAS | Tailo | 200590 | 133.44 | 2.39 | | YTTD-201214 | Taibun | 52761 | 30.32 | 2.07 | | YTTD-FST-C6 | Taibun | 427695 | 277.89 | 1.94 | | Total | ----- | 788823 | 533.6 | ----- | - 策略: 因為本身在做華台客語混和ASR所以直接做語音->台文，再以台文轉台羅(語言模型)、台文轉華文(翻譯模型)輔助 - lexicon: - 有很大個台華 mapping 辭典 - 因多語 ASR 使用 tonal IPA 標記台文文檔 - 287000發音/90847詞 - 模型結構: - AM: chain(CNN+TDNNF) - LM: 3-gram+rnnlm - 其他組的 rnnlm 效果不好是因為需要較大量的data - 未採取的優化措施: AM-Mixup, FEAM(最近要發interspeech), DcAE; LM-MT from Gigaword; lattice combination; score fusion with ROUGE - 提出問題: - 台羅其實有試用較少量的data train反而競賽效果較好，因為台語的 heteronyms(heterophones) 太多了 - 用台文->中文(Machine Translation)比用台語音->中文(Speech Translation)好 - 太長語句分段方式在這次使用直接句中分段其實應該silence-based segmentation ### 台大李宏毅的學生 - TGB(台文通訊)+教育部台語例句(薛丞宏github)+寶島鼓仔燈(youtubeOCR取字幕)->chhoeTaigi 建發音->Moses for g2p - in-domain資料庫(TAT, PTS公視, FormosaTV)+output-domain:gigaword->台文/中文標記train同一個model (大量華文少量台文) - 華文直接產效果不如產台文再翻譯 - recoring: - in-domain small LM 先 decode ->word lattice->big LM (in-donmain+out-domain) recoring->result ## 業界案例 ### 交大 youtube 語音辨識 - 主持人陳信宏陽明交大講者陳又碩 - ai+聽打員(for 政治正確)用衛星直播來故意延遲30秒 - 宋楚瑜都不用聽打員修正，韓國瑜需要聽打員不停修正🤣🤣 - 疫調ASR正確率約七成重新fine tune後91.84% - 需詞對詞轉換表 - “小確信”語音辨識（字幕生成） - TTS結果沒仔細講技術細節，目前有中文轉台文再合成語音的服務 ### 中華電信 i 寶貝 - 汪世昌 - 語音辨識：都是我在賽微的時候解的問題🤣 - NLP對話問題 - 語音合成問題：特殊發音，多語交雜 - 主要來徵才的 ### 意傳台語語音合成全台語報告… - 台語語音合成ê mê-kak - 薛丞宏 - 有提供資料庫賣4小時44分 - 王秀容老師標記高雄腔 957聲韻組合瓦器錄音室 - tacotron-2 waveRNN 20條台語變調規則 - [github](https://github.com/i3thuan5/tai5-uan5_gian5-gi2_kang1-ku7) ### 康統kenkone 語音辨識提升醫療品質 - 廖威宣 - 講語音醫療創業來宣傳的 ### ailab 老人台語語音辨識 - ai lab - 雅婷音樂慢半拍,逐字稿,... - kaldi clean-up動作要 by corpus做效果才會好 - 翻譯類的任務像這次台文訓練wav2vec(或用wav2letter)的時候可以試用subword為單位效果較好 - 同義詞台文華文轉換另外訓練模型處理過資料再訓練AM效果較好 - by corpus train alignment model 對 clean up 效果影響較大 ## conclusion ### websites 1. [官網](https://sites.google.com/speech.ntut.edu.tw/fsw/home/challenge-2020/sspw-2021) 2. [docs in google drive](https://drive.google.com/drive/folders/1-bhi3id1iV-96m1XcHO1gExui_lCb21f?usp=sharing) ### 實驗思路 - 李宏毅 - 以 GAN train self-supervised ASR - audio BERT 可能適用語者分段語會議紀錄 - 成效未知: DARTS 模型架構自訓練, NAML 自適應初始化狀態 - 楊允言 - 關注教育部台文辭典語音語料公布狀況，有部分未公開授權資料可私下聯絡取得 - speech enhancement - [Lite audio-visual speech enhancement](https://arxiv.org/pdf/2005.11769.pdf) - [conv-tasnet](https://arxiv.org/pdf/1809.07454.pdf) [pytorch 實作](https://github.com/kaituoxu/Conv-TasNet) - data augmentation - spec-aug 不贅述 - silence-based segmentation (除了原始音檔長度再加入較短時長的音檔) - youtube + OCR 取得字幕語訓練資料 - data cleanup - kaldi clean-up - CTC segmentation - by corpus train alignment model - AM training - multi-stream Kaldi ASR - ESPNet (conformer > transformer) - wav2vec2.0(+CTC) 訓練可以用 subword level unit - GMM without tone is better but Chain model needs tone (王駿發) - [Noisy Student Training](https://arxiv.org/pdf/1911.04252.pdf) - [multi-style training](https://ieeexplore.ieee.org/document/1169544) [sci-hub](https://sci-hub.se/https://ieeexplore.ieee.org/document/1169544) 論文太久了，需要找到新的實作介紹(台達電) - [don't stop pretraining](https://arxiv.org/pdf/2004.10964.pdf) - Mixup, FEAM(最近要發interspeech), DcAE (中研院) - LM training - 2-state topology + bi-phone - multi-lingual 文本可能要串接起來才能增加多語夾雜機率(以前李宏毅其他演講聽得) - Moses for G2P - recoring for larger LM with different Language (有中文的LM來做台語的 recoring，但decode的時候只用有台文的LM) - recoring strategy ### 資源 #### 發音檢索 - [chhoeTaigi](https://chhoe.taigi.info/) 約 10 萬詞的辭典其中有部分有日語檢索、英文檢索 - 樂暢 [台語文 concordance](http://ip194097.ntcu.edu.tw/TG/concordance/form.asp) - [iTaigi](https://itaigi.tw/k/%E6%A8%82%E8%A7%80/) - 其他資源: [ref1](https://sites.google.com/site/tgbchugoan/) #### 語料庫 - 國賽台語朗讀有[音檔對照表](http://ip194097.ntcu.edu.tw/longthok/longthok.asp)待下載 - 吳宗憲老師台語平衡語料庫、中文-based台語音素擴充語料庫 - TAT vol1 (大賽提供) - NER corpus 中文語料(廖元甫老師有) - 公視民視語料 (有時效需授權) - 意傳語料專家標記需授權 - 中研院有多個語料庫之後可能會在教育部或語言協會release ### APIs - 交大小確幸語音辨識, 台語中字TTS - ailab 雅婷 (除了逐字稿還有其他的) - 李宏毅多任務語音模型 [github](https://github.com/s3prl/s3prl) - 意傳台語語音合成ê mê-kak, 薛丞宏 [github](https://github.com/i3thuan5/tai5-uan5_gian5-gi2_kang1-ku7)