# FSW-SSPW 20210319
###### tags: `lecture` `ASR` `台語`
[toc]
## speaker: 李宏毅
- GAN
- unpaired speech-text data
* Generater: acoustic feature分群取id(acoustic pattern discovery) -> phoneme sequence
* Discriminater: phoneme sequence -> Real/Generated
- 用 timit 以 generator (50%wer)做為 unsupervised ASR boostraping-> pseudo labeling-> iterative training
- self-supervised
- BERT->audio BERT(mockingjay)[youtube](https://youtu.be/JlOSyRNFjOw)
* sequence 太長:1. down sampling 2. consecutive masking
* 適用 phoneme classification, speaker recognition
- speech processing decathlon 參考 github [S3PRL](https://github.com/s3prl/s3prl)
- meta learning(learn to learn)
- MAML: learning to initialize
- DARTS: network architecture search
* 成效:自動加入 skip connection, 自動加大 filter
## speaker: 楊允言
「所有語料庫如果都要授權,那就什麼都不用做了」🤣
- 台語/華語差異:台語同字太多發音(腔調,用法)
- 詞彙查詢系統
- 教育部台灣閩南語常用辭典 2.5萬詞 還在增補
- chhoeTaigi 找台語 有重複的10萬詞 (其中 Embree 傳教士編寫的台英辭典,可英語查詢)
- 語料庫
- 教育部 文字(程俊源) 語音(廖元甫)!!未release!!
網路來源:羅馬拼音、漢字多需要整理
- 閩客語文學獎 教育部
- 全國語文競賽閩客語朗讀(搜 “國賽 台語”可找到有出版社整理音檔對照的[表格](http://ip194097.ntcu.edu.tw/longthok/longthok.asp))
- 台語文語詞檢索(樂暢) 台語文 concordance
- 台文館 1.台灣民間文學歌仔冊資料庫 2. 台語文數位典藏資料庫 (500萬字)
- 要授權:公視台語台,意傳科技
- scan:台灣民間文學館,台灣白話字文獻館,台語文記憶
## speaker: 盧文祥
不停講古,講自己故事拖時間導致後面都在趕,pass
## sspw參賽
track1:台語語音->中字
track2:台語語音->台字
track3:台語語音->台羅phoneme
corpus: TAT, 公視民視戲劇, ...
### NCU-IISR蔡宗翰的學生
- 系統:data->增強(Lite audio-visual speech enhancement)->kaldi AM-> conformer LM->result
### 成大吳宗憲-謝宜庭
- 自備語料
- 台語平衡語料(自錄)
- 台語專用音素擴充語料庫(用ipa標記,以調性相似度取中文資料中共同的tone,phone)
- 台語日常語料
- 主辦提供戲劇語料庫
- 只有中文轉錄->自建詞對詞翻譯辭典
- 系統架構
- multi-stream:5 stream, subsampling \[1,1,2,2,3,3,4,5\]
- LM:5-gram
### 雲科
沒參考性直接pass
### 中山陳嘉平的學生
- E2E: ESPNet
- 實驗數據 conformer LM 比Transformer LM差一點(encoder數量比decoder數量重要)
- improve data quality with CTC-segmentation
- 王新民老師: kaldi cleanup比較準
### 台科
- E2E: ESPNet
- conformer比起transformer訓練時間較長但效果稍好一點點
- Hybrid: kaldi
### 成大王駿發的學生
- 設置:LM 54萬詞 lexicon 3萬詞 enhanced rir, musan
- 系統:kaldi
- GMM不用tone效果較好, chain model有tone較好
- chain model架構使用cnn-lstm-tdnn較好但和其他差距不大
### 中央王家慶的學生
- 策略:因語料未對準,採用self-supervised
- 模型:encoder:wav2vec2.0(pre-train用librivox);decoder:CTC
### 華碩員工 洪孝宗 吳孟哲 自己參加
- 拿呂道誠的辭典做增量,無用的詞太多但沒羅馬字和外來詞
- 用i taigi找發音
- 合併中台語發音辭典共用部分發音
- 語言模型華文台文共同訓練卻沒真的共享(類似中英文情境)
### 台達電
- 資料庫 (Track1:台語->華文 2:台語->台文 3.台語->台羅)
| Track | dataset name | text | Time(hr) |
| ------ | ------------- | ---- | -------- |
| Track1 | Formosa TV | Yes | 120 |
| Track1 | youtube NoisyI| Yes | 567 |
| Track2 | TAT Vol1 | Yes | 46 |
| Track2 | 公視台語 | Yes | 85 |
| Track2 | 長庚TW02,TW03 | Yes | 75 |
| Track2 | SuiSiann 0.2 | Yes | 7 |
| Track3 | TAT Vol1 | Yes | 46 |
| Track3 | SuiSiann 0.2 | Yes | 7 |
| Track3 | 長庚TW03 | No | 50 |
| Track3 | Youtube clean | No | 10 |
- 系統: ESPnet(egs-aishell)
- encoder: conformer
- hybrid decoder: CTC Attention
- 數據:
- SP: speed perturb
- NST: Noisy student training
- MST: Multi-Sytle Training
- spec-aug: spec augment
| Track | training setting | CER w/o tone | with tone |
| ------ | ----------------- | ------------ | --------- |
| Track1 | SP | 81.6 | ----- |
| Track2 | SP+spec-aug | 67.1 | ----- |
| Track2 | SP+spec-aug+MST | 57.09 | ----- |
| Track3 | SP | 23.70 | 27.73 |
| Track3 | SP+spec-aug | 18.24 | 21.19 |
| Track3 | SP+spec-aug+Sytle Training| 13.78 | 17.03 |
| Track3 | SP+spec-aug+MST | 13.91 | 16.77 |
| Track3 | SP+spec-aug+MST+NST| 10.35 | 13.05 |
### 師大陳柏琳的學生(track3 第一名)
- 系統:kaldi AM+4-gram(2-state bi-phone)
- transfer: NER corpus to TAT-vol1
- 處理speech enhanced參考2019 conv-tasnet效果不錯
### 中華電信
- 系統: wav2vec2.0
- 策略: train 語音->台羅、台羅->台文(語言模型)、台羅->華文(翻譯模型)
- 參考論文 [don't stop pretraining](https://arxiv.org/pdf/2004.10964.pdf)
### 中研院 (覺得沒第一名是因為都沒認真做,很多優化策略都沒做)
- 資料: 沒做 augmentation,corpus 部分私有部分公布
- YTTD: youtube dramas cleanup
- Taibun: 台語文標記
- Tailo: 台羅拼音標記
| corpus | tokens | # utts | hours | sec/utt |
| ------------ | -------- | ------ | ------ | ------- |
| FSR-2020 | Taibun | 22551 | 40.85 | 6.52 |
| MOE-Dict | Taibun | 12139 | 3.6 | 1.07 |
| MOE-Read | Tailo | 13397 | 10.07 | 2.71 |
| PTS-Taigi-C3 | Taibun | 59690 | 37.43 | 2.26 |
| TWISAS | Tailo | 200590 | 133.44 | 2.39 |
| YTTD-201214 | Taibun | 52761 | 30.32 | 2.07 |
| YTTD-FST-C6 | Taibun | 427695 | 277.89 | 1.94 |
| Total | ----- | 788823 | 533.6 | ----- |
- 策略: 因為本身在做華台客語混和ASR所以直接做語音->台文,再以台文轉台羅(語言模型)、台文轉華文(翻譯模型)輔助
- lexicon:
- 有很大個台華 mapping 辭典
- 因多語 ASR 使用 tonal IPA 標記台文文檔
- 287000發音/90847詞
- 模型結構:
- AM: chain(CNN+TDNNF)
- LM: 3-gram+rnnlm
- 其他組的 rnnlm 效果不好是因為需要較大量的data
- 未採取的優化措施: AM-Mixup, FEAM(最近要發interspeech), DcAE; LM-MT from Gigaword; lattice combination; score fusion with ROUGE
- 提出問題:
- 台羅其實有試用較少量的data train反而競賽效果較好,因為台語的 heteronyms(heterophones) 太多了
- 用台文->中文(Machine Translation)比用台語音->中文(Speech Translation)好
- 太長語句分段方式在這次使用直接句中分段其實應該silence-based segmentation
### 台大李宏毅的學生
- TGB(台文通訊)+教育部台語例句(薛丞宏github)+寶島鼓仔燈(youtubeOCR取字幕)->chhoeTaigi 建發音->Moses for g2p
- in-domain資料庫(TAT, PTS公視, FormosaTV)+output-domain:gigaword->台文/中文標記train同一個model (大量華文少量台文)
- 華文直接產效果不如產台文再翻譯
- recoring:
- in-domain small LM 先 decode ->word lattice->big LM (in-donmain+out-domain) recoring->result
## 業界案例
### 交大 youtube 語音辨識
- 主持人陳信宏 陽明交大 講者陳又碩
- ai+聽打員(for 政治正確)用衛星直播來故意延遲30秒
- 宋楚瑜都不用聽打員修正,韓國瑜需要聽打員不停修正🤣🤣
- 疫調ASR正確率約七成重新fine tune後91.84%
- 需詞對詞轉換表
- “小確信”語音辨識(字幕生成)
- TTS結果沒仔細講技術細節,目前有中文轉台文再合成語音的服務
### 中華電信 i 寶貝
- 汪世昌
- 語音辨識:都是我在賽微的時候解的問題🤣
- NLP對話問題
- 語音合成問題:特殊發音,多語交雜
- 主要來徵才的
### 意傳 台語語音合成 全台語報告…
- 台語語音合成ê mê-kak
- 薛丞宏
- 有提供資料庫賣4小時44分
- 王秀容老師標記 高雄腔 957聲韻組合 瓦器錄音室
- tacotron-2 waveRNN 20條台語變調規則
- [github](https://github.com/i3thuan5/tai5-uan5_gian5-gi2_kang1-ku7)
### 康統kenkone 語音辨識提升醫療品質
- 廖威宣
- 講語音醫療創業來宣傳的
### ailab 老人台語語音辨識
- ai lab
- 雅婷 音樂慢半拍,逐字稿,...
- kaldi clean-up動作要 by corpus做效果才會好
- 翻譯類的任務像這次台文訓練wav2vec(或用wav2letter)的時候可以試用subword為單位效果較好
- 同義詞台文華文轉換另外訓練模型處理過資料再訓練AM效果較好
- by corpus train alignment model 對 clean up 效果影響較大
## conclusion
### websites
1. [官網](https://sites.google.com/speech.ntut.edu.tw/fsw/home/challenge-2020/sspw-2021)
2. [docs in google drive](https://drive.google.com/drive/folders/1-bhi3id1iV-96m1XcHO1gExui_lCb21f?usp=sharing)
### 實驗思路
- 李宏毅
- 以 GAN train self-supervised ASR
- audio BERT 可能適用語者分段語會議紀錄
- 成效未知: DARTS 模型架構自訓練, NAML 自適應初始化狀態
- 楊允言
- 關注教育部台文辭典語音語料公布狀況,有部分未公開授權資料可私下聯絡取得
- speech enhancement
- [Lite audio-visual speech enhancement](https://arxiv.org/pdf/2005.11769.pdf)
- [conv-tasnet](https://arxiv.org/pdf/1809.07454.pdf) [pytorch 實作](https://github.com/kaituoxu/Conv-TasNet)
- data augmentation
- spec-aug 不贅述
- silence-based segmentation (除了原始音檔長度再加入較短時長的音檔)
- youtube + OCR 取得字幕語訓練資料
- data cleanup
- kaldi clean-up
- CTC segmentation
- by corpus train alignment model
- AM training
- multi-stream Kaldi ASR
- ESPNet (conformer > transformer)
- wav2vec2.0(+CTC) 訓練可以用 subword level unit
- GMM without tone is better but Chain model needs tone (王駿發)
- [Noisy Student Training](https://arxiv.org/pdf/1911.04252.pdf)
- [multi-style training](https://ieeexplore.ieee.org/document/1169544) [sci-hub](https://sci-hub.se/https://ieeexplore.ieee.org/document/1169544) 論文太久了,需要找到新的實作介紹(台達電)
- [don't stop pretraining](https://arxiv.org/pdf/2004.10964.pdf)
- Mixup, FEAM(最近要發interspeech), DcAE (中研院)
- LM training
- 2-state topology + bi-phone
- multi-lingual 文本可能要串接起來才能增加多語夾雜機率(以前李宏毅其他演講聽得)
- Moses for G2P
- recoring for larger LM with different Language (有中文的LM來做台語的 recoring,但decode的時候只用有台文的LM)
- recoring strategy
### 資源
#### 發音檢索
- [chhoeTaigi](https://chhoe.taigi.info/) 約 10 萬詞的辭典其中有部分有日語檢索、英文檢索
- 樂暢 [台語文 concordance](http://ip194097.ntcu.edu.tw/TG/concordance/form.asp)
- [iTaigi](https://itaigi.tw/k/%E6%A8%82%E8%A7%80/)
- 其他資源: [ref1](https://sites.google.com/site/tgbchugoan/)
#### 語料庫
- 國賽台語朗讀有[音檔對照表](http://ip194097.ntcu.edu.tw/longthok/longthok.asp)待下載
- 吳宗憲老師 台語平衡語料庫、中文-based台語音素擴充語料庫
- TAT vol1 (大賽提供)
- NER corpus 中文語料(廖元甫老師有)
- 公視民視語料 (有時效需授權)
- 意傳語料 專家標記 需授權
- 中研院有多個語料庫之後可能會在教育部或語言協會release
### APIs
- 交大 小確幸語音辨識, 台語中字TTS
- ailab 雅婷 (除了逐字稿還有其他的)
- 李宏毅多任務語音模型 [github](https://github.com/s3prl/s3prl)
- 意傳 台語語音合成ê mê-kak, 薛丞宏 [github](https://github.com/i3thuan5/tai5-uan5_gian5-gi2_kang1-ku7)