## 跨語言歌聲合成 ### 目前實驗結果 ### 利用ESPnet 完成台語語音辨識任務 > dataset : [台灣媠聲 2.0](https://suisiann-dataset.ithuan.tw/) 近7小時的資料(**乾淨人聲**且**單一 speaker**)。過程中需要用到[臺灣言語工具](https://i3thuan5.github.io/tai5-uan5_gian5-gi2_kang1-ku7/index.html)進行text資料的正規化處理 > 將台羅拼音轉成為全羅馬字音標 (TLPA),並移除聲調 > > 調整前: > ![image](https://hackmd.io/_uploads/SyCCReBbR.png) > 調整後: > ![image](https://hackmd.io/_uploads/SkcXJZS-R.png) > > data split: > * train -> 6585 > * validation -> 2000 > * test -> 346 #### 實驗結果 whisper_small under 35epoch (表現最佳) |Accuracy | Loss| |------------ | -------------| |![image](https://hackmd.io/_uploads/By8tGQebC.png)|![image](https://hackmd.io/_uploads/HyY1QmxbA.png) |CER|WER| | -------- | -------- | |![image](https://hackmd.io/_uploads/SJHhMXg-C.png)|![image](https://hackmd.io/_uploads/B1CafmgbR.png) :::warning * 過程中使用到的 [臺灣言語工具](https://i3thuan5.github.io/tai5-uan5_gian5-gi2_kang1-ku7/index.html) 除 TLPA 之外,亦可以進行 IPA(國際音標)轉換 ![截圖 2024-06-18 下午5.15.16](https://hackmd.io/_uploads/BydNeCAHC.png) * [Demo](https://colab.research.google.com/drive/1SdJF0mk1hflgmfrY4xm0mPA--yULxfg-#scrollTo=ucXtep-kIx9C) * 證明台語**語音辨識、語音合成**在自監督模型下的可行性 ::: ### 預計(目前)實驗 在**不使用台語歌唱集**的情況下,使用現有singinig model來測試台語歌的效果。 * [Xiaoicesing2](https://arxiv.org/abs/2210.14666) * Github 程式碼有部分缺,需要自己補齊。但作者可以很快聯絡到。 * 使用中文 opencpop 資料集 * 衍生研究:[CrossSinger](https://arxiv.org/abs/2309.12672) * 使用 [phonemizer](https://github.com/bootphon/phonemizer) 將歌詞轉為IPA表示 * 增加 Language Embedding、Singer Embedding、GRL * [Diffsinger](https://arxiv.org/abs/2105.02446) * [BiSinger: Bilingual Singing Voice Synthesis](https://arxiv.org/abs/2309.14089) * 歌詞均使用 CMU dictionary 來表示 * [Improving Chinese Pop Song and Hokkien Gezi Opera Singing Voice Synthesis by Enhancing Local Modeling](https://aclanthology.org/2023.emnlp-main.200/) * 中文歌詞使用 PopCS 資料集 * 歌仔戲歌詞同樣使用IPA標示(目前正在申請歌仔戲資料) * [Github](https://htmlpreview.github.io/?https://github.com/baipeng1/SVSELM/blob/main/demo/index.html) ### 多語言歌唱資料集(精標) 目前收集到的多語言資料集如下: * 中文 |English name| Has phoneme-level label| | -------- | -------- | |M4Singer| √| |OpenCPOP| √| * 日文 |English name| Native name|Has phoneme-level label| | -------- | -------- | -------- | |Amaboshi Cipher| 雨星サイファ| √| |ENUNU Kodoku Project| ENUNU蠱毒企画| √| |JSUT| |√| |Itako| 東北イタコ| √| |Kiritan| 東北きりたん| √| * 韓文 |English name| Has phoneme-level label| | -------- | -------- | |CSD(Children's song dataset)| ×| * 英文 |English name| Has phoneme-level label| | -------- | -------- | |Alex Floarea| √| |CSD(Children's song dataset)| ×| |NUS-48E| √| |TIGER| √| * 台語(? * [MIRMLPop](https://github.com/york135/MIRMLPop?tab=readme-ov-file) ### 其它工具 (參考) * [Muskit](https://github.com/SJTMusicTeam/Muskits) (類似之前說過的Espnet) * 有許多[預訓練](https://github.com/SJTMusicTeam/Muskits/blob/main/doc/pretrained_models.md)的歌聲模型,如 * Naive-RNN * GLU-Transformer * MLP-Singer * XiaoIce