# 語音合成錄音經驗 Sîng-hông 2018/09/21 --- ## 語音合成 - 語音合成的目標:文字變成聲音。 - 隨著人工智慧和機器人的熱潮,語音合成是不可或缺的技術。 - 語言學習的例子:親像[itaigi](https://itaigi.tw/tsu-te/pho-khi-bong)、[阿美語萌典](https://amis.moedict.tw/#:makapah)、…。 --- ## 兩个部份 1. 合成技術 2. 合成語料 --- ## 1. 合成技術 - Google 在 2017 年底推出「[Tacotron-2](https://arxiv.org/pdf/1712.05884.pdf)」 - 標榜接近人聲(MOS:4.53 vs 4.58) - 標榜end2end技術,只要有語料,就算沒有語言知識也有辦法製作出語音合成 - 結論 - 技術有Open Source,重點是如何準備語料 --- ## 2. 合成語料 - Tacotron-2的做法 - 準備錄音檔kah對應的書寫文字(24小時規模) - [Google](https://arxiv.org/pdf/1712.05884.pdf)、[LJ Speech](https://keithito.com/LJ-Speech-Dataset/)都錄了24小時的語料 - 傳統GMM的做法 - 準備錄音檔kah對應的transcription(5~10小時) - 準備書寫文字和transcription的轉換系統 - hué-tshia <==> hue1-tshia1 --- ## 小結 - Tacotron-2的做法未來是主流,所以產生錄音變得非常重要 - 錄音室每小時行情1500~2000、發音人3000~5000,成本控制相當重要 - 以下討論各種錄音的方法 --- ## 發音人 - 考慮目的,用途 - 腔口,查埔查某,年歲 --- ### 審聽製作人 - 錄音前,和發音人聯絡、寄稿、事前提醒。 - 確定發音人有先讀過稿,了解錄音的方式 - 錄音時,品質的把關。若發音人沒照稿唸,ài判斷是因為腔口差抑是唸毋著,決定音檔是否需要重新錄製。 - 發音人和錄音師之間協調工作,掌握進度。 --- ### 錄音師 - 聽p,ph品質,調整設備,,有噴mai--無(kah製作人無kâng) --- ## 文稿 - 如果打算公開語料,要先問好文稿授權,取得作者同意、授權書 - 要準備台客語、族語稿,千萬不要準備華語稿讓發音人現場翻譯 - 翻譯浪費時間 - 事後要聽打(成本很大) --- --- ## 錄音室 vs 語音實驗室 | | 錄音室 | 實驗室 | | -------- | -------- | -------- | | 剪輯人員 | 錄音師 | 自己 | | 發音人唸錯 | 當場把錯的剪掉 | 事後重聽重剪 | | 進度控制 | 減ka-tī音檔ê步 | 事後重聽重剪 | | 音檔一致 | 無法度控制 | 對比句 | | 空間 | 錄音間和控制室分開 | 在同一空間 | | 討論 | 製作人可做筆記、討論 | 錄音師和製作人也不能有任何聲音 | --- ## 對比句 1. Tshuē固定一句話, ``` 多元文化欲受人肯定,語言佇公領域的呈現是真重要的開始。` To-guân bûn-huà beh siū lâng khíng-tīng, gí-giân tī kong líng-hi̍k ê thîng-hiān sī tsin tiōng-iàu ê khai-sí. ``` 2. 計畫一開始先錄一擺,決定beh tó一種氣口,音速,語速,咬字清楚。 4. 逐擺錄音前ài先唸對比句,調整發音人kah設備設定。 5. 參考錄音現場影片kah對比句sample。 --- ## 錄音方法 - 我們嘗試了兩種做法,其中錄音師聽得懂台語 1. 錄音員一次唸五分鐘的稿,事後剪輯 2. 錄音員唸一句,錄音師剪一句 --- ### 1. 錄音員一次唸五分鐘的稿,事後剪輯 - 中間休息一分鐘 - 實際錄音: - 錄戲劇台詞 - 進錄音室錄1.5小時 - 錄音師花40分鐘剪了1/3的音檔→產出14分鐘 - 結論: - 錄30分鐘,花40分鐘剪,可產出14分鐘 - 成本:發音人3000x0.5,錄音室2000x1.2 - 發音人比較累 --- ### 2-1. 錄音員唸一句,錄音師剪一句 - 錄音師剪的時候,發音人預先看下一句文稿 - 錄音師把唸錯的句子剪掉,最一開始的吸氣聲剪掉,句中喘氣聲留--leh。 - 實際錄音: - 錄戲劇台詞kah 40句新聞 - 進錄音室4小時,產出26分鐘 - 結論: - 成本:發音人3000x4,錄音室2000x4 - 發音人可以休息,聲音品質穩定 --- ### 2-2. 錄音員唸一句,錄音師剪一句 - 錄音師把唸錯的句子剪掉,~~最一開始的吸氣聲剪掉~~,句中喘氣聲留--leh。 - 錄音師剪的時候,發音人預先看下一句文稿。 - 製作人審聽音檔,品管,看佗位kah稿無仝。 - 實際錄音1(9/15): - 錄[世界台](https://www.facebook.com/sekaitai2015/)新聞稿 - 稿比較書面語,比較難唸,唸錯次數有比之前還多 - 進錄音室4小時,產出23分鐘 - 實際錄音2(10/27): - 錄[ka-tī設計ê稿](https://github.com/Sui-Siann-Dataset/Sui-Siann-Tsit-Tshing) - 進錄音室4小時,產出36分鐘 --- - 結論: - 成本:發音人3000x4,錄音室2000x4 - 發音人可以休息,聲音品質穩定 --- ## 結論 - 在年底計劃結束前,我們會繼續試各種錄音方法,並更新在本投影片 - Loo-lat!
{"metaMigratedAt":"2023-06-14T18:09:05.381Z","metaMigratedFrom":"Content","title":"語音合成錄音經驗","breaks":true,"contributors":"[{\"id\":\"7e311d89-37f2-4fcd-bf34-8b4b1e89922f\",\"add\":3882,\"del\":1219}]"}
    947 views