語音合成錄音經驗
Sîng-hông
2018/09/21
語音合成
- 語音合成的目標:文字變成聲音。
- 隨著人工智慧和機器人的熱潮,語音合成是不可或缺的技術。
- 語言學習的例子:親像itaigi、阿美語萌典、…。
1. 合成技術
- Google 在 2017 年底推出「Tacotron-2」
- 標榜end2end技術,只要有語料,就算沒有語言知識也有辦法製作出語音合成
- 結論
2. 合成語料
- Tacotron-2的做法
- 傳統GMM的做法
- 準備錄音檔kah對應的transcription(5~10小時)
- 準備書寫文字和transcription的轉換系統
- hué-tshia <==> hue1-tshia1
小結
- Tacotron-2的做法未來是主流,所以產生錄音變得非常重要
- 錄音室每小時行情1500~2000、發音人3000~5000,成本控制相當重要
- 以下討論各種錄音的方法
審聽製作人
- 錄音前,和發音人聯絡、寄稿、事前提醒。
- 錄音時,品質的把關。若發音人沒照稿唸,ài判斷是因為腔口差抑是唸毋著,決定音檔是否需要重新錄製。
- 發音人和錄音師之間協調工作,掌握進度。
錄音師
- 聽p,ph品質,調整設備,,有噴mai–無(kah製作人無kâng)
文稿
- 如果打算公開語料,要先問好文稿授權,取得作者同意、授權書
- 要準備台客語、族語稿,千萬不要準備華語稿讓發音人現場翻譯
錄音室 vs 語音實驗室
|
錄音室 |
實驗室 |
剪輯人員 |
錄音師 |
自己 |
發音人唸錯 |
當場把錯的剪掉 |
事後重聽重剪 |
進度控制 |
減ka-tī音檔ê步 |
事後重聽重剪 |
音檔一致 |
無法度控制 |
對比句 |
空間 |
錄音間和控制室分開 |
在同一空間 |
討論 |
製作人可做筆記、討論 |
錄音師和製作人也不能有任何聲音 |
對比句
- Tshuē固定一句話,
多元文化欲受人肯定,語言佇公領域的呈現是真重要的開始。`
To-guân bûn-huà beh siū lâng khíng-tīng, gí-giân tī kong líng-hi̍k ê thîng-hiān sī tsin tiōng-iàu ê khai-sí.
- 計畫一開始先錄一擺,決定beh tó一種氣口,音速,語速,咬字清楚。
- 逐擺錄音前ài先唸對比句,調整發音人kah設備設定。
- 參考錄音現場影片kah對比句sample。
錄音方法
- 錄音員一次唸五分鐘的稿,事後剪輯
- 錄音員唸一句,錄音師剪一句
1. 錄音員一次唸五分鐘的稿,事後剪輯
- 中間休息一分鐘
- 實際錄音:
- 錄戲劇台詞
- 進錄音室錄1.5小時
- 錄音師花40分鐘剪了1/3的音檔→產出14分鐘
- 結論:
- 錄30分鐘,花40分鐘剪,可產出14分鐘
- 成本:發音人3000x0.5,錄音室2000x1.2
- 發音人比較累
2-1. 錄音員唸一句,錄音師剪一句
- 錄音師剪的時候,發音人預先看下一句文稿
- 錄音師把唸錯的句子剪掉,最一開始的吸氣聲剪掉,句中喘氣聲留–leh。
- 實際錄音:
- 錄戲劇台詞kah 40句新聞
- 進錄音室4小時,產出26分鐘
- 結論:
- 成本:發音人3000x4,錄音室2000x4
- 發音人可以休息,聲音品質穩定
2-2. 錄音員唸一句,錄音師剪一句
- 錄音師把唸錯的句子剪掉,
最一開始的吸氣聲剪掉,句中喘氣聲留–leh。
- 錄音師剪的時候,發音人預先看下一句文稿。
- 製作人審聽音檔,品管,看佗位kah稿無仝。
- 實際錄音1(9/15):
- 錄世界台新聞稿
- 稿比較書面語,比較難唸,唸錯次數有比之前還多
- 進錄音室4小時,產出23分鐘
- 實際錄音2(10/27):
- 結論:
- 成本:發音人3000x4,錄音室2000x4
- 發音人可以休息,聲音品質穩定
結論
- 在年底計劃結束前,我們會繼續試各種錄音方法,並更新在本投影片
- Loo-lat!
語音合成錄音經驗 Sîng-hông 2018/09/21
{"metaMigratedAt":"2023-06-14T18:09:05.381Z","metaMigratedFrom":"Content","title":"語音合成錄音經驗","breaks":true,"contributors":"[{\"id\":\"7e311d89-37f2-4fcd-bf34-8b4b1e89922f\",\"add\":3882,\"del\":1219}]"}