# 語音合成錄音經驗
Sîng-hông
2018/09/21
---
## 語音合成
- 語音合成的目標:文字變成聲音。
- 隨著人工智慧和機器人的熱潮,語音合成是不可或缺的技術。
- 語言學習的例子:親像[itaigi](https://itaigi.tw/tsu-te/pho-khi-bong)、[阿美語萌典](https://amis.moedict.tw/#:makapah)、…。
---
## 兩个部份
1. 合成技術
2. 合成語料
---
## 1. 合成技術
- Google 在 2017 年底推出「[Tacotron-2](https://arxiv.org/pdf/1712.05884.pdf)」
- 標榜接近人聲(MOS:4.53 vs 4.58)
- 標榜end2end技術,只要有語料,就算沒有語言知識也有辦法製作出語音合成
- 結論
- 技術有Open Source,重點是如何準備語料
---
## 2. 合成語料
- Tacotron-2的做法
- 準備錄音檔kah對應的書寫文字(24小時規模)
- [Google](https://arxiv.org/pdf/1712.05884.pdf)、[LJ Speech](https://keithito.com/LJ-Speech-Dataset/)都錄了24小時的語料
- 傳統GMM的做法
- 準備錄音檔kah對應的transcription(5~10小時)
- 準備書寫文字和transcription的轉換系統
- hué-tshia <==> hue1-tshia1
---
## 小結
- Tacotron-2的做法未來是主流,所以產生錄音變得非常重要
- 錄音室每小時行情1500~2000、發音人3000~5000,成本控制相當重要
- 以下討論各種錄音的方法
---
## 發音人
- 考慮目的,用途
- 腔口,查埔查某,年歲
---
### 審聽製作人
- 錄音前,和發音人聯絡、寄稿、事前提醒。
- 確定發音人有先讀過稿,了解錄音的方式
- 錄音時,品質的把關。若發音人沒照稿唸,ài判斷是因為腔口差抑是唸毋著,決定音檔是否需要重新錄製。
- 發音人和錄音師之間協調工作,掌握進度。
---
### 錄音師
- 聽p,ph品質,調整設備,,有噴mai--無(kah製作人無kâng)
---
## 文稿
- 如果打算公開語料,要先問好文稿授權,取得作者同意、授權書
- 要準備台客語、族語稿,千萬不要準備華語稿讓發音人現場翻譯
- 翻譯浪費時間
- 事後要聽打(成本很大)
---
---
## 錄音室 vs 語音實驗室
| | 錄音室 | 實驗室 |
| -------- | -------- | -------- |
| 剪輯人員 | 錄音師 | 自己 |
| 發音人唸錯 | 當場把錯的剪掉 | 事後重聽重剪 |
| 進度控制 | 減ka-tī音檔ê步 | 事後重聽重剪 |
| 音檔一致 | 無法度控制 | 對比句 |
| 空間 | 錄音間和控制室分開 | 在同一空間 |
| 討論 | 製作人可做筆記、討論 | 錄音師和製作人也不能有任何聲音 |
---
## 對比句
1. Tshuē固定一句話,
```
多元文化欲受人肯定,語言佇公領域的呈現是真重要的開始。`
To-guân bûn-huà beh siū lâng khíng-tīng, gí-giân tī kong líng-hi̍k ê thîng-hiān sī tsin tiōng-iàu ê khai-sí.
```
2. 計畫一開始先錄一擺,決定beh tó一種氣口,音速,語速,咬字清楚。
4. 逐擺錄音前ài先唸對比句,調整發音人kah設備設定。
5. 參考錄音現場影片kah對比句sample。
---
## 錄音方法
- 我們嘗試了兩種做法,其中錄音師聽得懂台語
1. 錄音員一次唸五分鐘的稿,事後剪輯
2. 錄音員唸一句,錄音師剪一句
---
### 1. 錄音員一次唸五分鐘的稿,事後剪輯
- 中間休息一分鐘
- 實際錄音:
- 錄戲劇台詞
- 進錄音室錄1.5小時
- 錄音師花40分鐘剪了1/3的音檔→產出14分鐘
- 結論:
- 錄30分鐘,花40分鐘剪,可產出14分鐘
- 成本:發音人3000x0.5,錄音室2000x1.2
- 發音人比較累
---
### 2-1. 錄音員唸一句,錄音師剪一句
- 錄音師剪的時候,發音人預先看下一句文稿
- 錄音師把唸錯的句子剪掉,最一開始的吸氣聲剪掉,句中喘氣聲留--leh。
- 實際錄音:
- 錄戲劇台詞kah 40句新聞
- 進錄音室4小時,產出26分鐘
- 結論:
- 成本:發音人3000x4,錄音室2000x4
- 發音人可以休息,聲音品質穩定
---
### 2-2. 錄音員唸一句,錄音師剪一句
- 錄音師把唸錯的句子剪掉,~~最一開始的吸氣聲剪掉~~,句中喘氣聲留--leh。
- 錄音師剪的時候,發音人預先看下一句文稿。
- 製作人審聽音檔,品管,看佗位kah稿無仝。
- 實際錄音1(9/15):
- 錄[世界台](https://www.facebook.com/sekaitai2015/)新聞稿
- 稿比較書面語,比較難唸,唸錯次數有比之前還多
- 進錄音室4小時,產出23分鐘
- 實際錄音2(10/27):
- 錄[ka-tī設計ê稿](https://github.com/Sui-Siann-Dataset/Sui-Siann-Tsit-Tshing)
- 進錄音室4小時,產出36分鐘
---
- 結論:
- 成本:發音人3000x4,錄音室2000x4
- 發音人可以休息,聲音品質穩定
---
## 結論
- 在年底計劃結束前,我們會繼續試各種錄音方法,並更新在本投影片
- Loo-lat!
{"metaMigratedAt":"2023-06-14T18:09:05.381Z","metaMigratedFrom":"Content","title":"語音合成錄音經驗","breaks":true,"contributors":"[{\"id\":\"7e311d89-37f2-4fcd-bf34-8b4b1e89922f\",\"add\":3882,\"del\":1219}]"}