# 「回聲計畫 2022 - 漸凍症病友個人化語音系統平台之建立 (1/3)」結案報告
### 執行單位:國立臺北大學 通訊工程學系
### 執行日期:2022年8月1日至2023年7月31日
### 計畫主持人:
江振宇 副教授
研究發展處 創新創業中心主任
通訊工程學系
國立臺北大學
23741 新北市三峽區大學路151號
手機:0928590899
電話:(02) 86741111 轉 68805
傳真:(02) 26710893
電子郵件: cychiang@mail.ntpu.edu.tw
第二電子郵件: cychiang@gm.ntpu.edu.tw
#### 協同主持人
張軍毅:THT(taiwan hacker tech)
電子郵件: junyiza11@gmail.com
#### 報告繳交日期:2023年11月7日
---
# 摘要
本計畫為整體規劃三年計畫之第一年,整體規劃之三年計畫將建立一永續提供漸凍症病友使用語音系統的服務平台。本計劃於第一年已完成 VoiceBank 網站之雛形,使用者可以至此網站註冊、錄音,在錄音至可以建立個人化文字轉語音系統(簡稱語音系統)的語音數量後,於24小時內系統便會建立好使用者的語音系統。目前 VoiceBank 於本計劃執行期間已有 48 位使用者註冊,完成 25 位病友的語音系統。
### 團隊分工
#### 國立臺北大學通訊工程學系「語音暨多媒體訊號處理實驗室」 (執行單位)
* 江振宇:計畫主持人/系統整體設計/韻律產生系統
* 蘇家駒:碩士研究生/VoiceBank網站建立
* 李武豪:博士研究生/文字分析系統
* 林彥廷:博士研究生/語音合成系統
* 林品翰:碩士研究生/使用者介面設計/網站維護
* 林書磊:碩士研究生/語音切割系統
* 彭敏鳳:行政助理/計畫核銷
##### 其他夥伴
* 張軍毅:協同主持人/THT(taiwan hacker tech)/網站系統建立
* 彭康硯:系統建立顧問/Yahoo/系統建立顧問
# 1. 計畫背景
在這裡用我們列出與本計畫相關的重要里程碑,這些里程碑是提出本計畫的背景和原因,以下我們照時間順序列出:
* 2020/4/1 - 2021/6/30
* 執行科技部「回聲計畫」-漸凍症病友智慧溝通系統,建立 20 位病友之客製化文字轉語音系統。
* 讓 ALS 病友錄製、重建自己獨特的聲音。
* 供病友或家屬能在輔具上輸入文字後,以病友自己獨特的聲音發聲。
* 2021/8/24
* 將建立之二十套客製化 TTS(「回聲計畫語音系統」),與子計畫一並協同聲帆股份有限公司捐贈與中華民國漸凍人協會,系統網址:https://rvtw.ce.ntpu.edu.tw/
* 2021/10/16:
* 「 VoiceBank 語音銀行」網路雲端服務雛形架設完成,網址:https://voicebank.ce.ntpu.edu.tw/
* 希望讓大眾能上網使用 VoiceBank 平台錄製語音,將語音捐贈給協會,讓建立語音合成的資料增加,改善語音合成的音質。
* 2021/12/09
* 已有 3 位參與回聲計畫的病友使用「回聲計畫語音系統」。
* 藉由眼動滑鼠輸入文字至「回聲計畫語音系統」,系統產生文字對應的語音播出。
* 2022/1/25
* 將於臺大醫學院所舉辦的「亞太醫學生論壇 APMSS 2022」進行[「Workshop - 1:回聲計畫工作坊」](https://www.instagram.com/p/CWQz6YhBsWc/?utm_medium=copy_link)。
* 讓參與學員了解回聲計劃並且使用 VoiceBank 網站進行聲音捐贈以及「回聲計畫語音系統」試用。
* 目前 (2022/1/17) 已有 40 位學員錄製語音。
* 2022 ~
* 「回聲計畫」團隊與漸凍人協會繼續合作,延續計畫工作。
* 技術漸趨成熟,希望能推廣服務,讓服務更為有效率。
# 2. 計畫成果
## 2.1. VoiceBank 語音系統平台
計畫執行單位已可以讓使用者以圖(一)所示的 5 步驟使用「VoiceBank 語言銀行」:
```mermaid
flowchart TD
st([開始]) --> op9[步驟 1. 錄音前準備] --> op1[步驟 2. 註冊] --> op2[步驟 3. fa:fa-microphone 錄音 < 2小時] --> op3[步驟 4. 等候「語音系統」建置完成 < 24小時] --> op4[步驟 5. 使用語音系統]
op4 --> op4
```
<center> 圖 1:VoiceBank 語音銀行使用流程 </center>
<br>
5 步驟簡述如下:
* **步驟 1: 錄音前準備**:使用者先自備電腦、麥克風、以及選擇錄音地點。
* **步驟 2:註冊**:使用者先至 VoiceBank 網站 (https://voicebank.ce.ntpu.edu.tw) 網站上進行「註冊」。
* **步驟 3:錄音**:註冊成功後,使用者可以隨時進入系統開始「錄音」,當錄音感到疲憊時,可隨時登出,想要在錄音時,可再登入系統繼續錄音。
* **步驟 4:等候「語音系統」建置完成**:若使用者已經「錄音」達到足以建立「語音系統」的語音數量時,系統便會開始建立使者的「語音系統」,從開始建立「語音系統」到完成,可在 24 小時內完成。
* **步驟 5:使用語音系統**:建立好「語音系統」之後,使用者可以登入 VoiceBank (https://voicebank.ce.ntpu.edu.tw) 開始線上使用。
詳細的內容請看「附錄一:[VoiceBank 語音銀行 - 使用說明 (2023年11月版)](https://hackmd.io/@VoiceBank/VoiceBank-Instruction-Nov-2023)」。
## 2.2. VoiceBank-2023 語料庫
本計畫將 VoiceBank 網站所累積蒐錄的語音資料,將其語料庫設計、錄音方法、語料庫處理、語料庫 metadata 標記、以及使用該語料庫建立的個人化文字轉語音系統等研究成果,撰寫成一會議論文投稿並接受:
Jia-Jyu Su, Pang-Chen Liao, Yen-Ting Lin, Wu-Hao Li, Guan-Ting Liou, Cheng-Che Kao, Wei-Cheng Chen, Jen-Chieh Chiang, Wen-Yang Chang, Pin-Han Lin, and Chen-Yu Chiang, “VoiceBank-2023: A Multi-Speaker Mandarin Speech Corpus for Constructing Personalized TTS Systems for the Speech Impaired,”accepted by OCOCOSDA 2023.
本計畫並根據計畫的規劃,將語料 (VoiceBank-2023) 提供給想要參加此研究的學術界以非商業授權使用,以利解決目前本研究團隊尚未解決的技術問題,其規格如表1所示,表中之統計資料,截止日為 2023年6月。
#### 表1:VoiceBank-2023 語料規格表
| | |
|----------------------------------------------------|---------------------------------------------------------------------------------------------------------------------------------------------|
| 語料庫名稱 | VoiceBank-2023 (URL: https://github.com/VoiceBank-NTPU-TW/VoiceBank-2023) |
| 語言 | 國語 |
| 文本/提示詞 | 1) 第一部分(VoiceBanking): 133 段短段落<br>2) 第二部分(常用片語):556 個常用片語 |
| 說話風格 | 1) 第一部分(VoiceBanking):朗讀語音<br>2) 第二部分(常用片語):自發性語音 |
| 用途 | 1) 建立個人化文字轉語音系統 TTS, 2) 評估構音障礙等級、語音品質(抖動 jitter/顫動 shimmer)、以及音質(錄音環境) |
| # 語者 (語者類別, 性別, 構音障礙程度) | 111(總計) <br>= 39(ALS 患者) + 63(聲音捐贈者) + 9(未知)<br> = 47(女性) + 64(男性) <br>= 86(等級一:高語音可理解度) + 11(等級二) + 12(等級三) + 2(等級四::低語音理解度)
| # 語料 (語料分類, 性別, 語者類別, 構音障礙程度)|12,875(總計) <br>= 7,625(第一部分:VoiceBanking) + 5,250(第二部分:常用片語) <br>= 5,677(女性) + 7,198(男性) <br>= 8,876(ALS 患者) + 3,875(聲音捐贈者) + 124(未知) <br>= 8,760/2,246/1,849/20(等級 1/2/3/4)
| 語料庫總時長 (小時) | 29.78(all) <br>= 28.18(第一部分:VoiceBanking) + 1.60(第二部分:常用片語) <br>= 12.47(女性) + 17.31(男性) <br>= 17.66(ALS 患者) + 11.78(聲音捐贈者) + 0.34(未知) <br>= 19.37/5.74/4.58/0.09(等級 1/2/3/4)|
| 語者平均貢獻時長 (分鐘) |第一部分(VoiceBanking):15.37±10.97<br>第二部分(常用片語):5.99±5.34
| \# 音節數 | 360,586(all) <br>= 342,486(第一部分:VoiceBanking) + 18,100(第二部分:常用片語) <br>= 153,396(女性) + 207,190(男性)<br>= 185,401(ALS 患者) + 170,387(聲音捐贈者) + 4,798(未知) <br>= 270,805/55,490/33,835/456(等級 1/2/3/4)|
| 單句語料字數 | 第一部分(VoiceBanking): 44.13±9.03<br>第二部分(常用片語):3.30± 0.54<br>(語句為單位的平均值±標準偏差) |
| 單句語料秒數 | 第一部分(VoiceBanking): 13.16±4.87<br>第二部分(常用片語):1.08±0.32<br>(語句為單位的平均值±標準偏差) |
| 語音編碼方式 | 線性 PCM,48kHz 取樣率,16位元解析度,單聲道 |
| 麥克風/錄音環境 | 主要使用USB麥克風/大部分在家或辦公室錄製 |
| 語料檔案格式 | 1) *.TextGrid: 根據音素切割語料,標上時間戳記(開頭/結尾),韻律(聲調),和詞語(詞性和標點符號)<br>2) *.txt: UTF-8編碼的原始文本文件 <br>3) \*.wav: WAVE 音檔|
詳細內容請看「附錄二:會議論文 [VoiceBank-2023: A Multi-Speaker Mandarin Speech Corpus for Constructing Personalized TTS Systems for the Speech Impaired](https://doi.org/10.48550/arXiv.2308.14763)」。
# 3. 未來工作
依據本年度計畫的執行經驗以及使用者的回饋,以下列出未來要解決的問題:
* 目前登入只能使用帳號當作 user id,但最近遇到使用者將 email 當作帳號而登入不進去,因此 VoiceBank 將加上帳號和 email 皆可登入的功能。另外需要注意有人利用這個漏洞將帳號設成 email 格式,因此要檢測註冊帳號不能使用 email 格式。
* 因計畫目前參與人員大多為漸凍症病友,雖然已通病友可以開始試用,但病友因為身活能力限制,目前還沒有開始請參與計劃之病友進行系統評量,預計於 2024年2月份完成 VoiceBank 的線上評測系統,讓病友在使用個人化文字轉語音系統的當下,可以直接對合成語句進行可理解度、自然度、以及相似度上面的評量,也可以回饋對於系統的建議。
* 使用者的「語音系統」建立好之後,應要建立自動化的通知方法,實作上要能由 VoiceBank API 直接 trigger 送信,簡單來講,應該要在 SLMTK_API 檢查 is tts available 之後,增加 "email user to start using TTS" ,直接以 voicebank.ce.ntpu.edu.tw@gmail.com 名義寄信給使用者通知「可以使用語音系統」。
* 建立一個自動化機制,讓 VoiceBank 網站在每個禮拜一自動寄送「週報告」給使用者,「週報告」內容包含:
1. 使用者這禮拜登入的次數、登入後的使用時間長度。
2. 通知使用者還要念哪些句子要念才可以建立使用者的個人化TTS。
3. 通知使用者哪些語句唸得不好或是音質不好。
4. 給予使用者 download 錄製好的語料的 download link。
* VoiceBank 目前使用的「語料庫(ㄧ)」以及「語料庫(二)」文本內容過於饒口,應該要將句子再斷成短句,增加標點符號方便病友朗讀。另外,也應該要開始設計更為友善的文本內容,取代目前的文本整體內容。
* 目前 VoiceBank 錄音介面導引使用者選擇「語料庫」、「段落」以及「句子」的排版不是很直觀,很容易讓使用者不知道目前已經錄到哪個語料庫、段落、以及句子,應該要在介面設計上,提供使用者更方便識別錄音進度的資訊。