# <center> 回聲計畫 </center> ###### tags: `科技部回聲計畫` ## <center> News </center> * 2022/7/29(五)-2022/8/1(一),系統暫停服務(機房電力檢修) * 2022/3/29 (二),建立「回聲計畫語音系統」的[「語音標記及建模工具套件」 (Speech Labeling and Modeling ToolKit 1.0, SLMTK 1.0)](https://slmtk.ce.ntpu.edu.tw/) 上線提供非商業的研究工具。 * 2022/1/25(二),將於臺大醫學院所舉辦的「亞太醫學生論壇 APMSS 2022」進行「Workshop - 1:回聲計畫工作坊」。讓參與學員了解回聲計劃並且使用 VoiceBank 網站進行聲音捐贈以及「回聲計畫語音系統」試用。共有 40 位學員錄製語音捐贈。 * 2021/11/28,使用者介面更新,加入不同語速選擇於「首頁」,分頁按鈕更新。 * 2021/11/04,[「回聲計畫客製化文字轉語音系統」使用說明](#-%E3%80%8C%E5%9B%9E%E8%81%B2%E8%A8%88%E7%95%AB%E5%AE%A2%E8%A3%BD%E5%8C%96%E6%96%87%E5%AD%97%E8%BD%89%E8%AA%9E%E9%9F%B3%E7%B3%BB%E7%B5%B1%E3%80%8D%E4%BD%BF%E7%94%A8%E8%AA%AA%E6%98%8E-) 上線! * 2021/10/16 (六),於 ROCLING 2021 學術會議中的 AI Tutorial 進行語音捐贈活動 * 2021/10/13 (三),完成 VoiceBank 網站初版 * 2021/09/17 (五) 16:30-21:00,網路檢修服務暫停 * 2021/09/11 (六) 08:00-18:00,網路檢修服務暫停 * 2021/09/10 (五) 16:30-21:00,網路檢修服務暫停 * 2021/08/31,科技部計畫補助期程結束 * 2021/08/25,「問卷填寫」上線,請夥伴填寫系統使用回饋 * 2021/08/24,新版系統上線,提供較彈性的說話速度調整以及音量調整 * 2021/07/25,系統暫停服務(機房電力檢修) * 2021/07/24,系統暫停服務(機房電力檢修) * 2021/06/21,試用系統上線 * 2021/06/18,完成 20 位病友客製化文字轉語音系統 * 2021/05/18,網站 SSL 憑證獲得 * 2021/03/30,網站 DNS 獲得 * 2020/12/01,完成 6 位病友客製化文字轉語音系統 * 2020/08/01,完成 3 位病友客製化文字轉語音系統 * 2020/04/01,計畫開始啟動 --- [//]: <> (「回聲計畫客製化文字轉語音系統」使用說明) {%hackmd @cychiang-ntpu/BkhK1VRLY %} --- ## <center> 計畫聯絡資訊 </center> <center> 如有任何建議或疑問,可聯絡: 計畫主持人:江振宇副教授 [國立臺北大學通訊工程學系](http://www.ce.ntpu.edu.tw/index.php/teacher) email: cychiang@mail.ntpu.edu.tw </center> --- ## <center> 計畫團隊 </center> ### 國立臺北大學通訊工程學系「語音暨多媒體訊號處理實驗室」 (執行單位) * 江振宇:計畫主持人/系統整體設計/韻律產生系統 * 李武豪:博士研究生/文字分析系統 * 林彥廷:博士研究生/語音合成系統 * 林品翰:碩士研究生/使用者介面設計/網站維護 * 林書磊:碩士研究生/語音切割系統 * 蘇家駒:大學部兼任助理/VoiceBank網站建立 * 洪紹瑋:碩士研究生/語音辨識/文字正規化 * 吳上章:兼任助理/網站後端 * 彭敏鳳:行政助理/計畫核銷 ### 聲帆股份有限公司 (協力執行) * 張文陽:創辦人/語料設計及處理/語音錄製 * 高晟哲:共同創辦人/系統整合/語料設計及處理/語音錄製 * 陳韋成:工程師/語音合成系統 * 江仁杰:工程師/語音合成系統 * 劉冠廷:共同創辦人/文本設計 ### 中華民國運動神經元疾病病友協會 * 林子逸:物理治療師/協調錄音時程/系統建立顧問 * 屈穎:協會理事/系統建立顧問 * 蘇麗梅:協會社工部主任/協調時程 ### 其他夥伴 * 彭康硯:Yahoo/系統建立顧問 * 張軍毅:THT(taiwan hacker tech)/系統建立顧問 --- ## <center> 計畫架構 </center> 科技部[「研發整合漸凍症病友智慧溝通系統-成果加值及落地應用」](https://www.grb.gov.tw/search/planDetail?id=13443860) 計畫編號:MOST109-3011-F027-001 * 子計畫一:多功能腦機介面溝通系統開發 * 開發腦機介面系統,讓中後期病友不僅可以被動表達(Yes/No),還可以透過腦電信號主動表達生活中的需求 * 計畫主持人:劉益宏教授(台科大) * 執行單位:國立臺灣科技大學+國防醫學院+宏智生醫 * 子計畫二:回聲計畫- 漸凍症病友文字轉語音系統之建立 * 建立漸凍症病友客製化的文字轉語音系統,能在輔具上輸入文字後,以病友自己特有的聲音發聲 * 計畫主持人:江振宇副教授(臺北大學) * 執行單位:國立臺北大學+聲帆股份有限公司 --- ## <center> 您的聲音,由我們重新創建 </center> #### <center> 不再是冷冰冰的Google小姐合成語音 </center> 患有肌萎縮性脊髓側索硬化症 (ALS) 的病友會逐漸喪失肌肉控制的能力,影響舌頭以及口腔的控制,進而無法流暢順利的發音以及溝通。 回聲計畫提供機會讓 ALS 病友錄製、重建自己獨特的聲音,以供病友或家屬能在輔具上輸入文字後,以病友自己獨特的聲音發聲。 --- ## <center> 提供完整服務 </center> #### <center> 專人現場錄音,減輕病友及家屬負擔 </center> 回聲計畫建立起一套完整服務,利用專業錄音設備、專門設計的文稿,並由專人協助語音存錄,藉由這些存錄的語音資料,結合現今的語音合成技術重建病友獨特的聲音。 目前回聲計畫的服務尚在測試階段,所需的聲音資料至少達到15分鐘的高品質語音錄製,大約每一次錄製流程耗時約一個半小時。若錄製過程中病友需要更多的休息時間,則流程將會延長。 此外,由於重建後的語音是藉由語音合成技術後產生,並非完全是病友原本的聲音,但計畫團隊力求相似,讓病友或家屬加以確認。 病友若有餘力錄製更多的語音資料,則會提升重建後語音的個人相似度。 --- ## <center> 及早錄存獨特的自己 </center> #### <center> 讓「回聲」為病友回復自己的聲音 </center> 事實上,並非所有 ALS 的病友都能保留並重建自己的聲音。由於在不同階段的 ALS 病友有不同的發音障礙,因此重建出來的語音在個人相似度上也會有所差異。 因此本計畫的執行,是希望病友能有機會使用本計畫開發的技術,於尚未產生過多發音障礙之前,可盡早及時地保存自己的聲音,讓重建後的合成語音更能相似於自己獨特的聲音,若在病友失去正常說話能力的時候,能使用此技術,還能用自己音色的合成語音發聲! --- ## <center> 計劃執行步驟 </center> ### <center> 1. 錄製語料之前置作業 </center> <center> ![](https://i.imgur.com/SLQSQGg.png) </center> > 語音分級方法並沒有使用機器量化的方法來進行,而是以可否使用該為病友語料建立 TTS 來做主觀評估,經由研究團隊聆聽病友錄製的 5-10 句語音後,針對病友語音內容的理解度(intelligibility)、構音異常的程度、韻律流暢度、以及語速來做評測標準,藉由最早錄製的6位病友語音分析經驗,我們將病友分為四級,說明如下: > 第一級:構音及韻律完全,幾乎與正常狀況無異 > 第二級:韻律異常,語句朗讀較不通順 > 第三級:構音狀況些許異常,但可以大致聽出發音 > 第四級:構音狀況不完全,很難聽出發音 ### <center> 2. 語料錄製以及前處理 </center> <center> ![](https://i.imgur.com/QxiWX8Y.png) </center> ### <center> 3. 病友語音模型之建立 </center> <center> ![](https://i.imgur.com/HGUuzn8.png) </center> ### <center> 4. 病友文字轉語音系統試用 </center> <center> ![](https://i.imgur.com/oZSpdbB.png) </center> --- ## <center> 計畫的挑戰與克服 </center> ### 病友錄製語音的困難 * 病友因為身體狀況影響,錄製語音會較一般民眾需要更多的心力和時間,因此研究團隊使用「語音學」專業特別設計錄音文稿,讓病友可以在朗讀最少的文稿情況下,盡量蒐集到病友所有的發音,讓語音合成技術能學習到病友的語音音色。 * 病友說話發音清晰的程度(構音狀況)會依據病友身體狀況有所不同,因此研究團隊使用「語音科學知識」,設計針對不同發音狀況的病友設計適合錄製的文稿,目的就是要能儘量蒐集到病友最好最適合建立語音合成系統的語音樣本。 * 病友因為行動不便,因此計畫團隊會到病友方便到達的地方進行錄音(通常是病友家裡或漸凍人協會)。 * 在病友家裡錄製時常有噪音干擾(如:工地施工、外面車聲等),為了要避開噪音影響,往往會延長錄音時間,因此計畫團隊使用專業錄音設備儘量壓抑噪音之干擾。 * 一次大約 2 小時的錄音,僅可以蒐錄到約15-20分鐘可以用於訓練語音合成模型的語音資料。 * 病友非專業人士,因此在錄音時常有唸錯、不流暢之情形,因此研究團隊會引導病友的聲音錄製,使整個流程順利。 ### 以有限的語音做最大的努力 * 一般建立高音質的文字轉語音系統(或稱語音合成系統),需要專業語者(通常是播音員或聲優)錄製至少 5 小時以上的大量流利語音資料。 * 病友並非專業語者,錄製的過程中常會有念錯、不流暢甚至發音異常的狀況,因此錄製好且可以使用於訓練語音合成模型的資料極少。一般病友可以錄製到總共大約15-25分鐘的可用語音。 * 現今使用人工智慧(AI)或是深度學習(deep learning)技術來建立語音合成系統,大多需要大量資料方能完成,但病友的語音資料極少,因此計畫團隊研發結合傳統訊號處理、語音科學模型、以及AI技術的語音建模技術,克服了少量語音資料無法建立語音合成系統的問題。 * 因為可以用於訓練語音合成模型的語音十分少,所以語音資料對應的發音、音韻以及時間標註需要十分正確,簡單來講就是要標註語音幾秒到幾秒之間是什麼發音?語者斷句語氣為何?傳統以上的標注需要語音專業人士大量的標註工時,成本極高。 * 研究團隊於本計畫研發了全自動標註語音資料庫的演算法,大幅降低了人工標註語音資料的成本。 --- ## <center> 計畫評量 (截至 2021/10/1) </center> ### 語音相似度評量 問卷「本系統所發出的語音非常接近病友本人的說話聲音 (10句短句語音)」調查結果,其中 M 代表受試人數、N 代表測試語句數,1、2…、5 代表「非常不同意」到「非常同意」的五個程度。 | | M | N | 1 | 2 | 3 | 4 | 5 | | ----- | -- | --- | --- | --- | --- | --- | --- | | 病友全體 | 15 | 150 | 0% | 5% | 16% | 60% | 19% | | 病友第一級 | 8 | 80 | 0% | 0% | 14% | 76% | 10% | | 病友第二級 | 4 | 40 | 0% | 0% | 18% | 33% | 50% | | 病友第三級 | 3 | 30 | 0% | 27% | 20% | 53% | 0% | | 親屬全體 | 17 | 170 | 6% | 9% | 22% | 49% | 14% | | 親屬第一級 | 7 | 70 | 0% | 21% | 24% | 51% | 3% | | 親屬第二級 | 6 | 60 | 0% | 2% | 15% | 55% | 28% | | 親屬第三級 | 4 | 40 | 25% | 0% | 30% | 35% | 10% | | 全體 | 32 | 320 | 3% | 8% | 19% | 54% | 16% | --- ### 病友使用意願度 問卷「您願意使用本系統輔助日常溝通 (只需病友本人受試)」的調查結果,其中 M 代表受試人數,1、2…、5 代表「非常不同意」到「非常同意」的五個程度。 | | M | 1 | 2 | 3 | 4 | 5 | | ----- | -- | -- | -- | --- | --- | --- | | 病友 | 15 | 0% | 0% | 7% | 40% | 53% | | 病友第一級 | 8 | 0% | 0% | 0% | 38% | 63% | | 病友第二級 | 4 | 0% | 0% | 0% | 50% | 50% | | 病友第三級 | 3 | 0% | 0% | 33% | 33% | 33% | --- ### 親屬使用意願度 問卷「您支持病友使用本系統輔助日常溝通(只需病友親屬受試)」的調查結果,其中 M 代表受試人數,1、2…、5 代表「非常不同意」到「非常同意」的五個程度。 | | M | 1 | 2 | 3 | 4 | 5 | | ----- | -- | -- | -- | -- | --- | --- | | 親屬 | 17 | 0% | 0% | 0% | 41% | 59% | | 親屬第一級 | 7 | 0% | 0% | 0% | 71% | 29% | | 親屬第二級 | 6 | 0% | 0% | 0% | 17% | 83% | | 親屬第三級 | 4 | 0% | 0% | 0% | 25% | 75% | --- ### 系統滿意度 問卷「您對於本系統的表現感到滿意(病友本人及家屬皆要受試)」的調查結果,其中 M 代表受試人數,1、2…、5 代表「非常不同意」到「非常同意」的五個程度。 <center> | | M | 1 | 2 | 3 | 4 | 5 | | ----- | -- | -- | --- | --- | --- | --- | | 病友 | 15 | 0% | 7% | 7% | 53% | 33% | | 病友第一級 | 8 | 0% | 0% | 0% | 75% | 25% | | 病友第二級 | 4 | 0% | 0% | 25% | 0% | 75% | | 病友第三級 | 3 | 0% | 33% | 0% | 67% | 0% | | 親屬 | 17 | 0% | 6% | 6% | 59% | 29% | | 親屬第一級 | 7 | 0% | 0% | 14% | 71% | 14% | | 親屬第二級 | 6 | 0% | 0% | 0% | 50% | 50% | | 親屬第三級 | 4 | 0% | 25% | 0% | 50% | 25% | | 全體 | 32 | 0% | 6% | 6% | 56% | 31% | </center> --- ## <center> 未來規劃 </center> * 持續優化客製化語音合成系統之聲音品質 * 整合眼動滑鼠、輸入鍵盤、以及客製化語音合成系統,方便病友使用