--- title: 重聲 Save & Sound - 留存聲音,重現溝通的溫度 tags: 科技部回聲計畫 description: View the slide with "Slide Mode". --- # 重聲 Save & Sound - 留存聲音,重現溝通的溫度 <!-- Put the link to this slide here so people can follow --> slide: https://hackmd.io/p/template-Talk-slide 江振宇 副教授 國立臺北大學 通訊工程學系 研究發展處 創新創業中心主任 日期:110年12月11日(六) 11:45-12:05 地點:天成大飯店(Cosmos Hotel,Taipei) 2樓國際廳 (臺北市中正區忠孝西路一段43號2樓,捷運台北車站M3出口) --- ## 自我介紹 江振宇 * 學歷: * 國立交通大學 電信工程學系 學士 (2002/6) * 國立交通大學 電信工程研究所 碩士 (2004/7) * 國立交通大學 電信工程研究所 博士 (2009/3) * 經歷: * The University of Tokyo 訪問研究人員 (2006/6--8) * 國立交通大學 博士後研究員 (2009/4--2012/7) * Georgia Institute of Technology 訪問學者 The Center for Signal and Image Processing, CSIP (2012/1--2012/5) * 國立臺北大學 助理教授 通訊工程學系 (2012/8-2019/1) * 國立臺北大學 副教授 通訊工程學系 (2019/1 迄今) * 國立臺北大學 研究發展處 創新創業中心主任 (2021/2 迄今) * 研究領域 * 語音處理:語音合成、語音辨認 * 多媒體 * 榮譽 * 109年1月獲得「科技部電信學門成果發表優良獎(計畫領域:訊號處理)」 * 技術授權 * 語音合成/文字轉語音技術授權多家國內廠商 --- ## 緣起 * 2020/4/1 - 2021/8/31 * 執行科技部「回聲計畫」,建立 20 位病友之客製化文字轉語音系統 * 讓 ALS 病友錄製、重建自己獨特的聲音 * 供病友或家屬能在輔具上輸入文字後,以病友自己獨特的聲音發聲 * 2021/10/16: * 「 VoiceBank 語音銀行」網路雲端服務雛形架設完成 * 讓大眾能上網使用 VoiceBank 平台錄製語音,將語音捐贈給協會,讓建立語音合成的資料增加,改善語音合成的音質。 * 2021/12/09 * 已有 2 位病友使用「回聲計畫」語音系統 * 藉由眼動滑鼠輸入文字至「回聲計畫」語音系統,系統產生文字對應的語音播出 * 2022 ~ * 「回聲計畫」團隊與漸凍人協會繼續合作,延續計畫工作 * 技術漸趨成熟,希望能推廣服務,讓服務更為有效率 --- ## 回聲計畫簡介 ```graphviz digraph { compound=true rankdir=UD graph [ fontname="Source Sans Pro", fontsize=20 ]; node [ fontname="Source Sans Pro", fontsize=18]; edge [ fontname="Source Sans Pro", fontsize=12 ]; subgraph core { A [label="總計畫:\n研發整合漸凍症病友智慧溝通系統-成果加值及落地應用\n補助單位:科技部\n計畫編號:MOST109-3011-F027-001\n計畫主持人:劉益宏教授(台科大)"] [shape=box] } subgraph core { B [label="子計畫一:\n多功能腦機介面溝通系統開發(叫人鈴)\n計畫主持人:劉益宏教授(台科大)\n執行單位:國立臺灣科技大學+國防醫學院+宏智生醫"] [shape=box] } subgraph core { C [label="子計畫二:\n回聲計畫- 漸凍症病友文字轉語音系統之建立\n計畫主持人:江振宇副教授(臺北大學)\n執行單位:國立臺北大學+聲帆股份有限公司\n\n建立漸凍症病友客製化的文字轉語音系統,\n能在輔具上輸入文字後,\n以病友自己特有的聲音發聲"] [shape=box] } A -> B A -> C } ``` --- ## 您的聲音,由我們保存和重新創建 * 不再是冷冰冰的Google小姐合成語音 * 回聲計畫提供機會讓病友錄製、保存、且重建自己獨特的聲音 * 供病友或家屬能在輔具上輸入文字後,以病友自己獨特的聲音發聲 --- ## 語音系統使用實例 - 1 江德仁先生 (使用本人語音錄製並建立系統) 錄音樣本放音 合成語音範例 {%youtube UwcR8LNUH34 %} --- ## 語音系統使用實例 - 2 楊淑媛女士 (使用女兒語音作為代理) 錄音樣本放音 合成語音範例(使用影片) {%youtube Gchtcz4-1Pw %} {%youtube rSxvNX1h6bY %} --- ## 計畫團隊 ### 國立臺北大學通訊工程學系「語音暨多媒體訊號處理實驗室」 (執行單位) * 江振宇:計畫主持人/系統整體設計/韻律產生系統 * 李武豪:博士研究生/文字分析系統 * 林彥廷:博士研究生/語音合成系統 * 林品翰:碩士研究生/使用者介面設計/網站維護 * 林書磊:碩士研究生/語音切割系統 * 蘇家駒:大學部兼任助理/VoiceBank網站建立 * 洪紹瑋:碩士研究生/語音辨識/文字正規化 * 吳上章:兼任助理/網站後端 * 彭敏鳳:行政助理/計畫核銷 ### 聲帆股份有限公司 (協力執行) * 張文陽:創辦人/語料設計及處理/語音錄製 * 高晟哲:共同創辦人/系統整合/語料設計及處理/語音錄製 * 陳韋成:工程師/語音合成系統 * 江仁杰:工程師/語音合成系統 * 劉冠廷:共同創辦人/文本設計 ### 中華民國運動神經元疾病病友協會 * 林子逸:物理治療師/協調錄音時程/系統建立顧問 * 屈穎:協會理事/系統建立顧問 * 蘇麗梅:協會社工部主任/協調時程 ### 其他夥伴 * 彭康硯:Yahoo/系統建立顧問 * 張軍毅:THT(taiwan hacker tech)/系統建立顧問 --- ## 計畫執行過程 1. 語料設計 * 希望能錄製最少的語音,來保留病友語音的音色 * 目前計畫結束且已發實驗證實「設計之語料」之可用性 * 已發展「語音分級」的方法,知道不同構音狀況對於建立語音合成系統的影響 2. 語料錄製 * 至約定場地(病友家或是協會)錄音 * 發展「到府錄音」以及「錄音環境」的標準方法 * 在回聲計畫中已經知道在良好的錄音條件下,可以錄製出音質不錯的語音,並可以建立音質尚佳的語音合成系統 * 至約定場地錄音很花人力時間成本,可以考慮讓病友直接上網使用音質優良麥克風,以及在安靜的錄音環境錄音,應該可以也做出不錯的系統 3. 語音系統之**建立** 4. 語音系統之**試用** --- ## 計畫的挑戰與克服 ### 病友錄製語音的困難 * 病友因為身體狀況影響,錄製語音會較一般民眾需要更多的心力和時間,因此研究團隊使用「語音學」專業特別設計錄音文稿,讓病友可以在朗讀最少的文稿情況下,盡量蒐集到病友所有的發音,讓語音合成技術能學習到病友的語音音色。 * 病友說話發音清晰的程度(構音狀況)會依據病友身體狀況有所不同,因此研究團隊使用「語音科學知識」,設計針對不同發音狀況的病友設計適合錄製的文稿,目的就是要能儘量蒐集到病友最好最適合建立語音合成系統的語音樣本。 * 病友因為行動不便,因此計畫團隊會到病友方便到達的地方進行錄音(通常是病友家裡或漸凍人協會)。 * 在病友家裡錄製時常有噪音干擾(如:工地施工、外面車聲等),為了要避開噪音影響,往往會延長錄音時間,因此計畫團隊使用專業錄音設備儘量壓抑噪音之干擾。 * 一次大約 2 小時的錄音,僅可以蒐錄到約15-20分鐘可以用於訓練語音合成模型的語音資料。 * 病友非專業人士,因此在錄音時常有唸錯、不流暢之情形,因此研究團隊會引導病友的聲音錄製,使整個流程順利。 ### 以有限的語音做最大的努力 * 一般建立高音質的文字轉語音系統(或稱語音合成系統),需要專業語者(通常是播音員或聲優)錄製至少 5 小時以上的大量流利語音資料。 * 病友並非專業語者,錄製的過程中常會有念錯、不流暢甚至發音異常的狀況,因此錄製好且可以使用於訓練語音合成模型的資料極少。一般病友可以錄製到總共大約15-25分鐘的可用語音。 * 現今使用人工智慧(AI)或是深度學習(deep learning)技術來建立語音合成系統,大多需要大量資料方能完成,但病友的語音資料極少,因此計畫團隊研發結合傳統訊號處理、語音科學模型、以及AI技術的語音建模技術,克服了少量語音資料無法建立語音合成系統的問題。 * 因為可以用於訓練語音合成模型的語音十分少,所以語音資料對應的發音、音韻以及時間標註需要十分正確,簡單來講就是要標註語音幾秒到幾秒之間是什麼發音?語者斷句語氣為何?傳統以上的標注需要語音專業人士大量的標註工時,成本極高。 * 研究團隊於本計畫研發了全自動標註語音資料庫的演算法,大幅降低了人工標註語音資料的成本。 --- ## 2022 年度接續之工作 ### 1. 系統主機伺服器維護 - 從學校搬遷至外部較為安全之伺服器,如 Asure 平台 ### 2. 加強系統的安全性 - 內容加密。 ### 3. 語音合成品質的改善 - 將建立好了 20 位病友的合成音質加強,**聆聽者聽到更清楚的發音** - 目前系統比較能在有標點符號的地方產生斷句,但病友打字常忽略標點符號,要改善系統,讓使用者可使用空格就作為斷句, - 讓病友可做語氣的修正 ### 4. 使用者介面的改善 - 目前系統支援桌上型電腦或是筆記型電腦,並配合眼動滑鼠或其他輔具(如雙鍵滑鼠)作為使用 - 修改使用者介面,讓病友更好使用(希望病友回饋系統使用狀況) - 要再開發符合平板電腦或是其它行動裝置的使用者介面。 ### 5. 建構 「VoiceBank 語音銀行」平台 - 優點:可依據病友時間方便,隨時錄音,沒有時間壓力 - 可能的缺點:在家中錄音可能會有一些環境背景噪音、以及空間回音 - 讓病友可以在家中錄音 - 在兩個禮拜以內建立好病友的個人化語音系統 - 增加錄製 **「訊息儲存」**,將常用的語句錄製好 - 也開放讓病友錄製自己想要錄製的語音,並提供逐字稿方便建立個人化語音合成系統。 --- ### 謝謝各位的聆聽 江振宇 副教授 研究發展處 創新創業中心主任 通訊工程學系 國立臺北大學 23741 新北市三峽區大學路151號 手機:0928-590899 電話:(02) 86741111 轉 68805 傳真:(02) 26710893 電子郵件: cychiang@mail.ntpu.edu.tw 第二電子郵件: cychiang@gm.ntpu.edu.tw 網站:cychiang.tw --- >(c) Speech & Multimedia Signal Processing Lab (SMSPL), National Taipei University, New Taipei City, Taiwan, August, 2012-2021