# 回聲計畫 ### 漸凍症病友文字轉語音系統之建立 江振宇 副教授 研究發展處 創新創業中心主任 通訊工程學系 國立臺北大學 @ 國立臺灣大學 語言學研究所 2021/12/29 --- ## 研究團隊 <hr /> - [MNDA (Taiwan Motor Neuron Disease Association)/漸凍人協會](https://www.mnda.org.tw/) - NTPU (National Taipei University)/國立臺北大學通訊工程學系 [語音暨多媒體訊號處理實驗室](cychiang.tw)/執行單位 - [AIT (AcoustInTek)/聲帆股份有限公司](https://acoustintek.com/)/協力執行之新創公司 --- ## 計畫目的 <hr /> ### 您的聲音,由我們重新創建 #### 不再是冷冰冰的 Google 小姐合成語音 - 患有肌萎縮性脊髓側索硬化症 (ALS) 的病友會逐漸喪失肌肉控制的能力,影響舌頭以及口腔的控制,進而無法流暢順利的發音以及溝通。 - 回聲計畫提供機會讓 ALS 病友錄製、重建自己獨特的聲音,以供病友或家屬能在輔具上輸入文字後,以病友自己獨特的聲音發聲。 --- ## 計畫背景 <hr /> - 時間線 - 有關本案的國際計畫 - 客製化 TTS 的研究單位或廠商 - 關於本計畫的相關國內計畫 - 「問題描述」以及本計畫提出之「解決方案」 ---- ### 時間線 <hr /> - 2002: [ModelTalker](https://www.modeltalker.org/)/Nemours biomedical research and university of Delaware - 2014: 漸凍人冰桶挑戰 (Ice Bucket Challenge) 引起大眾迴響,讓大家關注到漸凍症病友的相關議題。 - 2018: [Project Revoice](https://www.projectrevoice.org/) - 2018/9-2019/8: [科技突圍計畫【以科技改善生活 (Life Fix) 實驗專案-第一案研發整合漸凍症病友智慧溝通系統](https://www.grb.gov.tw/search/planDetail?id=12708700) - 2020/4-2021/8: [「回聲計畫」](https://hackmd.io/@cychiang-ntpu/BJ5Hfv2s_) ---- ### 有關本案的國際計畫 <hr /> - [Project Revoice](https://www.projectrevoice.org/): 美國 ALS association 所建構的平台,目的是在讓病友知道目前已經有技術可以建立病友客製化的TTS,希望漸凍症病友在確診後能盡快接洽建立個人客製化TTS的研究單位或廠商,並提供協會推薦的資訊。 - [Voice Banking](https://www.mndassociation.org/professionals/management-of-mnd/aac-for-mnd/): 英國運動神經元病協會(MND) 提出,該協會對病友提出voice/message banking的建議 ---- ### 客製化TTS的研究單位或廠商 (1/3) <hr /> 1. Model Talker (www.modeltalker.org):屬於位於美國德拉瓦州的 Nemours Alfred I. duPont兒童醫院的 Nemours Speech Research Laboratory 建立,為規模最大的研究單位平台。 2. Cereproc Cerevoice ME (www.cereproc.com):2005年於英國的私人公司,提供以下語言的 voice cloning 技術:English, Spanish, French, Swedish, Italian and Romanian,最著名的是他們為愛爾蘭的腦性麻痺兒童建立屬於小孩個人的客製化文字轉語音系統。 ---- ### 客製化TTS的研究單位或廠商 (2/3) <hr /> 3. VocalID (https://vocalid.ai/):2014年成立於美國麻州的私人公司,最著名的為他們的 voice banking 的建立方法。 4. Acapela MyOwnVoice DNN (https://www.acapela-group.com/):Acapela Group 公司於 2004 正式成立,是由下面三家歐洲的公司合併組成:Babel Technologies (BE), Elan speech (FR) and Infovox (SWE),2020年推出以DNN技術為基礎的 my-own-voice 客製化TTS予病友使用。 ---- ### 客製化TTS的研究單位或廠商 (3/3) <hr /> 5. The Voice Keeper (thevoicekeeper.com):2011年成立於以色列,2015年開始專門為漸凍症病友提供建立客製化TTS,可以只使用病友3分鐘的語音,便可以建立音色類似病友的系統。 6. SpeakUnique (https://www.speakunique.co.uk/about-us/) <br> <small> P.S. SpeakUnique 和 VocaliD 有提供mildly to moderately impaired 語音的修復方法 </small> ---- ### 關於本計畫的相關國內計畫 (1/3) <hr /> - 科技突圍計畫【以科技改善生活 (Life Fix) 實驗專案-第一案研發整合漸凍症病友智慧溝通系統),2018/9/1 – 2019/8/31,計畫編號: 107-3011-F-027-002】 - 使用病友殘存語料 - 在有限、品質差的語料下進行了技術突破 - 使用 voice conversion 技術 - 建立初始 voice bank ---- ### 關於本計畫的相關國內計畫 (2/3) <hr /> voice conversion-based system ([Huang et al., 2019](https://aclanthology.org/2019.ijclclp-2.3)) ![](https://hackmd.io/_uploads/HkRffevoY.png) ---- ### 關於本計畫的相關國內計畫 (3/3) <hr /> Voice Bank: https://ivoice.tw/ ![](https://hackmd.io/_uploads/rJMWRlPsF.png) ---- ### 問題描述 <hr /> 1. 病友語音樣本稀少:之前留存之語音樣本少,無高音質錄音,導致無法順利重建語音。 2. voice bank 語料不足:若捐獻樣本夠大,即可利用語音合成技術來合成近似病友的原音。但 voice bank 在計畫結束短期內沒有搜集到類似病友音色的語音,緩不濟急。 3. 語音處理技術還有成長空間: 雖然利用了現今視為顯學的深度學習技術來提升殘存語料品質,但仍有提升之空間。 4. 沒有專門建立中文的「客製化文字轉語音 (text-to-speech) TTS 的研究單位或廠商」 ---- ### 「回聲計畫」提出之「解決方案」 <hr /> 1. 與時間賽跑,在短時間內趁病友構音仍正常,趕緊錄製確診病友的語音。 2. 廣集不同狀況的漸凍症病友參加,狀況包含 1) 語音受損或未受損之病友、2) 需要或無需要任何呼吸設備之病友。 3. 直接採用病友錄製的語音,建立客製化的中文文字轉語音。 4. 若病友已經無法正常發音,可採用病友親屬的語音「就近取料」,「即使跟本人原音有些差距,但只要是親人的聲音也可以滿意接受」。 --- ## 計畫架構 <hr /> ```graphviz digraph { compound=true rankdir=UD graph [ fontname="Source Sans Pro", fontsize=20 ]; node [ fontname="Source Sans Pro", fontsize=18]; edge [ fontname="Source Sans Pro", fontsize=12 ]; subgraph core { A [label="總計畫:\n研發整合漸凍症病友智慧溝通系統-成果加值及落地應用\n補助單位:科技部\n計畫編號:MOST109-3011-F027-001\n計畫主持人:劉益宏教授(台科大)"] [shape=box] } subgraph core { B [label="子計畫一:\n多功能腦機介面溝通系統開發(叫人鈴)\n計畫主持人:劉益宏教授(台科大)\n執行單位:國立臺灣科技大學+國防醫學院+宏智生醫"] [shape=box] } subgraph core { C [label="子計畫二:\n回聲計畫- 漸凍症病友文字轉語音系統之建立\n計畫主持人:江振宇副教授(臺北大學)\n執行單位:國立臺北大學+聲帆股份有限公司\n\n建立漸凍症病友客製化的文字轉語音系統,\n能在輔具上輸入文字後,\n以病友自己特有的聲音發聲"] [shape=box] } A -> B A -> C } ``` --- ## 計畫執行方法及流程 <hr /> ```graphviz digraph { compound=true rankdir=TD graph [ fontname="Source Sans Pro", fontsize=20 ]; node [ fontname="Source Sans Pro", fontsize=18]; edge [ fontname="Source Sans Pro", fontsize=12 ]; subgraph core { S [label="Start"] [shape=oval] } subgraph core { A [label="語料設計以及語音分級"] [shape=box] } subgraph core { B [label="語料錄製以及前處理"] [shape=box] } subgraph core { C [label="病友語音模型之建立"] [shape=box] } subgraph core { D [label="病友文字轉語音系統試用及評量"] [shape=box] } subgraph core { E [label="End"] [shape=oval] } S -> A { rank=same S;A; } A -> B -> C -> D D -> E { rank=same D;E; } D -> B } ``` ---- ### 語料設計以及語音分級 <hr /> ```graphviz digraph { compound=true rankdir=TD graph [ fontname="Source Sans Pro", fontsize=20 ]; node [ fontname="Source Sans Pro", fontsize=18]; edge [ fontname="Source Sans Pro", fontsize=12 ]; subgraph core { S [label="Start"] [shape=oval] } subgraph core { A [label="設計語料文本 (NTPU+AIT)"] [shape=box] } subgraph core { B [label="聯絡病友並提供文本 (MNDA)"] [shape=box] } subgraph core { C [label="手機試錄少量(1-3句)文本提供計畫評估 (病友)"] [shape=box] } subgraph core { D [label="語音分級評估 (NTPU+AIT)"] [shape=box] } subgraph core { F [label="提供適合病友錄製之完整文本,讓病友先行溫稿 (NTPU+AIT)"] [shape=box] } subgraph core { E [label="End"] [shape=oval] } S -> A { rank=same S;A; } A -> B -> C -> D -> F D -> A A -> F F -> E { rank=same F;E; } } ``` ---- ### 語音分級 <hr /> - 聽病友錄製的 1-3 句語音後,針對病友語音內容的理解度 (intelligibility)、構音異常的程度、韻律流暢度、以及語速來做主觀評測標準,藉由最早錄製的 6 位病友的語音分析經驗,我們將病友分為四級: <br> | <small>語音分級</small> | <small>特性描述</small> | | | -------- | -------- |------| | <small>第一級</small> | <small>構音及韻律完全,幾乎與正常狀況無異</small> | | | <small>第二級</small> | <small>韻律異常,語句朗讀較不通順</small> | | | <small>第三級</small> | <small>構音狀況些許異常,但可以大致聽出發音</small> | | | <small>第四級</small> | <small>構音狀況不完全,很難聽出發音</small> | | ---- ### 語料文本 <hr /> | <small>語料編號</small>| <small>語音分級</small>| <small>文本內容範例</small> | <small>數目</small> | | ----------------------- | ---------------- | ----------------------------------------- |-----| | <small>y1: 411 base syllables </small> | <small>3/4</small> | <small>知(ㄓ) 吃(ㄔ) 師(ㄕ) 日(ㄖˋ) ... 阿(ㄚ) </small>| | | <small>w1: 2-syllable words</small> | <small>3/4</small> | <small>一樣 (ㄧˊ ㄧㄤˋ) ... 午安 (ㄨˇ ㄢ) </small> | | | <small>s1: sentences A</small> | <small>1/2</small> | <small>以二號女友為例,她堅持不下廚,...就形成對立局面。</small> | <small>60 句 </small>| | <small>s2: sentences A-1</small> | <small>1/2</small> | <small>我在網路上看到一家新開的餐廳,… </small> | <small>75 句</small> | | <small>s3: sentences B</small> | <small>3/4</small> | <small>但可以想像,不外乎是來自貧窮。 </small> | <small>15 句 </small>| ---- ### 語料錄製以及前處理 <hr /> ```graphviz digraph { node [fontname = "Handlee"]; edge [fontname = "Handlee"]; S [ label = "Start"; shape = oval; ]; A [ label = "聯絡病友確定錄音時間地點 (MNDA+AIT)"; shape = box; ]; B [ label = "約定地點錄製語料,通常是病友家或是協會 (病友+AIT)"; shape = box; ]; C [ label = "語音剪接以及前處理 (AIT)"; shape = box; ]; D [ label = "依據病友錄製之語音進行文本校正 (AIT)"; shape = box; ]; F [ label = "語料足夠? (NTPU+AIT)"; shape = diamond; ]; E [ label = "End (語料錄製完成)"; shape = oval; ]; S -> A -> B -> C -> D -> F F -> A [label="No"] { rank=same; F; E } F -> E [ label = "Yes" ]; } ``` ---- ### 至病友家或是約定地點錄製病友語音 <hr /> <small> 1. 建立起一套完整服務,利用專業錄音設備、專門設計的文稿,並由專人協助語音存錄,減輕病友及家屬負擔 2. 台灣的環境噪音很多,在家裡錄音會有 reverb/echo 2. 許多參與病友已開始不良於行 3. 即使提供病友高音質的錄音麥克風,讓病友在家錄音,也不能保證錄製之語音符合建立語音合成的品質。國外的廠商可以這樣做,是因為他們已經有多年經驗,在 Website 或是 App 上可以自動偵測病友錄製的語音是否符合高音質或是朗讀正確的條件,這些有關 quality control 的問題,對於本計畫來說還沒有到足以完整考慮此問題的狀態,本計畫仍是先考慮將病友的語音能夠建立出病友能接受的合成語音音質,所以我們必須先把會影響TTS建立好壞的一些影響變因(比如錄音音質)先移除,先單純檢驗目前建立中文的客製化 TTS 的技術是否能符合此計畫需求。 </small> ---- ### 病友語音模型之建立 <hr /> ```graphviz digraph { node [fontname = "Handlee"]; edge [fontname = "Handlee"]; S [ label = "Start"; shape = oval; ]; A [ label = "抽取文本的語言參數 (詞以及發音)"; shape = box; ]; B [ label = "抽取語音的聲學參數 (聲紋以及音高)"; shape = box; ]; C [ label = "標記語音的韻律結構 (語氣/抑揚頓挫輕重緩急)"; shape = box; ]; D [ label = "建立韻律模型"; shape = box; ]; F [ label = "建立語音合成模型"; shape = box; ]; E [ label = "End"; shape = oval; ]; S -> A { rank=same; S; A } A -> B -> C -> D -> F F -> E { rank=same; E; F } } ``` ---- ### 病友文字轉語音系統試用 <hr /> ```graphviz digraph { node [fontname = "Handlee"]; edge [fontname = "Handlee"]; S [ label = "Start"; shape = oval; ]; A [ label = "提供病友線上系統帳號密碼 (NTPU)"; shape = box; ]; B [ label = "以網頁瀏覽器登入系統 (病友)"; shape = box; ]; C [ label = "於系統介面輸入文字 (病友)"; shape = box; ]; D [ label = "系統進行文字分析"; shape = box; ]; F [ label = "系統進行韻律產生"; shape = box; ]; G [ label = "系統進行語音訊號產生"; shape = box; ]; H [ label = "瀏覽器播放合成語音"; shape = box; ]; S -> A { rank=same; S; A } A -> B -> C -> D D -> F -> G { rank=same; D; F; G; } G -> H H -> C } ``` --- ## 語料庫錄製狀況 <hr /> - 錄製好的語料庫稱為 RVTW2020 語料庫,其中 RVTW 為 Revoice Taiwan 的縮寫。 </br> <small> <br> | 語音分級 | 第一級 | 第二級 | 第二級 | 第四級 | | --------| -------- | -------- | -------- | ----- | | 人數 | 11 | 5 | 4 | 1 | | 備註 | 註1 | 註2 | 註2| 註2| <br> * 註1:其中9位是病友,2位是代理語者 * 註2:皆是病友本人 </small> ---- ### 語料庫較詳盡資訊 (1/4) <hr /> <small> | 語者 | 文本 | 分級 | 備註| | --------| -------- | -------- | -------- | | 001 | s1, s2 | 1 | 狀況良好 | | 002 | s3, w1 | 4 | 構音出狀況,尤其是部分聲母無法發出,但音高控制尚可 | | 003 | s1, s2 | 1 | 狀況良好 | | 004 | s1, y1 | 3 | 構音出狀況 (未建立該病友系統) | | 005 | s1, s2 | 2 | 客家腔、韻律不順 | </small> ---- ### 語料庫較詳盡資訊 (2/4) <hr /> <small> | 語者 | 文本 | 分級 | 備註| | --------| -------- | -------- | -------- | | 006 | s1 | 3 | 錄音狀況不佳,少量資料,音高很低 | | 007 | s1, s2 | 2 | 台灣國語、鼻息聲 | | 008 | s1, y1 | 3 | 呼吸器底噪,韻律不順 | | 009 | s1, s2 | 1 | 狀況良好 | | 010 | s1, s2 | 2 | 韻律不順、音量不一致 | </small> ---- ### 語料庫較詳盡資訊 (3/4) <hr /> <small> | 語者 | 文本 | 分級 | 備註| | --------| -------- | -------- | -------- | | 011 | s1, s2 | 1 | 語速偏快 | | 012 | s1, s2 | 1 | 台灣國語 | | 013 | s1, y1, w1 | 3 | 呼吸器底噪,語速較慢,但斷句沒有問題 | | 014 | s1, s2 | 2 | 台灣國語、韻律不順 | | 015 | s3, y1, w1 | 3 | 語速慢,構音出狀況,尤其是聲帶,但大部分發音可以聽清楚 | </small> ---- ### 語料庫較詳盡資訊 (4/4) <hr /> <small> | 語者 | 文本 | 分級 | 備註| | --------| -------- | -------- | -------- | | 016 | s1, s2 | 1 | 代理語者(為病友女兒),狀況良好 | | 017 | s1, s2 | 1 | 狀況良好 (有一點口水音) | | 018 | s1 | 1 | 狀況良好,台灣國語 | | 019 | s1, s2 | 2 | 構音出現輕度變異,鼻音較重 | | 020 | s1, s2 | 1 | 代理語者(聲優),狀況良好 | | 021 | s1 | 3 | 構音出狀況,音高較低 | </small> --- ## 計畫執行之評量 <hr /> - 評量流程 - 問卷內容以及評量結果 - 問卷-1: 語音相似度 - 問卷-2: 系統使用意願度 - 問卷-3: 系統使用滿意度 ---- ### 評量流程 <hr /> 1. 請病友或病友親屬提供10段短句文本 (由協會治療師林子逸以及協會社工主任蘇麗梅女士協助),或是上網填寫表單,這些文本是病友在日常生活中可能會常用的短句,而這些短句並不會在錄製的語料庫中出現。 2. 研究團隊到病友約定之處現場輸入文本至線上GUI介面進行TTS測試,為了因應新冠肺炎疫情,研究團隊也使用網路線上評測問卷系統,讓病友以及病友親屬上網進行TTS測試。 ---- #### 問卷-1 (1/2) <hr /> - 聆聽10句合成語音,並給予每一句語音評量。 - 問句:針對第 x 句合成語音,本系統所發出的語音非常接近病友本人的說話聲音 - 請病友或是病友親屬選擇以下其中一個答案: - 1. 非常不同意(完全是另一個人的說話聲音) - 2. 不同意 - 3. 無意見 - 4. 同意 - 5. 非常同意(聽起來就是病友本人的說話聲音) ---- #### 問卷-1 (2/2) <hr /> <small> | | M | N | 1 | 2 | 3 | 4 | 5 | | ----- | -- | --- | --- | --- | --- | --- | --- | | 病友全體 | 15 | 150 | 0% | 5% | 16% | 60% | 19% | | 病友第一級 | 8 | 80 | 0% | 0% | 14% | 76% | 10% | | 病友第二級 | 4 | 40 | 0% | 0% | 18% | 33% | 50% | | 病友第三級 | 3 | 30 | 0% | 27% | 20% | 53% | 0% | | 親屬全體 | 17 | 170 | 6% | 9% | 22% | 49% | 14% | | 親屬第一級 | 7 | 70 | 0% | 21% | 24% | 51% | 3% | | 親屬第二級 | 6 | 60 | 0% | 2% | 15% | 55% | 28% | | 親屬第三級 | 4 | 40 | 25% | 0% | 30% | 35% | 10% | | 全體 | 32 | 320 | 3% | 8% | 19% | 54% | 16% | </small> > <p align="justify"> 其中 M 代表受試人數、N 代表測試語句數,1、2…、5 代表「非常不同意」到「非常同意」的五個程度。 </p> ---- #### 問卷-2 (1/2) <hr /> - 使用系統輔助日常溝通的意願度 - 針對**病友**,問句為:您願意使用本系統輔助日常溝通 (只需病友本人受試) - 針對**病友親屬**,問句為:您支持病友使用本系統輔助日常溝通(只需病友親屬受試) - 請病友或是病友親屬選擇以下其中一個答案: - 1. 非常不同意 - 2. 不同意 - 3. 無意見 - 4. 同意 - 5. 非常同意 ---- #### 問卷-2 (2/2) <hr /> <small> | | M | 1 | 2 | 3 | 4 | 5 | | ----- | -- | -- | -- | --- | --- | --- | | 病友 | 15 | 0% | 0% | 7% | 40% | 53% | | 病友第一級 | 8 | 0% | 0% | 0% | 38% | 63% | | 病友第二級 | 4 | 0% | 0% | 0% | 50% | 50% | | 病友第三級 | 3 | 0% | 0% | 33% | 33% | 33% | </br> | | M | 1 | 2 | 3 | 4 | 5 | | ----- | -- | -- | -- | -- | --- | --- | | 親屬 | 17 | 0% | 0% | 0% | 41% | 59% | | 親屬第一級 | 7 | 0% | 0% | 0% | 71% | 29% | | 親屬第二級 | 6 | 0% | 0% | 0% | 17% | 83% | | 親屬第三級 | 4 | 0% | 0% | 0% | 25% | 75% | </small> > <p align="justify"> 其中 M 代表受試人數,1、2…、5 代表「非常不同意」到「非常同意」的五個程度。 </p> ---- #### 問卷-3 (1/2) <hr /> - 對於本系統的表現滿意度調查 - 此調查的問卷問題是:「您對於本系統的表現感到滿意(病友本人及親屬皆要受試)」 - 請病友或是病友親屬選擇以下其中一個答案: - 1. 非常不同意 - 2. 不同意 - 3. 無意見 - 4. 同意 - 5. 非常同意 ---- #### 問卷-3 (2/2) <hr /> <small> | | M | 1 | 2 | 3 | 4 | 5 | | ----- | -- | -- | --- | --- | --- | --- | | 病友 | 15 | 0% | 7% | 7% | 53% | 33% | | 病友第一級 | 8 | 0% | 0% | 0% | 75% | 25% | | 病友第二級 | 4 | 0% | 0% | 25% | 0% | 75% | | 病友第三級 | 3 | 0% | 33% | 0% | 67% | 0% | | 親屬 | 17 | 0% | 6% | 6% | 59% | 29% | | 親屬第一級 | 7 | 0% | 0% | 14% | 71% | 14% | | 親屬第二級 | 6 | 0% | 0% | 0% | 50% | 50% | | 親屬第三級 | 4 | 0% | 25% | 0% | 50% | 25% | | 全體 | 32 | 0% | 6% | 6% | 56% | 31% | </small> > <p align="justify"> 其中 M 代表受試人數,1、2…、5 代表「非常不同意」到「非常同意」的五個程度。 </p> --- ## 討論 <hr /> - 合成語音相似度方面 - 系統實用性以及使用度 ---- ### 合成語音相似度 (第一級病友或語者) <hr /> - 與一般人說話無異 - 病友本人大多同意合成出的語音非常接近病友本人說話聲音 - 親屬是最常與病友使用語音溝通的對象,因此對於合成語音要求較為嚴格 - 003 病友:使用本人語音,目前已在使用本系統 - 016 病友:使用女兒語音合成,目前已在使用本系統 - 009 病友:反應系統發音不像本人 (jitter & shimmer) ---- ### 合成語音相似度 (第二級) <hr /> - 病友和親屬對於合成語音更為滿意 (相對於第一級的結果) - 原因可能是雖然病友的錄音語句朗讀較不通順,但語速較為中庸,不會過快或過慢,在此情況下發音更為完整 - 語音模型可適度描述不流暢的語音特性,在TTS合成的時候可以合成出流暢的韻律,因此可讓聆聽者感覺較好的合成語音 ---- ### 合成語音相似度 (第三級) <hr /> - 4 位第 3 級病友中有 2 位戴呼吸器 (008, 013) - 2 位病友皆有呼吸器造成的噪音影響,但是幸好呼吸器噪音大多不和語音同時發生,所以對於發音的模擬不會影響太多 - 1 位男性不需戴呼吸器的病友 (006),構音比較異常,因此得到較負面的評量結果 - 1 位女性不需戴呼吸器的病友 (015),聲帶較無法正常控制,但口腔以及舌位控制正常,使用另一位同為女性的第 1 級語者 (017) 音高以及音長模型作為此語者的代理模型,可以達到類似修復語音的效果 ---- ### 系統實用性以及使用度 (1/2) <hr /> - 在問卷中皆得到偏向正面的回饋 - 已提供網頁版使用介面,但是並沒有將系統和眼動滑鼠以及螢幕輔助鍵盤結合起來做實用性測試 - 2 位病友 (003/016) 日常生活中會使用本系統,其中一位病友 (016) 是使用病友女兒音色的代理語者 TTS,另外男性病友(003)是在參與計畫過程中說話能力逐漸退化 ---- ### 系統實用性以及使用度 (2/2) <hr /> - 病友 016 在使用本系統之前,就有使用眼動滑鼠+Google翻譯TTS的習慣 - 病友 003 目前已無法說話,但他在失去語音之前就已經充分練習使用眼動滑鼠,提供本計畫許多建議 - 參與計劃的第一級、以及第二級病友大多目前沒有明顯的說話構音困難,因此在計畫結束之時尚沒有急須使用系統的需求 --- ## 結論 <hr /> 1. 計畫結束時,已建立二十套客製化TTS 2. 得到 17 位病友客製化TTS建立的評測結果 3. 建議:病友在還沒有構音異常前就錄音,就可以建立較好的客製化 TTS 4. 病友戴呼吸器或聲帶控制不良,但口腔舌位控制正常,目前技術上仍可能建立出讓病友以及病友親屬可以接受的客製化 TTS 5. 語音系統的實用性與使用度,與病友是否習慣使用眼動滑鼠有關 --- ## 未來工作 (1/2) <hr /> 1. 系統主機伺服器維護:從學校搬遷至外部較為安全之伺服器,如 Asure 平台 2. 加強系統的安全性:內容加密 3. 語音合成品質的改善:合成音質加強,讓聆聽者聽到更清楚的發音 4. 使用者介面的改善:修改使用者介面,讓病友更好使用(希望病友回饋系統使用狀況)、再開發符合平板電腦或是其它行動裝置的使用者介面 ---- ### 未來工作 (2/2) <hr /> 5. 完善「VoiceBank 語音銀行」 平台 * 優點:可依據病友時間方便,隨時錄音,沒有時間壓力,讓病友可以在家中錄音 * 可能的缺點:在家中錄音可能會有一些環境背景噪音、以及空間回音 * 增加錄製 「訊息儲存」,將常用的語句錄製好 * 開放讓病友錄製自己想要錄製的語音,並提供逐字稿方便建立個人化語音合成系統 --- ## 致謝 <hr /> - 科技部 - 臺科大機械系劉益宏教授 - 中華民國漸凍人協會 - 所有參與計畫人員 ---- #### 計畫團隊 (1/3) <hr /> 國立臺北大學通訊工程學系「語音暨多媒體訊號處理實驗室」 (執行單位) - 江振宇:計畫主持人/系統設計/韻律產生系統 - 李武豪:博士研究生/文字分析系統 - 林彥廷:博士研究生/語音合成系統 - 林品翰:碩士研究生/使用者介面設計/網站維護 - 林書磊:碩士研究生/語音切割系統 - 蘇家駒:大學部兼任助理/VoiceBank 網站建立 - 洪紹瑋:碩士研究生/語音辨識/文字正規化 - 吳上章:兼任助理/網站後端 - 彭敏鳳:行政助理/計畫核銷 ---- #### 計畫團隊 (2/3) <hr /> 聲帆股份有限公司 (協力執行) - 張文陽:創辦人/語料設計及處理/語音錄製 - 高晟哲:共同創辦人/系統整合/語料設計及處理/語音錄製 - 陳韋成:工程師/語音合成系統 - 江仁杰:工程師/語音合成系統 - 劉冠廷:共同創辦人/文本設計 ---- #### 計畫團隊 (3/3) <hr /> 中華民國運動神經元疾病病友協會 * 林子逸:物理治療師/協調錄音時程/系統建立顧問 * 屈穎:協會理事/系統建立顧問 * 蘇麗梅:協會社工部主任/協調時程 <hr /> 其他夥伴 * 彭康硯:Yahoo/系統建立顧問 * 張軍毅:THT(taiwan hacker tech)/系統建立顧問 --- ## 感謝聆聽 <hr /> ```text 聯絡資訊 ``` ```text 江振宇 副教授 研究發展處 創新創業中心主任 通訊工程學系 國立臺北大學 23741 新北市三峽區大學路151號 手機:0928-590899 電話:(02) 86741111 轉 68805 傳真:(02) 26710893 電子郵件: cychiang@mail.ntpu.edu.tw 第二電子郵件: cychiang@gm.ntpu.edu.tw 網站:cychiang.tw ``` >(c) Speech & Multimedia Signal Processing Lab (SMSPL), National Taipei University, New Taipei City, Taiwan, 2012-2021
{"metaMigratedAt":"2023-06-16T16:54:06.408Z","metaMigratedFrom":"YAML","title":"「回聲計畫」臺大語言學研究所演講 2021/12/29","breaks":true,"slideOptions":"{\"transition\":\"slide\"}","contributors":"[{\"id\":\"3a544f41-af8e-4bcb-a152-4b9505e01eb2\",\"add\":29626,\"del\":13036}]"}
    491 views