--- title: 科技部工程司專題計畫主持人近五年成果績效 tags: SMSPL簡介2021Fall description: View the slide with "Slide Mode". --- # <center> 科技部工程司專題計畫主持人近五年成果績效 </center> <center> 姓名:江振宇 職稱:副教授 服務單位:國立臺北大學通訊工程學系 </center> ## 一、近五年最具代表性之學理創新/實務成果、期刊論文/書籍發表、系統應用/技術突破之表現 (至多五項) 1. 國內首次為漸凍症病友建立客製化文字轉語音系統 (2020/5-2021/4):參與科技部「研發整合漸凍症病友智慧溝通系統-成果加值及落地應用(MOST-109-3011-F-011-001-)」,其中採用計畫主持人團隊建立的 SLMTK 建立病友的客製化文字轉語音系統,SLMTK為 Speech Labeling and Modeling Toolkit 的縮寫,SLMTK是一套可快速且自動化將語音及文本標記成可以建立韻律產生模型以及語音合成模型的語音標記工具,韻律標記的標準以及語音標記格式皆以制訂於套件內,方便分析以及建模使用,亦可以建立出基礎的韻律產生模型以及語音合成模型。目前 SLMTK 已在多個語料庫上進行實驗,包含技術授權廠商的 5 位語者之文字轉語音系統、以及支援科技部 “研發整合漸凍症病友智慧溝通系統-成果加值及落地應用” (MOST-109-3011-F-011-001-) 之 “子計畫二:回聲計畫- 漸凍症病友文字轉語音系統之建立”,計畫目的在建立漸凍症病友客製化的文字轉語音系統,能在輔具上輸入文字後,以病友自己特有的聲音發聲,截至本計畫結束以前,研究團隊以使用 SLMTK 建立了 20 位病友的客製化文字轉語音系統。以下為相關的媒體新聞報導: * 漸凍人協會網頁報導:http://www.mnda.org.tw/activity_news_detail.php?deliver=JCUyMjYjIQ== * 中央社新聞:https://www.cna.com.tw/news/ahel/202011240316.aspx * 自由時報:https://health.ltn.com.tw/article/breakingnews/3360874 * 聯合報:https://udn.com/news/story/7266/5040861 其中有應用到 SLMTK 裡面有應用到本人提出的局部倒語速輔助建立的韻律模型[1,2],能夠更正確的描述語音的韻律變化,合成出的語音更為自然。 2. 中文自發性語音韻律標及模式(2019/4):延伸先前建立之“中文階層式韻律模式” [3],以此中文之韻律模式為基礎,建立考量自發性語音特性的韻律標記以及韻律模型建立方法,除了探討自發性語音的韻律特性以外,此研究更將自發性語音的韻律模型應用在語音辨識上,證明使用此韻律模型可有效改善自發性語音的語音辨識率。本研究之內容由計畫主持人以第三作者發表於 The Journal of the Acoustical Society of America [4]。 3. 用於TTS之統計式語言參數 (2012-2019/1): 提出 Punctuation Confidence (PC) 以及 Quoted Phrase Confidence (QPC),這些參數可使用於中文文字轉語音中的韻律斷點 (break) 預估,利用中文標點符號與韻律斷點之間的高相關性,使用CRF模型訓練一個以詞、詞長以及詞類做為輸入參數,預估每個詞後面是否為要插入主要標點符號和括號的機率,此機率便稱為PC和QPC。實驗結果顯示不需使用複雜且難以使用機器訓練得到的tree-level語言參數,PC以及QPC可對於韻律聲學參數之預估有所助益,本研究已發表於OCOCOSDA 2014 [5]、以及ISCSLP 2016 [6]。其中論文[5]獲得 OCOCOSDA 2014 ITN Best Paper Award。完整的研究結果已發表於EURASIP Journal on Audio, Speech, and Music Processing [7]。 4. 超低傳輸率語音編碼 (2018/07):提出以階層式中文韻律模式為基礎之語音編碼及壓縮方式,對音節之韻律參數如:音高、音長、能量、以及音節間靜音進行編碼儲存,將頻譜以HMM-based speech synthesis方式配合韻律參數進行壓縮,其中的編碼參數利用韻律結構特性進行壓縮後,於speaker independent的語音壓縮可達到平均為72.7 bps的超低data rate,且於MUSHRA聽覺測試可達到約75 分 (vocoding為100分),而於speaker dependent的語音壓縮可達到平均為81.4 bps的超低data rate,MUSHRA聽覺測試可達到約80 分。此外,在聽覺測試中也發現到,傳統使用vector/scalar quantization的編碼方式與本研究以HPM為基礎的編碼方式在同樣的RMSE之下,本研究提出的方法能得到較高的聽覺評測分數,並且有更好的壓縮率。值得一提的是,本研究所提出的方法於speaker independent的case相較於speaker dependent的case有更低的data rate,探究其原因發現到與語者是否為專業播音員有關,因為speaker dependent case語者為專業語者,該語者傾向以豐富的韻律表達語音內容資訊,反之,speaker independent的語者大多非專業語者,大多以較單調的韻律變化表現語音內容。此發現對於未來研究語音內容所包含的資訊含量,應該具有參考價值。本研究之內容由本人以單一作者發表於 EURASIP Journal on Audio, Speech, and Music Processing [8]。 5. 跨方言且跨語者之韻律模型調適 (2015/10-2018/01):延伸先前建立之“中文語速相依之階層式韻律模式” [3, 9-11],以此中文之韻律模式為基礎,推導出以structural maximum a posterior之調適方法,僅需少量資料之漢語方言語音資料,便可以進行跨語者及跨方言之韻律模型調適,目前此方法已在台語 [12] 以及客家話 [13] 上實驗成功,也退化至只進行語者調適,針對國語語者調適進行驗證,也是僅需要少量之target語者之語料,便可以建立該位語者之韻律模型,成果發表於ICASSP 2016 [14],以及以通訊作者發表於IEEE/ACM Transactions on Audio, Speech, and Language Processing [15]。確立本人所提出之unsupervised joint prosody labeling and modeling之framework可應用於漢語方言之韻律模型。其中應用於跨語者之台語韻律模型之相關論文 [6] 獲得 OCOCOSDA 2015 ITN Best Paper Award,並以單一作者於2018年1月發表於IEEE/ACM Transactions on Audio, Speech, and Language Processing [16],其中之核心技術已於2017年8月獲得中華民國專利 “可學習不同語言及模仿不同語者說話方式之韻律參數語速正規化器、語速相依韻律模型建立器、可控語速之韻律訊息產生裝置及韻律訊息產生方法”[17]。2019年1月,獲得美國專利 “Chen-Yu Chiang, Speaking-rate normalized prosodic parameter builder, speaking-rate dependent prosodic model builder, speaking-rate controlled prosodic-information generation device and prosodic-information generation method, US10192542B2, 2019/01 至 2036/10” ## 二、近五年協助產業發展績效: 1. 研發成果技術即將授權予XXX公司,技術授權金一百五十萬新台幣,技術授權名稱:「以深度學習為基礎之自動調變聲音情感技術」,技術內容為建立模擬不同陳述專業內容的語音音色,用於產生軟性文字之對應語音產生,滿足不同市場情境對聲音情感的需求。本授權技術係計畫主持人執行的以下科技部計畫貢獻:「結合深度學習以及階層式韻律模型技術之中英台客語混合文字轉語音技術開發(108-2221-E-305-003-)」、以及「語音學習輔助技術及系統開發(109-2221-E-305-010-MY3)」。合約以於2021年3月底簽署,合約有效期間三年。日期:110/3 2. 研發成果技術即將授權予XXX公司,技術授權金一百五十萬新台幣,技術授權名稱:「語音標記及建模工具套件」,技術內容是一個完整的TTS建立solution,由raw text以及語音檔案輸入,輸出為韻律標記檔案、HTS Label檔、以及音訊處理後音檔,並且自動建立出韻律模型以及語音合成模型之完整方案。本授權技術係計畫主持人執行的以下科技部計畫貢獻:「結合深度學習以及階層式韻律模型技術之中英台客語混合文字轉語音技術開發(108-2221-E-305-003-)」、以及「語音學習輔助技術及系統開發(109-2221-E-305-010-MY3)」。合約已於2021年3月底簽署,合約有效期間三年。日期:110/3 3. 研發成果技術授權予XXX公司,技術授權金三百萬新台幣,技術授權名稱為 “以深度學習為基礎之文字轉語音技術”,技術內容為完整TTS的total solution,包含完整中英夾雜TA (text analysis)、中英夾雜PG (prosody generation) [18]、以及中英夾雜 SS (speech synthesis),本授權技術係計畫主持人執行本計畫「利用深度學習技術開發之文字轉語音系統(MOST-107-2221-E-305-009-)」、以及先前科技部計畫:「英語韻律模型之建立及其應用三年期(NSC 102-2221-E-305 -005-MY3)」、「以深度學習為基礎之文字轉語音系統發展(MOST 106-2221-E-305-010-)」、以及經濟部補助之「經濟部產學研旗艦團隊計畫-智慧聯網核心系統開發計畫(107-EC-17-A-02-S5-008)」之研究成果,其中科技部計畫佔80 %貢獻、經濟部佔20 %之貢獻,本計畫約佔整體貢獻之40%。合約已於2019/9/30簽署,合約有效期間三年。日期:108/9 4. 執行科技部補助產學合作研究計畫-技術及知識應用型:“具客製化功能之文字轉語音、語者轉換以及語音轉文字系統”(MOST-105-2622-E-305-003 -CC3),先期技轉TTS相關技術,金額共計20萬新台幣。日期:105/6 5. 技轉(非專屬授權)「高頻語音辨識演算法技術」與台灣丹音科技有限公司,技轉金額共計20萬新台幣。日期:105/7 6. 執行中華電信研究所委託研究案 “統一架構之國、英、台文字轉語音系統”,建立高音質之中英夾雜文字轉語音系統。部分之成果已應用於中華電信之TTS系統。日期:105/6 7. 協助法務部調查局規劃並撰寫 “105年度法務部科技發展計畫提報構想書”,計畫名稱:“聲紋鑑識量能提升計畫”,目前計畫已通過並開始執行。日期:104/8 8. 執行中華電信研究所委託研究案 “混合單元選取與平滑之語音合成技術”,建立高音質之中文文字轉語音系統 (Mandarin Text-to-Speech System),部分成果已用於中華電信TTS之相關業務。日期:104/1 9. 執行法務部調查局研究案 “國人聲音音質特徵參數個化比對方式研究”,建立text-dependent speaker recognition系統。日期:105/1 ## 三、近五年人才培育、研究團隊建立、服務方面重要貢獻、以及國內外之成就與榮譽: 1. 擔任 31st annual Conference on Computational Linguistics and Speech Processing (ROCLING 2019) 大會主席,會議日期2019/10/3-2019/10/5:https://sites.google.com/view/rocling2019/ 2. 協辦 AI Tutorial (https://payment.narlabs.org.tw/Register/c019a7e81868f6949be57841b41eca78),日期:2019/10/5 3. 指導學生使用 voice conversion 技術改善語料庫音質,內容發表於 ROCLING 2019 會議 (2019年10月),得到 Best Poster Presentation Award Runner-Up,論文為: Yan-ting Lin and Chen-yu Chiang, “Speech Enhancement for TTS Speech Corpora by using Voice,” In Proc. The 2019 Conference on Computational Linguistics and Speech Processing (ROCLING 2019), pp. 246-255, Oct. 2019. 4. 擔任ISCSLP 2018 - The 11th International Symposium on Chinese Spoken Language Processing 之 publication co-chair (由2017/11開始籌備),會議日期2018/11/26-2018/11/29:http://iscslp2018.org/Committees.html 5. 擔任ROCLING 2018會議 program chair (2018/5開始籌備):https://sites.google.com/site/rocling2018/organization/organizing-committee 6. 擔任ISCSLP 2016 - The 10th International Symposium on Chinese Spoken Language Processing 之 Oral Session O9: Speech Synthesis的Session Chair,http://www.iscslp2016.org/program_details.html (2016/10) 7. Technical Program Committee, Speech Prosody 2016 (held in Boston) 國際會議,http://sites.bu.edu/speechprosody2016/ 8. 於2015年在 The Oriental Chapter of COCOSDA/CASLRE國際會議得到 ITN Best Paper Award,論文是: Chen-Yu Chiang, "A study on adaptation of speaking rate-dependent hierarchical prosodic model for Chinese dialect TTS," in Oriental COCOSDA held jointly with 2015 Conference on Asian Spoken Language Research and Evaluation (O-COCOSDA/CASLRE), 2015 International Conference, pp.42-46, 28-30 Oct. 2015 9. 協辦 2015年語音訊號處理研討會 Speech Signal Processing Workshop,網址: http://sws2015.22web.org/ ## 參考文獻 [1] Guan-Tin Liou, Chen-Yu Chiang, Yih-Ru Wang, Sin-Horng Chen (2018, Jun). Estimation of Hidden Speaking Rate. 9th International Conference on Speech Prosody 2018, Poland. MOST 106-2221-E-305-010. [2] Guan-Ting Liou, Chen-Yu Chiang, Yih-Ru Wang, Sin-Horng Chen (2018, Jun). An Exploration of Local Speaking Rate Variations in Mandarin Read Speech. Interspeech 2018, India. MOST 106-2221-E-305-010. [3] Chen-Yu Chiang, Sin-Horng Chen, Hsiu-Min and Yu, Yih-Ru Wang, “Unsupervised Joint Prosody Labeling and Modeling for Mandarin Speech,” J. Acoust. Soc. Am., vol. 125, No. 2, pp. 1164-1183, Feb, 2009. [4] Cheng-Hsien Lin, Chung-Long You, Chen-Yu Chiang, Yih-Ru Wang and SinHorng (2019, Apr). Hierarchical prosody modeling for Mandarin spontaneous speech. The Journal of the Acoustical Society of America, 145, 2576 (2019). [5] Yu-Ping Hung, Han-Yun Yeh, I-Bin Liao, Chen-Ming Pan, and Chen-Yu Chiang, "An investigation on linguistic features for Mandarin prosody generation," in Proc. O-COCOSDA2014 , pp.1-5, 10-12 Sept. 2014 (OCOCOSDA 2014 Best ITN Best Paper Award) [6] Chen-Yu Chiang, Yu-Ping Hung, Guan-Ting Liou, Yih-Ru Wang, "Improvements on Punctuation Generation Inspired Linguistic Features for Mandarin Prosody Generation," in Proc. ISCSLP 2016 [7] Chen-Yu Chiang, Yu-Ping Hung, Han-Yun Yeh, I-Bin Liao and Chen-Ming Pan (2019, Feb). Punctuation-generation-inspired linguistic features for Mandarin prosody generation. EURASIP Journal on Audio, Speech, and Music Processing, 2019:4. MOST 106-2221-E-305-010. 計畫主持人為第一作者、通訊作者 [8] Chen-Yu Chiang (2018, Jul). A parametric prosody coding approach for Mandarin speech using a hierarchical prosodic model. EURASIP Journal on Audio, Speech, and Music Processing, 2018:5. (SCI). MOST 106-2221-E-305-010. [9] Chiao-Hua Hsieh, Yih-Ru Wang, Chen-Yu Chiang, Sin-Horng Chen (2013, May). A SPEAKING RATE-CONTROLLED MANDARIN TTS SYSTEM. ICASSP 2013, Vancouver, Canada. [10] Chiao-Hua Hsieh, Chen-Yu Chiang, Yih-Ru Wang, Hsiu-Min Yu, Sin-Horng Chen (2012, Sep). A New Approach of Speaking Rate Modeling for Mandarin Speech Prosody. ISCA Interspeech 2012 conference, Portland, Oregon, USA. NSC 98-2221-E-009-075-MY3. [11] Sin-Horng Chen, Chiao-Hua Hsieh, Chen-Yu Chiang, Hsi-Chun Hsiao, Yih-Ru Wang, Yuan-Fu Liao and Hsiu-Min Yu (2014, Jul). Modeling of Speaking Rate Influences on Mandarin Speech Prosody and Its Application to Speaking Rate-controlled TTS. IEEE Trans. on Audio, Speech and Language Processing, vol.22, no. 7, pp.1158-1171. MOST 99-2221-E-009-009-MY3. [12] Chen-Yu Chiang, "A study on adaptation of speaking rate-dependent hierarchical prosodic model for Chinese dialect TTS," in Proc. O-COCOSDA/CASLRE 2015, pp.42-46, 28-30 Oct. 2015 (OCOCOSDA 2015 Best ITN Best Paper Award) [13] Chen-Yu Chiang, Hsiu-Min Yu, Sin-Horng Chen, “On Cross-Dialect and -Speaker Adaptation of Speaking Rate-Dependent Hierarchical Prosodic Model for a Hakka Text-to-Speech System,” in Proc. of Speech Prosody 2016. [14] I. B. Liao, C. Y. Chiang and S. H. Chen, "Structural maximum a posteriori speaker adaptation of speaking rate-dependent hierarchical prosodic model for Mandarin TTS," 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Shanghai, 2016, pp. 5625-5629. [15] I. B. Liao, C. Y. Chiang, Y. R. Wang and S. H. Chen, "Speaker Adaptation of SR-HPM for Speaking Rate-Controlled Mandarin TTS," in IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 24, no. 11, pp. 2046-2058, Nov. 2016. [16] C. Y. Chiang, "Cross-Dialect Adaptation Framework for Constructing Prosodic Models for Chinese Dialect Text-to-Speech Systems," in IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 26, no. 1, pp. 108-121, Jan. 2018. [17] 江振宇。2017。可學習不同語言及模仿不同語者說話方式之韻律參數語速正規化器、語速相依韻律模型建立器、可控語速之韻律訊息產生裝置及韻律訊息產生方法。中華民國發明專利第I595478號。 [18] Yen-Ting Lin and Chen-Yu Chiang (2017, Sep). Deep Learning-Based Speaking Rate-Dependent Hierarchical Prosodic Model for Mandarin TTS. APSIPA 2017, 馬來西亞. MOST 106-2221-E-305-010.