# 語音與音樂訊號處理 ###### tags: `20200905` 曹昱 中央研究院資創中心 / 副研究員 ## Automatic Speech Recognition 1990 語音辨識與輸入 2011 大數據與AI出來以後,語音辨識與輸入才有辦法可以 語音辨識的問題 1.口音 2.雜訊 (背景音) 3.麥克風的能力 語音處理的應用 語音辨識 下指令 語音翻譯 (辨識->翻譯->合成) 教育 ex 考試中心、演講評量 生物語言 (聲音辨識) 鑑識 (辨別聲音) 聊天機器人 (Chatbox) 健康照顧 (聽覺、說話) ## Machine Learining and Artificial Intelligence 機器學習只是AI的一部分 最常用的是Deep Neural Network ### Ariticial? 人類的程序:分類(accuracy)、評量(correlation) 人類學習的理論:Exampler Theory (SVM, DNN), Prototype Theory (高斯分布) ### Artificial Neural Network 大腦的neuron(神經元) => 也是接受、轉成訊號的型態 => Analog+Digital ## page 62才開始XD ## Speech Signal Processing ### Speech enhancement 人類的溝通 Quality Intelligibility 人跟電腦的溝通 辨識率 因此要想辦法做speech enhancement 人類的語音處理 可以將音訊轉換成頻譜圖 人類的語音,在語言中的母音屬於比較低頻,子音比較屬於高頻的聲音,而聲音的處理辨識去把一些高頻的聲音去除,保留原來的聲音 或是可以把一些回響給處理掉 ### Voice Conversion 男聲變女聲 但目前還難以對語速、用詞做轉換 ### Channel Compensation 骨導式的聲音(就像捏著鼻子講話、或腹語)轉化成為一般氣導式的聲音 ### Inner-ear Microphone Apple AirPods 有2個麥克風,接受外面與內部的聲音。把外面的聲音扣掉、把耳朵內的生理音或骨導音扣掉,就可以獲得一個很乾淨的聲音 (老師做研究真的很拚) ## DL Based SE System Feature extraction SE model (將震動等一些方法來幫助speech enhancement) Object function 最後再做model compression ## Goal driven-based SE DNN Model vs Human Brain 強化重點就好 PESQ (品質函數) STOI (理解度函數) 這兩個函數已經證明與人類對語音的辨識有顯著的關係 因此透過ML讓這兩個函數來做 ## Direct Opitmization STOI可以直接微分,因此可以透過這個微分 就可以直接把這個分數來做為目標函數 因為一般的處理都會犧牲掉聲音的清楚程度 造成辨識率下降 ## indirect optimization ???? ### MetricGAN for SE ### Reinforcement Learning-based SE 將32種語音辨識的方法都做一遍 然後判斷這32種方法中特定的方法對特定特徵的語音訊息可以做出最好的效果 之後就用這個方法對這一類的方式來做判斷 ### Audio-Visual SE using Multimodal Deep CNN 把聲音與唇語的辨識做整合 ## Speech Signal Processing (II) 應用 ### Assistive Speech Communication Technologies #### Conventional FM System FM系統 把聲音傳出去的系統 已經很普遍,但是設備很貴(microphone+transmitter+receiver) 幫助做閱讀障礙、自閉症、亞斯伯格等可以處理一些音訊。 SmartHear 2.0 #### hearing Aid 助聽器 把特定的音頻放大,特別是高頻的聲音 但大部分的雜訊都是高頻 所以在語音辨識上,就是要去把noise reduction #### Cochlear Implant 人工電子耳 利用電來刺激大腦,使之產生聲音 CI Device 耳蝸自己會做傅立葉轉換XD A Critical Issue of CI 再研究上,設計一個模擬器 模擬人工電子耳產生聲音,再給電子耳聽 ### Speech Disorder (用人工智慧幫忙說話) 有一些症狀是會說不出話來 ????? ### 異常轉換 口腔癌開刀後讓聲音變得能夠辨認 在NN之前,字典法最有效 就是存很多聲音的字,然後先辨識說的話,從字典裏面去找出一樣的字 利用NN後,可以做一些轉化,效果稍微好一點
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up