Speech Recognition

# Speech Recognition - 輸入的聲音訊號是一串向量 - 輸出的文字是一串token - Token的形式例如Phoneme，發音能夠識別的最小單位，類似音標 - Lexicon紀錄文字和phoneme間的轉換方式 - Phoneme和聲音訊號之間的關聯比較明確 ![](https://i.imgur.com/iCNJOkv.png - Grapheme是基本的書寫單位 ![](https://i.imgur.com/RbAMg2D.png) - Word是詞彙的基本單位(數量非常多) ![](https://i.imgur.com/sd5AygH.png) - Morpheme是有意義pattern的基本單位，pattern可能是由語言學家定義或來自統計 ![](https://i.imgur.com/mxsj2tC.png) - Acoustic feature通常會取25ms的window當作一個音框(frame) - 一個frame為一個向量 - 前處理方法有39-dim MFCC，近幾年有80-dim filter bank ![](https://i.imgur.com/LoiA3JS.png) - MFCC包括spectrum轉換以及套入語音模型filter bank ![](https://i.imgur.com/lQ82BUP.png) ## RNN Recurrent Neural Network - 1-N encoding可以將詞彙用向量表示 - RNN會將隱藏層的output暫存起來供下一次training使用 - 同一個epoch隱藏層的權重維持固定，但暫存的output會改變 ![](https://i.imgur.com/WZk851y.png) - Elman Network是傳遞隱藏層output。Jordan Network是傳遞整個Network的output - Bidrectional RNN會從頭到尾以及從尾到頭各看一次，等同於觀察句子上下文 ![](https://i.imgur.com/YuGjkhe.png) - LSTM(Long Short-term Memory)是由四個input和一個output組成 - LSTM四個input包刮輸入資料,InputGate, OutputGate, ForgetGate輸入 ![](https://i.imgur.com/tZcdetr.png) - LSTM使用的Activation Function多為Sigmoid function ![](https://i.imgur.com/BQxdBsg.png) - LSTM結構複雜 ![](https://i.imgur.com/xawffsf.png) - 常見RNN訓練模型有LSTM, GRU, SimpleRNN 參考資料 [李宏毅[DLHLP 2020] Speech Recognition (1/7) - Overview](https://www.youtube.com/watch?v=AIKu43goh-8)