# Speech Recognition - 輸入的聲音訊號是一串向量 - 輸出的文字是一串token - Token的形式例如Phoneme,發音能夠識別的最小單位,類似音標 - Lexicon紀錄文字和phoneme間的轉換方式 - Phoneme和聲音訊號之間的關聯比較明確  - Word是詞彙的基本單位(數量非常多)  - Morpheme是有意義pattern的基本單位,pattern可能是由語言學家定義或來自統計  - Acoustic feature通常會取25ms的window當作一個音框(frame) - 一個frame為一個向量 - 前處理方法有39-dim MFCC,近幾年有80-dim filter bank  - MFCC包括spectrum轉換以及套入語音模型filter bank  ## RNN Recurrent Neural Network - 1-N encoding可以將詞彙用向量表示 - RNN會將隱藏層的output暫存起來供下一次training使用 - 同一個epoch隱藏層的權重維持固定,但暫存的output會改變  - Elman Network是傳遞隱藏層output。Jordan Network是傳遞整個Network的output - Bidrectional RNN會從頭到尾以及從尾到頭各看一次,等同於觀察句子上下文  - LSTM(Long Short-term Memory)是由四個input和一個output組成 - LSTM四個input包刮輸入資料,InputGate, OutputGate, ForgetGate輸入  - LSTM使用的Activation Function多為Sigmoid function  - LSTM結構複雜  - 常見RNN訓練模型有LSTM, GRU, SimpleRNN 參考資料 [李宏毅[DLHLP 2020] Speech Recognition (1/7) - Overview](https://www.youtube.com/watch?v=AIKu43goh-8)
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up