# Speech Recognition
- 輸入的聲音訊號是一串向量
- 輸出的文字是一串token
- Token的形式例如Phoneme,發音能夠識別的最小單位,類似音標
- Lexicon紀錄文字和phoneme間的轉換方式
- Phoneme和聲音訊號之間的關聯比較明確

- Word是詞彙的基本單位(數量非常多)

- Morpheme是有意義pattern的基本單位,pattern可能是由語言學家定義或來自統計

- Acoustic feature通常會取25ms的window當作一個音框(frame)
- 一個frame為一個向量
- 前處理方法有39-dim MFCC,近幾年有80-dim filter bank

- MFCC包括spectrum轉換以及套入語音模型filter bank

## RNN
Recurrent Neural Network
- 1-N encoding可以將詞彙用向量表示
- RNN會將隱藏層的output暫存起來供下一次training使用
- 同一個epoch隱藏層的權重維持固定,但暫存的output會改變

- Elman Network是傳遞隱藏層output。Jordan Network是傳遞整個Network的output
- Bidrectional RNN會從頭到尾以及從尾到頭各看一次,等同於觀察句子上下文

- LSTM(Long Short-term Memory)是由四個input和一個output組成
- LSTM四個input包刮輸入資料,InputGate, OutputGate, ForgetGate輸入

- LSTM使用的Activation Function多為Sigmoid function

- LSTM結構複雜

- 常見RNN訓練模型有LSTM, GRU, SimpleRNN
參考資料
[李宏毅[DLHLP 2020] Speech Recognition (1/7) - Overview](https://www.youtube.com/watch?v=AIKu43goh-8)