# Transformer 李宏毅深度學習
###### tags: `Deep Learning`, `Transformer`, , `seq2seq`, `Attention`
筆記內容參考於:https://youtu.be/ugWDIIOHtPA

RNN:
- 是最經典的處理Sequence的模型,單向RNN或雙向RNN等等。
- RNN的問題:難以平行處理=>就有人提出用CNN取代RNN
CNN取代RNN:
- CNN filters:每一個三角形代表一個filter輸入為seq的一小段,輸出一個數值(做內積得到),不同的filter對應seq中不同的部分。
- 每一個CNN只能考慮有限的內容,RNN能考慮一整個句子
- 考慮很長的句子:疊很多層CNN,上層的filter就可以考慮較多資訊,因為上層的filter會把下層的filter的輸出當作輸入
- 問題:必須疊很多層才有辦法做到考慮較長的句子,因此出現了self-attention機制
## Self-Attention Laye