[Transformer] Self-Attention與Transformer

Stanford大學在2021年底將transformer列為繼MLP, CNN, RNN之後的第四大類深度學型模型，把以transformer為基礎的一系列模型定義為foundation models。
- 2108.07258
  On the Opportunities and Risks of Foundation Models
- Foundation Models

代號註記
- n : sequence length
- d : representation dimension,
- k : kernel size of convolutions
自注意力機制特色
- 可以完全平行計算
- 在最大路徑長度(最長序列為1)最低
  - 抓取/查詢全局訊息越容易
  - CNN的k越大，感受視野範圍越大
- 對長序列的計算複雜度高

模型架構
每個單詞同時去計算自己本身與所有單詞的相似性，來得到注意力分數
- 可理解為在所有詞庫中，建立所有單詞間的相似性分數矩陣
- 所有句子中的每個單詞(token/sequence)本身同時作為Query與Key,Value
  - Q,K,V是可學習的權重
- 注意力分數
  - 即該embedding vector的V(Value) x 關注力權重
- 關注力權重 = Q x K
  - 即得到該單詞與全部單詞的相關性矩陣
  - 透過縮放及Softmax轉為(0,1)間的機率分布
encoder :
- ~~根據全局(全文)訊息，計算每個embedding vector(在NLP領域即每個單詞)對所有詞庫的相關性，獲得該單詞對（embedding vector）所有單詞的注意力分數~~
decoder :
- 以當前embedding vector作為Q，在encoder所學習到的注意力矩陣中進行查詢
  - 例如，在主詞後面，接續動詞的機會比較大；在出現下雨時，後面文字出現雨傘的機會就會增加
- 在推論時，
  - decoder同時考慮1. 當前的embedding vector(當前訊息)，與2. encoder(全局/文訊息)
  - 後面的embedding vector是被遮住的(masked）

CNN與RNN帶有位置訊息，但自注意力機制本身沒有
鑲嵌在每個單詞(X)上，讓每個單詞帶有位置資訊
- 使模型在學習/推論時考量位置訊息
位置編碼
- X + P
- P ∈ ℝ^n×d :
- P : \[ p_{i,2j} = sin\left(\frac{i}{10000^{2j/d}}\right),\; p_{i,2j+1} = con\left(\frac{i}{10000^{2j/d}}\right)\]