目前進度報告0317

--- title: 目前進度報告0317 --- ### Linformer: Self-Attention with Linear Complexity(2020 FBAI) #### 與其他Transformer差異 ![](https://i.imgur.com/e4yXAUE.png) ### 概念基於self-attention是Low-rank的理論，利用linear將原始的attention matrix project 成一個Low-rank matrix，簡單說就是一個高維空間中的點集，可以被線性地嵌到低維空間中，且其結構只遭受較小的變化 ### transformer ### Multi-head Attention ![](https://i.imgur.com/PgyH1kd.png) $(Q、K、V)$都是輸入的嵌入矩陣， $n$是序列長度， $d_k$是嵌入維度， $h$是Head的數量，每個head的計算方式如下： ![](https://i.imgur.com/dBkejCf.png) 其中， $W^Q_i、W^K_i∈R^{d_m×d_k}、W^V_i∈R^{d_m×d_v}、W^O_i∈R^{d_m×d_k}$ 都為待訓練學習到的參數。 $d_k、d_v$都是隱維度的投射空間。 $P$部分計算的成本是非常高的。它需要把序列中每個位置的 token 都兩兩組合，即需要將兩個$n×d$的矩陣相乘，時間空間複雜度都是 $O(n^2)$。這部分計算成為了 Transformer 的瓶頸。 ### 還沒很懂的 ![](https://i.imgur.com/QDWJ0j1.png) 基於上面的式子，$D_A$ 是一個 $n \times n$ 的對角矩陣。該證明的主要思路是Johnson–Lindenstrauss theorem。由$N(0,\frac {1}k)$建立一個Low-rank的近似矩陣$\tilde P$ ![](https://i.imgur.com/IRsjhdA.png) 因JL定理得出，對於矩陣$VW^v_i$中的任意向量$\omega∈R$ 當$k=5 log(n)/(\epsilon^2-\epsilon^3)$時，會產生: ![](https://i.imgur.com/EoO8G9G.png) 當$P$有了low-rank性質後，用 singular value decomposition (SVD)去將$P$轉換成近似的$P_{low}$ : ![](https://i.imgur.com/sqygk6S.png) ### model ![](https://i.imgur.com/i00948G.png) ### attention ![](https://i.imgur.com/HqaQEIF.png)