Backpropagation 反向傳播算法

###### tags: `ML數學分部` {%hackmd @kk6333/theme-sty1 %} # Backpropagation 反向傳播算法 ## 簡介反向傳播算法 (BPP) 是拿來計算梯度、更新神經網路參數的方法在之前我們知道該怎麼更新 linear regression 的參數也就是計算 loss 的梯度並更新權重 $$w^1 \leftarrow w^0 - \eta * \frac{\partial{L}}{\partial{w}}$$ 那神經網路我們可以看成是由多個 linear regression 所組成 ( 加上 Activation funciton ) ( 詳情可見:[從 Linear Regression 到神經網路](https://hackmd.io/0nN91045TBCTiV1SluiHgQ?view) ) 也就是有很多的權重 w 要計算，而 Backpropagation 就是一種有效率來計算每個權重梯度的方法 ## 目標我們最終的目標是算出 Update 參數時的梯度 $\bigtriangledown L(\theta)$ 這邊將 $L(\theta)$ (loss) 定義為 $$L(\theta)=\sum_{n=1}^N{l^n(\theta)}$$ ( 定義 $l$ 的意思是個別資料的 $loss$ ) 那梯度可以寫成下列式 $$\bigtriangledown L(\theta) = \frac{\partial{L}}{\partial{w}} = \sum_{n=1}^N{\frac{\partial{l^n}}{\partial{w}}} $$ 於是我們的目標就是要計算出 $$目標 = \frac{\partial{l}}{\partial{w}}$$ 並將它加總 ## Forward Pass & Backward Pass 這邊使用老師舉的範例來說明 ( 會用到微積分的 Chain Rule ) ![](https://i.imgur.com/LlymUxo.png =500x270) 如果我們神經網路長上述這樣 ( 先不考慮 Activation function ) 那要我的計算目標 $\frac{\partial{l}}{\partial{w}}$ 利用 Chain Rule 可以化簡為以下式子 $$\frac{\partial{l}}{\partial{w}}=\frac{\partial{z}}{\partial{w}}\frac{\partial{l}}{\partial{z}}$$ 在這個階段我們會將任務變為兩個也就是 BPP 的兩步驟 1. Forward Pass : 使用神經網路進行預測，同時也會計算出 $\frac{\partial{z}}{\partial{w}}$ 2. Backward Pass : 向後傳播計算 $\frac{\partial{l}}{\partial{z}}$ 都算出後就可得到目標值 ## Step1. Forward Pass 向前傳播其實就是讓神經網路取預測 y 那 $\frac{\partial{z}}{\partial{w}}$ 呢 ? :::info 我們將 z 攤開可以驚訝發現因為 $z=x_1w_1 + x_2w_2+b$ 所以 $\frac{\partial{z}}{\partial{w_1}}=x_1$ 代表 $\frac{\partial{z}}{\partial{w}}$ 的解會是 input ::: 所以 forward 就結束啦 ~ --- ## Step2. Backward Pass 因為 $\frac{\partial{l}}{\partial{z}}$ 無法直接計算，所以要將它攤開這時可以考慮 Activation function ，神經網路如下 ![](https://i.imgur.com/CimTrDR.png) :::info 將 $\frac{\partial{l}}{\partial{z}}$ 做分解 $$\frac{\partial{l}}{\partial{z}} = \frac{\partial{a}}{\partial{z}}\frac{\partial{l}}{\partial{a}}$$ :::warning 在這邊 $\frac{\partial{a}}{\partial{z}}=\sigma^{'}(z)$ 因為 z 在 forward 就算出來了(不然你 y 怎麼來 ^^ ) 所以 $\sigma^{'}(z)$ 為一常數 (scalar) ::: 我們再將 Activation Func 後面加一層 Layer ![](https://i.imgur.com/NsT3yFx.png) :::info 繼續分解 $\frac{\partial{l}}{\partial{a}}$ $$\frac{\partial{l}}{\partial{a}}=\frac{\partial{z^{'}}}{\partial{a}}\frac{\partial{l}}{\partial{z^{'}}}+\frac{\partial{z^{''}}}{\partial{a}}\frac{\partial{l}}{\partial{z^{''}}}$$ 我們細看 $\frac{\partial{z^{'}}}{\partial{a}}$ 帶入 z 公式且設 x=a 時，對 a 微分後會剩下$w_3$ ($z=aw_3+a_jw_j...$) --- 帶回 $\frac{\partial{l}}{\partial{z}}$ $$\frac{\partial{l}}{\partial{z}}=\sigma^{'}(z)[ w_3\frac{\partial{l}}{\partial{z^{'}}} + w_4\frac{\partial{l}}{\partial{z^{''}}}]$$ 當此 layer 是輸出層時，便可計算 $\frac{\partial{l}}{\partial{z^{'}}}$ 了 $$\frac{\partial{l}}{\partial{z^{'}}}=\frac{\partial{y_1}}{\partial{z^{'}}}\frac{\partial{l}}{\partial{y_1}}$$ ![](https://i.imgur.com/ecQYdeq.png) 最後再將上述結果帶回 $$\frac{\partial{l}}{\partial{z}}=\sigma^{'}(z)[ w_3\frac{\partial{l}}{\partial{z^{'}}} + w_4\frac{\partial{l}}{\partial{z^{''}}}]$$ 即求出 $\frac{\partial{l}}{\partial{z}}$ ::: 有了 $\frac{\partial{l}}{\partial{z}}$ 和 $\frac{\partial{z}}{\partial{w}}$ 我們就算出了梯度 $$\frac{\partial{l}}{\partial{w}}=\frac{\partial{z}}{\partial{w}}\frac{\partial{l}}{\partial{z}} $$ --- :::warning 為啥叫 Backward Pass 呢 ? 將公式列出 (這邊舉例計算 $z=z_1$ 公式 ) $$\frac{\partial{l}}{\partial{z_1}}=\sigma^{'}(z_1)[ w_3\frac{\partial{l}}{\partial{z_{3}}} + w_4\frac{\partial{l}}{\partial{z_{4}}}]$$ $\frac{\partial{l}}{\partial{z_{3}}}$ 又可展開 $$\frac{\partial{l}}{\partial{z_3}}=\sigma^{'}(z_3)[ w_5\frac{\partial{l}}{\partial{z_{5}}} + w_6\frac{\partial{l}}{\partial{z_{6}}}]$$ 同理 $\frac{\partial{l}}{\partial{z_{4}}}$ 並繪製成圖 ![](https://i.imgur.com/3OCt89E.png) 會發現我們是從靠近 y 的參數慢慢計算回來因為前面參數的偏微分都會需要後面的參數所以這樣是比較有效率的方法 ( 不然你每次都要重算 TT ) 也稱為 Backward Pass ~ :::

Syntax	Example	Reference
# Header	Header	基本排版
- Unordered List	Unordered List
1. Ordered List	Ordered List
- [ ] Todo List	Todo List
> Blockquote	Blockquote
Bold font	Bold font
Italics font	Italics font
~~Strikethrough~~	~~Strikethrough~~
19^th^	19^th
H~2~O	H₂O
++Inserted text++	Inserted text
==Marked text==	Marked text
[link text](https:// "title")	Link
![image alt](https:// "title")	Image
`Code`	`Code`	在筆記中貼入程式碼
```javascript var i = 0; ```	`var i = 0;`
:smile:		Emoji list
{%youtube youtube_id %}	Externals
$L^aT_eX$	L^aT_eX
:::info This is a alert area. :::	This is a alert area.