機器學習- 神經網路(多層感知機 Multilayer perceptron, MLP) 含倒傳遞( Backward propagation)詳細推導

# 機器學習- 神經網路(多層感知機 Multilayer perceptron, MLP) 含倒傳遞( Backward propagation)詳細推導多層感知機是一種前向傳遞類神經網路，至少包含三層結構(輸入層、隱藏層和輸出層)，並且利用到「倒傳遞」的技術達到學習(model learning)的監督式學習，以上是傳統的定義。現在深度學習的發展，其實MLP是深度神經網路(deep neural network, DNN)的一種special case，概念基本上一樣，DNN只是在學習過程中多了一些手法和層數會更多更深。 ![](https://i.imgur.com/4d8eeBf.png) 假設有個MLP的結構，共有n筆樣本，每個樣本對應m個輸出值。隱藏層只有一層設定為p個hidden node。 ![](https://i.imgur.com/7av1yww.png) 前向傳遞(Forward propagation): 較簡單 (只有線性合成，和非線性轉換) 反向傳遞 (Backward propagation): 較複雜 (因為多微分方程) ## 前向傳遞 (Forward propagation) **輸入層到隱藏層** ![](https://i.imgur.com/HmK6iKc.png) ***輸入層到隱藏層的值為sk,k=1,…,p，為輸入訊號的加權線性和(vik為第i個輸入到第k個hidden node的權重)。*** ![](https://i.imgur.com/6UVvT7Z.png) 經過非線性轉換/激活函數(activation function，f1)後，得到hidden node的輸出hk ![](https://i.imgur.com/V3nOMeh.png) **隱藏層到輸出層** ![](https://i.imgur.com/SfqqJ2B.png) 隱藏層到輸出層的值為zj,j=1,…,m，為hidden node輸出的加權線性和(wkj為第k個hidden node輸出到第j個輸出值的權重) ![](https://i.imgur.com/n1I9VU9.png) 經過非線性轉換/激活函數(activation function，f2)後，得到推估的輸出值y^j ![](https://i.imgur.com/rIe94Qn.png) ## 反向傳遞 (Backward propagation) 反向傳遞的目的就是利用最後的目標函數(loss/cost function)來進行參數的更新，一般來說都是用誤差均方和(mean square error)當作目標函數。如果誤差值越大，代表參數學得不好，所以需要繼續學習，直到參數或是誤差值收斂。 x^(i)為第i筆資料的輸入值，其輸出值為 ![](https://i.imgur.com/Q77o78O.png) 其目標的誤差為 ![](https://i.imgur.com/a8iVoKA.png) 所有樣本的誤差和當作目標函數 ![](https://i.imgur.com/7rnfALX.png) 最佳化的目的就是讓「所有樣本的誤差均方和」越小越好，所以目標是 ![](https://i.imgur.com/p7fA1Lu.png) 所以要找到最佳參數解(參數只有wkj和vik)，最簡單的方式就是微分方程式等於0找解 ![](https://i.imgur.com/6QGKYg4.png) 但參數量多無法直接找到唯一解(後面公式有偏微分後的結果，很難直接找到唯一解)，所以還是需要依賴gradient descent找最佳解。假設對gradient descent有基本認識。利用gradient descent找最佳參數解(參數只有wkj和vik) ![](https://i.imgur.com/McoOiWB.png) 其中η為學習率(learning rate)， ![](https://i.imgur.com/zhfY4mX.png) 基本上微分解無法直接算出，因此用chain rule方式，可以更有效得到解，以下針對不同層別的連結算倒傳遞 (只針對一個樣本去計算) **輸出到隱藏層(wkj)** ![](https://i.imgur.com/fx9Y6Qx.png) chain rule: ![](https://i.imgur.com/4MaWBbv.png) ![](https://i.imgur.com/Tbe8zYH.png) **隱藏層到輸入層(vik)** ![](https://i.imgur.com/PD33hKu.png) chain rule: ![](https://i.imgur.com/CLrFe8y.png) ![](https://i.imgur.com/K6RHNEO.png) 所以 ![](https://i.imgur.com/0FvgoAR.png) 最後把n個樣本所有gradient加起來得到參數的update ![](https://i.imgur.com/r8bBy9d.png) 到這邊倒傳遞也推導完成了，看完有沒有覺得很簡單(這邊只是符號多了一點而已，基本上用到的數學應該沒有很多)。 PS:裡面有一個重點，非線性轉換/激活函數(f1,f2)在倒傳遞時都有微分，所以在選擇激活函數時必須要選擇可微分函數。 # 結論 MLP神經網路只是在利用gradient descent找最佳參數解最後帶入MLP內的前向傳遞 (Forward propagation)即可得到最後的預測值。