這是一個具有一層隱藏層的神經網路:
Image Not Showing
Possible Reasons
- The image was uploaded to a note which you don't have access to
- The note which the image was originally uploaded to has been deleted
Learn More →
假設
- 輸入層有 3 個節點,輸入 X 中有 3 筆數據,其標籤為 Y:
- 隱藏層有 2 個節點,隱藏層權重矩陣為 ,線性組合 ,
經過激活函數 後的值為 ,即
- 另激活函數 為 函數,
- 輸出層有 1 個節點,其權重矩陣為 ,線性輸出
- 將輸出值與標籤去計算損失,令損失為 ,假設使用加總型式的最小平方損失
此時,已知輸出層梯度:
其中的 代表一般的矩陣乘法、 代表阿達瑪乘積,為對應位置的矩陣元素乘積
假設我們採用隨機梯度下降法來進行更新,且學習率令為 ,則
問題
求矩陣
求解過程皆省略公式推導過程,將直接使用最終結果代入計算
由線性組合 :
由經過激活函數 後的值 ,且激活函數 為 函數, :
輸出層有 1 個節點,其權重矩陣為 ,由線性輸出 :
由輸出層梯度 :
由隱藏層梯度 ,其中 為 矩陣 的轉置:
其中 為 函數的微分式:
由假定暫存的
其中的 代表一般的矩陣乘法、 代表阿達瑪乘積,為對應位置的矩陣元素乘積,且 為矩陣 的轉置:
由輸入層梯度 ,其中 為 矩陣 的轉置:
- 可用 梯度更新權重 的值,得到新權重 ,
已知我們採用隨機梯度下降法來進行更新,且學習率為 ,則