這是一個具有一層隱藏層的神經網路：

Image Not Showing Possible Reasons

The image was uploaded to a note which you don't have access to
The note which the image was originally uploaded to has been deleted

假設

輸入層有 3 個節點，輸入 X 中有 3 筆數據，其標籤為 Y：

$X = [\begin{matrix} 1 & 2 & 0 \\ 2 & - 3 & 2 \\ - 1 & - 1 & 3 \end{matrix}], Y = [\begin{matrix} 1 \\ 2 \\ - 3 \end{matrix}]$

W_{1} = [\begin{matrix} - 1 & 0 \\ - 1 & 1 \\ 1 & - 1 \end{matrix}]

隱藏層有 2 個節點，隱藏層權重矩陣為
$W_{1}$ ，線性組合
$Z = X W_{1}$ ，
經過激活函數
$σ$ 後的值為
$K$ ，即
$K = σ (Z)$
另激活函數
$σ$ 為
$R e l u$ 函數，
$σ (x) = R e l u (x) = m a x (x, 0)$
輸出層有 1 個節點，其權重矩陣為
$W_{2}$ ，線性輸出
$O = K W_{2}$

W_{2} = [\begin{matrix} 1 \\ - 2 \end{matrix}]

將輸出值與標籤去計算損失，令損失為
$J$ ，假設使用加總型式的最小平方損失

J = \sum (\frac{1}{2} (O - Y)^{2})

此時，已知輸出層梯度：

G_{o u t} = \frac{\partial J}{\partial O} = O - Y

隱藏層梯度：

\begin{aligned} G_{2} & = \frac{\partial J}{\partial W_{2}} = \frac{\partial J}{\partial O} \frac{\partial O}{\partial W_{2}} \\ = ((G_{o u t})^{T} \cdot K)^{T} = K^{T} G_{o u t} \end{aligned}

$R e l u$ 函數的微分式：

σ^{'} (x) = {\begin{cases} 0 x < 0 \\ 1 x \geq 0 \end{cases}

先假定一個暫存的
$G_{t e m p}$ ：

G_{t e m p} = (G_{o u t} \cdot W_{2}^{T}) \circ σ^{'} (Z)

其中的

\cdot

代表一般的矩陣乘法、

\circ

代表阿達瑪乘積，為對應位置的矩陣元素乘積

輸入層梯度：

\begin{aligned} G_{1} & = \frac{\partial J}{\partial W_{1}} = \frac{\partial J}{\partial O} \frac{\partial O}{\partial K} \frac{\partial K}{\partial Z} \frac{\partial Z}{\partial W_{1}} \\ = (((G_{o u t} \cdot W_{2}^{T}) \circ σ^{'} (Z))^{T} \cdot X)^{T} \\ = ((G_{t e m p})^{T} \cdot X)^{T} \\ = X^{T} G_{t e m p} \end{aligned}

可用
$G_{1}, G_{2}$ 梯度更新權重
$W_{1}, W_{2}$ 的值，得到新權重
$W_{1}^{n e w}, W_{2}^{n e w}$ ，

假設我們採用隨機梯度下降法來進行更新，且學習率令為

0.1

，則

{\begin{cases} W_{1}^{n e w} = W_{1} - 0.1 \times G_{1} \\ W_{2}^{n e w} = W_{2} - 0.1 \times G_{2} \end{cases}

問題

求矩陣

Z, K, O, G_{o u t}, G_{2}, σ^{'} (Z), G_{t e m p}, G_{1}, W_{1}^{n e w}, W_{2}^{n e w}

求解過程皆省略公式推導過程，將直接使用最終結果代入計算

Z

由線性組合

Z = X W_{1}

：

\begin{aligned} Z & = X W_{1} \\ = [\begin{array}{c} 1 & 2 & 0 \\ 2 & - 3 & 2 \\ - 1 & - 1 & 3 \end{array}] \cdot [\begin{array}{c} - 1 & 0 \\ - 1 & 1 \\ 1 & - 1 \end{array}] \\ = [\begin{array}{c} - 3 & 2 \\ 3 & - 5 \\ 5 & - 4 \end{array}] \end{aligned}

K

由經過激活函數

σ

後的值

K = σ (Z)

，且激活函數

σ

為

R e l u

函數，

σ (x) = R e l u (x) = m a x (x, 0)

：

\begin{aligned} K & = σ (Z) \\ = σ ([\begin{array}{c} - 3 & 2 \\ 3 & - 5 \\ 5 & - 4 \end{array}]) \\ = [\begin{array}{c} 0 & 2 \\ 3 & 0 \\ 5 & 0 \end{array}] \end{aligned}

O

輸出層有 1 個節點，其權重矩陣為

W_{2}

，由線性輸出

O = K W_{2}

：

\begin{aligned} O & = K W_{2} \\ = [\begin{array}{c} 0 & 2 \\ 3 & 0 \\ 5 & 0 \end{array}] \cdot [\begin{array}{c} 1 \\ - 2 \end{array}] \\ = [\begin{array}{c} - 4 \\ 3 \\ 5 \end{array}] \end{aligned}

G_{o u t}

由輸出層梯度

G_{o u t} = O - Y

：

\begin{aligned} G_{o u t} & = O - Y \\ = [\begin{array}{c} - 4 \\ 3 \\ 5 \end{array}] - [\begin{array}{c} 1 \\ 2 \\ - 3 \end{array}] \\ = [\begin{array}{c} - 5 \\ 1 \\ 8 \end{array}] \end{aligned}

G_{2}

由隱藏層梯度

G_{2} = K^{T} G_{o u t}

，其中

K^{T}

為矩陣

K

的轉置：

K = [\begin{matrix} 0 & 2 \\ 3 & 0 \\ 5 & 0 \end{matrix}], K^{T} = [\begin{matrix} 0 & 3 & 5 \\ 2 & 0 & 0 \end{matrix}]

\begin{aligned} G_{2} & = K^{T} G_{o u t} \\ = [\begin{array}{c} 0 & 3 & 5 \\ 2 & 0 & 0 \end{array}] \cdot [\begin{array}{c} - 5 \\ 1 \\ 8 \end{array}] \\ = [\begin{array}{c} 43 \\ - 10 \end{array}] \end{aligned}

σ^{'} (Z)

其中

σ^{'}

為

R e l u

函數的微分式：

σ^{'} (x) = {\begin{cases} 0 x < 0 \\ 1 x \geq 0 \end{cases}

\begin{aligned} σ^{'} (Z) & = σ^{'} ([\begin{array}{c} - 3 & 2 \\ 3 & - 5 \\ 5 & - 4 \end{array}]) \\ = [\begin{array}{c} 0 & 1 \\ 1 & 0 \\ 1 & 0 \end{array}] \end{aligned}

G_{t e m p}

由假定暫存的

G_{t e m p} = (G_{o u t} \cdot W_{2}^{T}) \circ σ^{'} (Z)

其中的

\cdot

代表一般的矩陣乘法、

\circ

代表阿達瑪乘積，為對應位置的矩陣元素乘積，且

W_{2}^{T}

為矩陣

W_{2}

的轉置：

W_{2} = [\begin{matrix} 1 \\ - 2 \end{matrix}], W_{2}^{T} = [\begin{matrix} 1 & - 2 \end{matrix}]

\begin{aligned} G_{t e m p} & = (G_{o u t} \cdot W_{2}^{T}) \circ σ^{'} (Z) \\ = ([\begin{array}{c} - 5 \\ 1 \\ 8 \end{array}] \cdot [\begin{array}{c} 1 & - 2 \end{array}]) \circ [\begin{array}{c} 0 & 1 \\ 1 & 0 \\ 1 & 0 \end{array}] \\ = [\begin{array}{c} - 5 & 10 \\ 1 & - 2 \\ 8 & - 16 \end{array}] \circ [\begin{array}{c} 0 & 1 \\ 1 & 0 \\ 1 & 0 \end{array}] \\ = [\begin{array}{c} 0 & 10 \\ 1 & 0 \\ 8 & 0 \end{array}] \end{aligned}

G_{1}

由輸入層梯度

G_{1} = X^{T} G_{t e m p}

，其中

X^{T}

為矩陣

X

的轉置：

X = [\begin{matrix} 1 & 2 & 0 \\ 2 & - 3 & 2 \\ - 1 & - 1 & 3 \end{matrix}], X^{T} = [\begin{matrix} 1 & 2 & - 1 \\ 2 & - 3 & - 1 \\ 0 & 2 & 3 \end{matrix}],

\begin{aligned} G_{1} & = X^{T} G_{t e m p} \\ = [\begin{array}{c} 1 & 2 & - 1 \\ 2 & - 3 & - 1 \\ 0 & 2 & 3 \end{array}] \cdot [\begin{array}{c} 0 & 10 \\ 1 & 0 \\ 8 & 0 \end{array}] \\ = [\begin{array}{c} - 6 & 10 \\ - 11 & 20 \\ 26 & 0 \end{array}] \end{aligned}

W_{1}^{n e w}, W_{2}^{n e w}

可用
$G_{1}, G_{2}$ 梯度更新權重
$W_{1}, W_{2}$ 的值，得到新權重
$W_{1}^{n e w}, W_{2}^{n e w}$ ，
已知我們採用隨機梯度下降法來進行更新，且學習率為
$0.1$ ，則

{\begin{cases} W_{1}^{n e w} = W_{1} - 0.1 \times G_{1} \\ W_{2}^{n e w} = W_{2} - 0.1 \times G_{2} \end{cases}

\begin{aligned} W_{1}^{n e w} & = W_{1} - 0.1 \times G_{1} \\ = [\begin{array}{c} - 1 & 0 \\ - 1 & 1 \\ 1 & - 1 \end{array}] - 0.1 \times [\begin{array}{c} - 6 & 10 \\ - 11 & 20 \\ 26 & 0 \end{array}] \\ = [\begin{array}{c} - 1 & 0 \\ - 1 & 1 \\ 1 & - 1 \end{array}] - [\begin{array}{c} - 0.6 & 1 \\ - 1.1 & 2 \\ 2.6 & 0 \end{array}] \\ = [\begin{array}{c} - 0.4 & - 1 \\ 0.1 & - 1 \\ - 1.6 & - 1 \end{array}] \end{aligned}

\begin{aligned} W_{2}^{n e w} & = W_{2} - 0.1 \times G_{2} \\ = [\begin{array}{c} 1 \\ - 2 \end{array}] - 0.1 \times [\begin{array}{c} 43 \\ - 10 \end{array}] \\ = [\begin{array}{c} - 1 & 0 \\ - 1 & 1 \\ 1 & - 1 \end{array}] - [\begin{array}{c} 4.3 \\ - 1 \end{array}] \\ = [\begin{array}{c} - 3.3 \\ - 1 \end{array}] \end{aligned}

假設

問題

點擊回到導覽頁面

Read more

C++ STL 大全

南九校資訊社聯合寒訓 資得其樂 籌辦心得

排序演算法 Sort Algorithm (C++)

南九校資訊社聯合寒訓資得其樂籌辦心得