:::info
Not good on traning-data
模型沒有被適度訓練,兩種解決方法。
[1]更換activation function
:::spoiler 梯度消失問題(Vanishing Gradient Problem on Sigmoid)
由於Sigmoid的特性,輸入值的變化會被壓縮,所以經過deep network後,gradient會逐漸變小,導致learning緩慢,參數幾乎停留在random。
此時模型效率很差,因為後面的neural幾乎base on random值。
:::info
步驟
Step1: 定義一個函數(Define a set of function)
hidden layer可以看做是在進行feature transform,將原本無法線性分割的資料轉置,成為可以區分的狀態。
Step2: 判斷函數的好壞(Goodness of function)
yenling changed 4 years agoView mode Like Bookmark