# Gradient Descent 原理 切線斜率即是微分,下面範例的切線斜率是小於0的數字,即為負方向。因此梯度下降必須走斜率反方向。切線斜率指向局部最大值的方向,所以要走反向。 ![](https://i.imgur.com/soa6g6d.png) ![](https://i.imgur.com/kKg7SzP.png) 隨著梯度下降,往切線斜率反方向前進。但是有時會遇到L'(b)太大導致超過極小值。 ![](https://i.imgur.com/1Cw7N7D.png) 因此我們會再前面加上一個數值稱學習速率,來限制學習的速度。 ![](https://i.imgur.com/lYEUnGS.png) # Reference [Gradient descent 梯度下降](https://hackmd.io/@allen108108/ryQypiDK4?type=view)