Regularization for Simplicity

###### tags: `MLCC` # Regularization for Simplicity ## L₂ Regularization ![](https://i.imgur.com/j9bCCwK.png) > Vaildation 最後逐漸上升，但 Trainning Data 到最後的 loss 很低，也代表 model is overfitting in Trainning Data . ### regularization 正規劃 :::info 防止上述情況發生。雖然目標是 loss 最小化，但是考慮到 overfitting 的問題，所以也要考慮其他複雜的問題。 ![](https://i.imgur.com/2ncf1jL.png) ::: #### 訓練方面(2個方面) - loss term - regularization term #### 常見的 model complexity |模型複雜度(2種) - model 複雜度是表示特徵權重的funciton - 如果權重有一個很高的絕對值(複雜度相對高)，反之，權重有較低的絕對值(複雜度相對低) - L2 regularization 公式 ![](https://i.imgur.com/F4HuRIg.png) - :::spoiler example - model 的權重 = complexity(Model)![](https://i.imgur.com/ojqYdpU.png) - 用 regularization 公式計算![](https://i.imgur.com/8skf87E.png) > 可以發現絕對值越高的權重值，影響越大(複雜度越高)，反之，越接近0的權重，影響越低(複雜度相對較低) - feature 的權重!=0 的總數 (後面會提到，再來做補充) ## Lambda (又叫做regularization rate) ![](https://i.imgur.com/gSkoIGW.png) 等於以下公式 ![](https://i.imgur.com/Tz0vnVj.png) ### Lambda 對 model 的影響 - 讓權重的絕對值更接近0 - 讓權重的平均值更接近0 => 造成 normal distribution 平均分布 \begin{gather*} 左邊是高Lambda，右邊是低Lambda \end{gather*} ![](https://i.imgur.com/Irylqzn.png) ::: info $Lambda越高，model越簡單，學習成效越低\\Lambda越低，model越複雜，學習成效越好$ ::: - **若是設 Lambda = 0，就會消除正規化，沒有 complexity(Model)，訓練時，只會關注最小 loss，就會有 overfitting 的風險** - L2 regularization 的值越高，越容易讓 feature weights 越接近於 0