###### tags: `MLCC` # Regularization for Simplicity ## L₂ Regularization ![](https://i.imgur.com/j9bCCwK.png) > Vaildation 最後逐漸上升,但 Trainning Data 到最後的 loss 很低,也代表 model is overfitting in Trainning Data . ### regularization 正規劃 :::info 防止上述情況發生。 雖然目標是 loss 最小化,但是考慮到 overfitting 的問題,所以也要考慮其他複雜的問題。 ![](https://i.imgur.com/2ncf1jL.png) ::: #### 訓練方面(2個方面) - loss term - regularization term #### 常見的 model complexity |模型複雜度(2種) - model 複雜度 是表示特徵權重的funciton - 如果權重有一個很高的絕對值(複雜度相對高),反之,權重有較低的絕對值(複雜度相對低) - L2 regularization 公式 ![](https://i.imgur.com/F4HuRIg.png) - :::spoiler example - model 的權重 = complexity(Model)![](https://i.imgur.com/ojqYdpU.png) - 用 regularization 公式計算![](https://i.imgur.com/8skf87E.png) > 可以發現絕對值越高的權重值,影響越大(複雜度越高),反之,越接近0的權重,影響越低(複雜度相對較低) - feature 的權重!=0 的總數 (後面會提到,再來做補充) ## Lambda (又叫做regularization rate) ![](https://i.imgur.com/gSkoIGW.png) 等於以下公式 ![](https://i.imgur.com/Tz0vnVj.png) ### Lambda 對 model 的影響 - 讓權重的絕對值更接近0 - 讓權重的平均值更接近0 => 造成 normal distribution 平均分布 \begin{gather*} 左邊是高Lambda,右邊是低Lambda \end{gather*} ![](https://i.imgur.com/Irylqzn.png) ::: info $Lambda越高,model越簡單,學習成效越低\\Lambda越低,model越複雜,學習成效越好$ ::: - **若是設 Lambda = 0,就會消除正規化,沒有 complexity(Model),訓練時,只會關注最小 loss,就會有 overfitting 的風險** - L2 regularization 的值越高,越容易讓 feature weights 越接近於 0