更改model 權重的方式

###### tags: `SBD` # 更改model 權重的方式 - [還沒看完](https://kknews.cc/zh-tw/tech/rnrk5qr.html) - [還沒看完2](https://chih-sheng-huang821.medium.com/%E6%A9%9F%E5%99%A8%E5%AD%B8%E7%BF%92-ensemble-learning%E4%B9%8Bbagging-boosting%E5%92%8Cadaboost-af031229ebc3) # training validation testing - testing 絕對不能拿來放到training 裡面 ![](https://i.imgur.com/46tTMLs.png) ## N-fold Cross Validation - n 代表把training 分成幾等分，並把每一等分輪流拿來當validation - 為了最大化利用training data，避免過擬合，避免validation資料的bias ![](https://i.imgur.com/OAartpO.png) # Ensemble learning(多重辨識器) - 因為一個分類器可能分不出來，用多個試試看 [參考網址](https://chih-sheng-huang821.medium.com/%E6%A9%9F%E5%99%A8%E5%AD%B8%E7%BF%92-ensemble-learning%E4%B9%8Bbagging-boosting%E5%92%8Cadaboost-af031229ebc3) ## bagging - bootstrap aggregating的縮寫，也稱作「套袋法」 - 概念 : 一人一票，票票等值 ![](https://i.imgur.com/mrzGr6B.png) - 實現方式: - 從原始樣本集中抽取訓練集。每輪從原始樣本集中使用Bootstraping的方法抽取n個訓練樣本（在訓練集中，有些樣本可能被多次抽取到，而有些樣本可能一次都沒有被抽中）。共進行k輪抽取，得到k個訓練集。（k個訓練集之間是相互獨立的） - 每次使用一個訓練集得到一個模型，k個訓練集共得到k個模型。 - 對分類問題：將上步得到的k個模型採用投票的方式得到分類結果；對回歸問題，計算上述模型的均值作為最後的結果。（所有模型的重要性相同） ### 使用情況 - varience 很大，bias 很小的情形下 - 分類器本身值就不錯 ### 優點 - 降噪(因為不一定會抽到) ### 補上 bootstrap - 產生訓練集的方式 - 當資料太少，或是要標示需花費太多時間及人力 - 拿現有(較少)標示好的資料，利用bootstrap - 產生多個訓練集 - 方式 - 把所有資料放進抽籤筒裡面 - 每次都取一個，取完之後放回 - 反覆產生多筆資料 - 記錄成一個訓練集 ## boosting - Boosting 的核心思路是——挑選精英 - 給精英更多的投票權，表現不好的基礎模型則給較少的投票權，然後綜合所有人的投票得到最終結果 - 大部分情況下，經過 boosting 得到的結果偏差（bias）更小 - (錯的人要留下來補考) ![](https://i.imgur.com/nilMGfX.png) - 實現方式: - 通過加法模型將基礎模型進行線性的組合 - 學習時如果訓練後的結過是錯的(要留下來加強訓練)，將錯誤的資料權重加大() - 在每一輪改變訓練數據的權值或概率分布，通過提高那些在前一輪被弱分類器分錯樣例的權值，減小前一輪分對樣例的權值，來使得分類器對誤分的數據有較好的效果 - 每一輪訓練都提升那些錯誤率小的基礎模型權重，同時減小錯誤率高的模型權重 - 根據錯誤率不斷調整樣例的權值，錯誤率越大則權重越大。 ![](https://i.imgur.com/3EnmqMn.png) ### 使用情況 - 多個若分類器合成一個強分類器 ## AdaBoost - 改進的Boosting分類算法 - 方式是提高被前幾個分類器線性組合的分類錯誤樣本的權重，這樣做可以讓每次訓練新的分類器的時後都聚焦在容易分類錯誤的訓練樣本上 - 每個弱分類器使用加權投票機制取代平均投票機制，只的準確率較大的弱分類器有較大的權重，反之，準確率低的弱分類器權重較低。 - 白話文版本 : 考試的學生考完之後不及格的要留下來補考(而且會多考幾次，確定他真的學會了)，最後學期末時，班上共同寫一份考卷(成績好的多寫幾題，成績不好的只能寫一題或是更少)