Basic Concept
誤差形成
Where does the error come from?
- 1.bias : 所有的平均和靶心的差距
2.variance :
- 的分散程度
(為測試結果,進行多次實驗測試則會有多個不同的)
- 給的Model複雜度愈大時,variance會跟著變大
- 估計
- variance
以估測 varience
由於 ,當N變大能使與之間的估測差距變小
- bias
計算的期望值,與實際的對照
Image Not Showing
Possible Reasons
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
Learn More →
Large Bias
當model沒辦法符合training的examples
- underfitting
可能是發生underfitting,model太過於簡單,考慮的資訊較少
若Bias大,代表結果沒有在目標上,需要換個model(考慮更多參數)
samwang1228overfitting應該是variance大的情況且應該是underfitting才要重新設計moderl?
yenling我也覺得是這樣
PEI-CI對,我有改了,如果還有要補充大家可以直接加
Large Variance
可以符合training的資料(小error可以),但在testing上得到大的error
- 解決方法:
- 增加data (防止過度擬合資料雜訊)
- regularization,
- 希望參數越小越好
- 可能會傷害bias,因此在做regularization時要調整一下weight在bias和variance之間取得平衡
模組選擇
Model Selection
- Model在你自己找的Testing Set,與之後真正測資的Testing Set的error可能有極大的不同,因此要用Validation來接近實例
- Cross Validation
- 將Training Set拆成Validation Set跟Training Set,把在Training Set得到的f*的結果丟到Validation Set,來去找error最小的Model,之後再將所有data再次丟進這個Model得到一個新的error,這個基本上會因此變大但也更接近現實。
- 特別注意,當訓練完成後,不應該以Testing Set的結果,再去修正Model,會使得Testing Set失去獨立性,無法正確反映準確度。
Image Not Showing
Possible Reasons
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
Learn More →
- N-fold Cross Validation
跟上面很像只是做N次,放法是將Validation Set跟Training Set的拆法作排列組合並在每個columu取平均在從這個平均error選最小的。
Image Not Showing
Possible Reasons
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
Learn More →