###### tags: `MLCC` # Generalization ## Generalization - model 適應**沒看過**的資料 ## over-fit :-1: - EX:(我自己的理解)衣服不要穿太過於合身,如果這個月吃太多,身體有一些發福,導致這件衣服穿不下,不能穿了 - over-fit 雖然讓 model 在判斷看過的 data 上 表現極優秀、 loss 很低,但預測沒有看過的 data 時效果不是那麼好 ## 如何避免 overfitting - 結合統計(statistical learning theory) & 計算(computational learning theory) -> 產生 **generalization bounds** - model 的複雜度 - model 在 traning data 上的表現 - 機器學習成效主要在於 **經驗(empirical evaluation)** ## 如何建立 model ,預測未知的 data - **training set** - 訓練集 - 拿來訓練model - **test set** - 測試集 - 將上面測試好的 model 預測已知的資料,讓預測資料和實際資料做比對 > EX: 拿已知 data (知道實際結果),前半部當作訓練集,後半部當作測試集 ## 好的 Generalization 1. independently and identically (i.i.d) 獨立且相等 - 讓這些點點**獨立且相同**並分布在各處 - 目的: 讓點點不要互相影響,所有點點被選到的機率都相同 2. stationary distribution 靜止的分布情形 - 同一個 data set 的分布情形相同 - 訓練前&未知的資料分布是相同的 3. draw examples from partitions from the same distribution.