Theory - HackMD

# Theory - 希望使用一組Sampling Data training得到參數和Loss，可以和使用Universe Data training得到的參數和Loss能相近 ![](https://i.imgur.com/ehlh2aq.png) - 模型的複雜程度(Model complexity)是指一個function集合內可選擇的數量多寡 ![](https://i.imgur.com/KHvuwWQ.png) - independently & identically distributed(i.i.d)是一個對資料集的理想假設。假設(每次作sampling時資料取出的資料都是獨立)而且(資料集的分布都維持固定) - Hoeffding's Inequality意味取得差的訓練資料的機率會有一個上界2exp(-2N$\epsilon^2$)，前提是Loss的範圍界在[0,1] - 根據Hoeffding's Inequeality，訓練資料數目越多或Model複雜度越小，sample到壞的資料機率會降低 ![](https://i.imgur.com/z6oKWVU.png) - 根據Hoeffding's Inequeality，在給定抽樣機率下，可以估計所需training資料數目 ![](https://i.imgur.com/XnyDOgK.png) - VC-dimension是用來計算參數連續的模型的複雜程度 - 過簡單的model可選擇的function有限，即使理想和實際的Loss比較相近，但用Universe Data training出的結果Loss卻會比較大 ![](https://i.imgur.com/IV9Tdo1.png)