--- disqus: ierosodin --- # Bias > Organization contact [name= [ierosodin](ierosodin@gmail.com)] ###### tags: `machine learning` `學習筆記` ==[Back to Catalog](https://hackmd.io/@ierosodin/Machine_Learning)== 在前面的章節中,無論是計算 mean 或 variance,我們都是假設目前發生的事件就能代表整個母體,但是我們通常沒辦法得到一個和母體分布完全相同的樣本,所以我們只能用估計值來近似。 接下來我們就要來證明,當使用過去的計算方式求得 mean 和 variance 時,mean 與母體的分佈是相同的,但是 variance 卻有所差異,也就是存在 bias,必須要做修正。 ## Mean 對於抽樣樣本來說,${\mu_{MLE}\ =\ \widehat{\mu}\ =\ \frac{1}{n}\Sigma x}$ 而母體的 meam 為 ${\mu}$,variance 為 ${\sigma^2}$ 則 ${E(\widehat{\mu})\ =\ E(\frac{1}{n}\Sigma x)\ =\ \frac{1}{n}E(\Sigma x)\ =\ \frac{1}{n}n\mu\ =\ \mu}$ 而 ${Var(\widehat{\mu})\ =\ Var(\frac{1}{n}\Sigma x)\ =\ \frac{1}{n^2}Var(\Sigma x)\ =\ \frac{1}{n^2}\Sigma Var(x)\ =\ \frac{1}{n^2}n\sigma^2\ =\ \frac{\sigma^2}{n}}$ ## Variance 對於抽樣樣本來說,${\sigma^2_{MLE}\ =\ \widehat{\sigma}^2\ =\ \frac{1}{n}\Sigma (x-\widehat{\mu})^2}$ 而母體的 meam 為 ${\mu}$,variance 為 ${\sigma^2}$ ${\begin{split}則\ E(\sigma^2_{MLE})\ &=\ E(\frac{1}{n}\Sigma (x-\widehat{\mu})^2)\ =\ \frac{1}{n}E(\Sigma (x^2\ -\ 2x\widehat{\mu}\ +\ \widehat{\mu}^2)) \\ &=\ \frac{1}{n}E(\Sigma x^2\ -\ 2\widehat{\mu}\Sigma x\ +\ \Sigma\widehat{\mu}^2)\ =\ \frac{1}{n}E(\Sigma x^2\ -\ 2\widehat{\mu}n\widehat{\mu}\ +\ n\widehat{\mu}^2) \\ &=\ \frac{1}{n}E(\Sigma x^2\ -\ n\widehat{\mu}^2)\ =\ E(x^2)\ -\ E(\widehat{\mu}^2)\end{split}}$ ${又已知\ Var(x)\ =\ E(x^2)\ -\ E^2(x)\ \Rightarrow\ E(x^2)\ =\ Var(x)\ +\ E^2(x)\ =\ \sigma^2\ +\ \mu^2}$ 同理,${E(\widehat{\mu}^2)\ =\ Var(\widehat{\mu})\ -\ E^2(\widehat{\mu})\ =\ \frac{\sigma^2}{n}\ +\ \mu^2}$ 所以,${E(\sigma^2_{MLE})\ =\ \sigma^2\ +\ \mu^2\ -\ \frac{\sigma^2}{n}\ -\ \mu^2\ =\ \sigma^2\ -\ \frac{\sigma^2}{n}}$ 存在 bias!!! <P style='page-break-after:always'></P> ## 修正 Variance ${\sigma^{*2}\ =\ \frac{1}{n-1}\Sigma (x-\widehat{\mu})^2}$ ${\begin{split}則\ E(\sigma^2_{MLE})\ &=\ E(\frac{1}{n-1}\Sigma (x-\widehat{\mu})^2)\ =\ \frac{1}{n-1}E(\Sigma (x^2\ -\ 2x\widehat{\mu}\ +\ \widehat{\mu}^2)) \\ &=\ \frac{1}{n-1}E(\Sigma x^2\ -\ 2\widehat{\mu}\Sigma x\ +\ \Sigma\widehat{\mu}^2)\ =\ \frac{1}{n-1}E(\Sigma x^2\ -\ 2\widehat{\mu}n\widehat{\mu}\ +\ n\widehat{\mu}^2) \\ &=\ \frac{1}{n-1}E(\Sigma x^2\ -\ n\widehat{\mu}^2)\ =\ \frac{1}{n-1}(nE(x^2)\ -\ nE(\widehat{\mu}^2)) \\ &=\ \frac{1}{n-1}(n\sigma^2\ +\ n\mu^2\ -\ n\frac{\sigma^2}{n}\ -\ n\mu^2)\ =\ \sigma^2\end{split}}$ ## Bias vs. Variance 在前一章 Fully Bayesian 中,我們可以發現,當起始的 a 設得越小時,也就是 variance 很小,往往會導致結果與實際相差甚遠,也就是 bias 很大,這種情況我們稱之為 underfitting。 然而當我們將 variance 設很大時,雖然很容易且快速的接近真實結果(bias 小),但會發現每次的更新都會大幅度的改變,也就是所謂的 overfitting。 ![](https://i.imgur.com/NON6Xhm.png) 也可以從前面的 rLSE 來看,當我們將 ${\lambda}$ 增大時,可以避免 overfitting 的發生,也就是降低了 variance,但卻有可能導致無法得到正確的答案(bias 大意味著最後的 error 也大)。 ![](https://i.imgur.com/IN4e3FQ.png)