# 4.3 Evaluating an Estimator: Bias and Variance ## mean square error 令 $X$ 為一個從某個 population 取出的 sample,且這個 population 由一個 parameter $\theta$ 定義。此外,我們再令一個: :::info \begin{equation} d = d(X) \end{equation} ::: 作為去++估計 $\theta$ 值的 estimator++。 > - $d$ 只是為了下方式子出現較多次 $d(X)$ 用到時簡寫方便。 > > $d()$ 是一個 estimator,也就是說它是一個(用來估計 parameter 值的)function。把我們的 sample 作為 input 代入以後,會得到某個估計出來的 $\theta$ 值。 $\rightarrow$ 為了要去評估 $d$ 到底能不能有效的估計 $\theta$,很直覺的,我們就去計算它所 output 的結果和真正的 parameter $\theta$ 之間的差距: \begin{equation} (d(X) - \theta)^2 \end{equation} > 取平方是因為我們只在乎差距有多大,而不考慮到底 $d(X)$ 是比 $\theta$ 大還是小。 算出來這個值以後,我們要記得的是因為 $d(X)$ 的值不僅僅代表了 $d()$ 這個 function 的特性,也++會受到我們的 sample 怎麼取影響++。因此,我們需要去對所有可能取得的 $X$ 算出 $d(X)$ 再++取平均++。 這個平均上 $d(X)$ 和 $\theta$ 之間的差距,我們稱作 <font color = "snake">mean square error of the estimator $d$</font> ==$r(d,\theta)$==,定義為: :::info \begin{equation} r(d,\theta) = E[(d(X) - \theta)^2] \end{equation} ::: > 定義也很直觀,就是如我們上方說明的,我們對這個差距去取 expected value,也就是求它的平均。 ### 另一種表示方式: var + bias 我們可以把 mean square error 用下方的式子表示: ![image](https://hackmd.io/_uploads/ryVAd9zU0.png) > - $d$ 為 $d(X)$ 的簡寫 > > 這個式子中的兩項意義分別是: > 1. ==$Var(d)$==:平均來說我們取各個不同的 sample $X_i$,所產生的對 parameter 的估計值 $d(X_i) = d_i$,會在 expected value 周遭有多大的變化。 >> 英文原文更清楚: >> variance measures ++how much on average $d_i$ vary around the expected value++ > > 2. ==$(b_\theta(d))^2$==:這個 bias 用來衡量我們估計出來的各個 $d(X_i) = d_i$ 平均來說和真正的 parameter $\theta$ 之間的差距。 >> 不過我們也不能說 $(b_\theta(d))^2$ 直接代表了平均差距,因為我們有平方,只能說它能夠拿來「衡量差距」。 用圖來表示: ![image](https://hackmd.io/_uploads/S1JQZjfI0.png) 至於為什麼 mean square error 可以拆成這兩項相加,推導如下: ![image](https://hackmd.io/_uploads/B1T2JozIC.png) ## bias 那麼我們再額外定義 $d$ 這個 estimator 的 <font color = "snake">bias</font>: \begin{equation} b_\theta(d) = E[d(X)] - \theta \end{equation} ## unbiased estimator :::info 如果對所有的 $\theta$,都滿足 $b_\theta(d) = 0$,我們就稱 $d$ 為 <font color = "blue">unbiased estimator</font>。 ::: > 關於 unbiased estimator 的更多說明可參考本章後方的筆記「補充:Maximum Likelihood Estimation」。 舉例來說: ### sample mean: unbiased ![image](https://hackmd.io/_uploads/H15ME8W8R.png) unbiased estimator 代表的意義也就是: 儘管當我們只取特定一個 sample 時,這個 sample 的平均值 $m$ 可能會跟我們整個 population 的 mean $\mu$ 不同,但是如果我們取很多個 samples $X_i$,然後去算這些 samples 各自的平均值 $m_i = m(X_i)$,那麼隨著我們 sample 的數量增加,$m_i$ 的平均值就會越來越接近我們的 population mean $\mu$。 > 也就是說++當 sample 的數目夠多時++(<font color = "red">而非一個 sample 中取更多的 data points</font>),這些 samples 估計 $\theta$ 得出來的值的平均就會收斂到真正的 mean $\mu$。 > > $\rightarrow$ 在實際應用的例子裡,意義就是儘管我們知道沒辦法取一次 sample 就求得真正的 parameter 值,但是透過取更多的 samples,平均上我們求出來的值就會是正確的。 再詳細一點解釋: ![image](https://hackmd.io/_uploads/ry-UeHWL0.png) > 可以想像一個 population,有著 $99\%$ 的 data 值都是 $0$,只有剩下 $1\%$ 的 data 是 $\pm10000$。 > > 儘管整體來看 $\mu = 0$,但因為 sampling variability,有可能我們取 sample 時剛好都取到 $10000$,使得某個 $m_i = 10000$;或都取到 $-10000$,使得某個 $m_j = -10000$。 > > 上面我們在做的事就是盡可能去取更多次的 samples,使得這種都取到那 $1\%$ 的機率變小。當然還是有可能有某個 $m_i = 10000$,但在我們算 $\frac{\sum_{i=1}^k{m_i}}{k}$ 時,絕大多數的 $m_i$ 可能都是 $0$,就會使得我們的 $\frac{\sum_{i=1}^k{m_i}}{k}$ 很接近真正的 mean $\mu = 0$。 > > $\rightarrow$ 簡而言之就是++透過取大量的 samples 把取到極端值的那些 samples 的影響力降低++。 ### sample variance 先說結論,當 sample variance 定義為: \begin{equation} s^2 = (\frac{1}{n-1})\sum_{i=1}^n(x_i - \bar{x})^2 \end{equation} 時,$s^2$ 是 unbiased estimator of $\sigma^2$。 > 這是 $s^2$ 通常使用的定義方式。 但如果是像課本一樣將 sample variance 定義為: \begin{equation} s^2 = (\frac{1}{n})\sum_{i=1}^n(x_i - \bar{x})^2 \end{equation} 則 $s^2$ 是 biased estimator of $\sigma^2$。 也就是說: :::warning 當分母為 $n-1$ 時為 unbiased,但分母為 $n$ 時為 biased。 ::: > 關於分母為什麼要選擇用 $n-1$ 可參考筆記 $A.2$ 部分的「補充:Bessel's correction」 #### 證明 以下為用 $s^2$ 通常的定義證明它是 unbiased: ![image](https://hackmd.io/_uploads/r1_MWOWUR.png) ## consistent estimator 再進一步去討論 sample mean $m$: 前面我們是在講取很多個 sample,算很多個 $m_i$,那如果我們只取一個 sample 來計算它的 $m$,但這個 sample 裡的 data points 數量很多時,會發生什麼事呢? 如果我們不斷地收集新的 data 來增加我們的 sample 大小,最後取到一個 sample 裡有 $N$ 個 data points,而這個 $N$ 如果趨近於 $\infty$,也就是我們取到無限多個 data points,那會有什麼樣的事情發生? 下方的 consistent estimator 就是在定義當 sample 的大小「成長到無限大」時的一種特性: :::info $m$ 是個 <font color = "blue">consistent estimator</font>,因為它滿足: \begin{equation} Var(m) \rightarrow 0 \quad \text{as} \quad N \rightarrow \infty \end{equation} ::: > - 這是 consistent estimator 的定義,剛好 sample mean $m$ 滿足它的條件。 > > 可以解讀成: > 當我們的 data points increases indefinitely,所得到的結果就會 converges in probability to $\theta$。 >> converges in probability to $\theta$ 的意思是,我們的 estimator 任意逼近 $\theta$ 的機率會收斂到 $1$。 > > 直觀意義: > estimates 的 distribution 會越來越集中在 parameter $\theta$ 真正的值周遭。 為什麼 $m$(sample mean)是一個 consistent estimator,簡單證明如下: ![image](https://hackmd.io/_uploads/SydIFN-80.png) # 參考資料 - wiki: [Consistent estimator](https://en.wikipedia.org/wiki/Consistent_estimator)