抽樣誤差的觀念極簡解說

# 統計學筆記 - 抽樣誤差的觀念極簡解說 ## 前言恰逢選舉的民調時刻，調查的抽樣誤差成為一個熱門的討論議題。其實抽樣誤差的觀念不只是運用在民意調查，我們在做產品或服務的市場調查、滿意度調查，或者是分析產品的留存率 (Retention)、點擊率 (CTR) 這些數值時，都需要有抽樣誤差的基礎知識，才可以有效解讀資訊。要充分理解「抽樣誤差」，會需要理解一些統計學以及機率的觀念，我認為可以從這個路徑來理解抽樣的誤差範圍是怎樣估算出來的： 1. 機率與二項分配 2. Z分數 3. 信賴區間接下來我盡量用沒修過統計學也聽得懂的語言，來解釋一下抽樣誤差的觀念。如果你有基礎的統計學知識，也可以當作一種複習～那我們開始吧！ ## 1. 機率與二項分配特定事件發生的機率可以寫作 $\frac{X}{n}$，其中 $X$ 為特定結果發生次數，而 $n$ 則為試驗的總數。這裡有些機率論的專有名詞，我們可以用躑硬幣來當作例子來解釋： - 我們觀察硬幣出現正面的結果 (outcome) 次數 $X$ - 總共躑了 $n$ 次硬幣（在機率理論中，我們稱為試驗 Trials) - 「躑硬幣出現為正面」這個事件 (event) 發生的機率為 $\frac{X}{n}$ 接著我們用一個機率符號 $\hat{P}$ (讀做 p hat) 來代表事件發生機率 $\frac{X}{n}$。比例其實跟上述的機率事件是同一事情。 > 舉例來說，我們得知一位候選人 A 的民調支持度為 20%（每100位選民中，有 20位支持 A 候選人），可以視為於投 100 次硬幣中，有 20 次得到正面的結果。因為是否支持、是否為正面，都是二分的結果，這種機率的結構（或是正式一點來說，就是機率分配）稱為[二項分配 Binomial distribution](https://zh.wikipedia.org/zh-tw/%E4%BA%8C%E9%A0%85%E5%BC%8F%E5%88%86%E5%B8%83)：每一次的試驗，都只有 2 種結果。 ### 平均數與變異數這樣的機率分配，只要我們得知 2 個資訊，就可以推算出這個機率分配的平均數以及變異數，這分別是：(1) 試驗總次數 $n$、 (2) 試驗成功的機率 $p$。我們可以得出： 1. 平均數（也就是期望值 $E(X)$ ）為 $np$ 2. 變異數 $Var(X)$ 為 $np(1-p)$ 上面的數學符號可能有點複雜，我們回顧一下硬幣的案例：如果說我想知道躑了 50 次硬幣後，我會得到多少次正面的結果，我可以將這問題表示為： 1. 假設這是一枚公正的硬幣，也就是正反面的機率都是 $p = 0.5$ 2. 我們躑了 50 次，可以寫作 $n = 50$ 3. 我們希望得知正面的次數，其實就是想知道這 50 次投擲的期望值 $E(X)$ 4. 按照公式，我們可以知道這 50 次的正面預期次數為 $E(X) = np = 50 \times 0.5 = 25$ 5. 同時也知道這 50 次投擲的機率分佈中，變異數為 $np(1-p) = 50 \times 0.5 \times 0.5 = 12.5$ 我們得知上述的資訊，對於我們理解統計誤差的幫助在於： > 要計算統計誤差（或精確來說，是特定統計值的信賴區間），恰好需要期望值（平均值）與變異數這兩個關鍵資訊。 > ## 2. Z 分數在計算統計誤差之前，我們需要有統計檢定中的 Z分配的基礎觀念： :::warning ❗ 這裡我略過很多觀念。這裡精確來說是「抽樣分配」之下的 Z 分數計算方式。至於什麼是抽樣分配…這我們另外找時間做一集說明。 ::: </aside> 1. Z分配是一種由 Z 分數所形成的機率分配。 2. 每一個值都可以藉由換算，來得知 Z 分數。這換算的公式為： $$ Z = \frac{\bar{X} - \mu}{SE} $$ - 這裡又出現專有名詞 $SE$ ，代表 Standard Error 標準誤，我們可以把這理解成在這種特殊分配下的「標準差」。 - 標準誤的計算公式 $SE = \frac{S}{\sqrt{n}}$，其中 S 為機率分配的標準差，而 n 為這次抽樣的樣本數。 ## 3. 信賴區間有了 Z 分數這個重要的磚塊，我們就可以進一步計算出特定的統計值（也就是我們關心的，比例）的信賴區間了。我們這時先把上面的 Z分數公式，用計算比例的代號來取代： $$ Z = \frac{\bar{X}- \mu}{SE} = \frac{\hat{p} - p}{SE} $$ - 其中 $\hat{p}$ 是這次的抽樣結果計算出來的比例數值 - 例如，某媒體的民調結果是 30% 的支持度。 - 而 $p$ (沒帽子的) 則是真實、母體的比例數值 - 例如，全台灣進行投票後，候選人 A 的得票率為 $p$。我們可以透過移項，把公式先簡化成： $$ Z \times SE = \hat{p} - p $$ 讓我們用物理上的直觀來理解這公式： - $\hat{p} - p$ ，代表 $\hat{p}$ 與 $p$ 之間的距離。 - 而這樣的距離，可以表示為標準誤的某一個倍數 Z 來表達，舉例來說，如果 $Z=1$, 代表這之間的距離為 1倍的標準誤。信賴區間的計算，主要會經由以下步驟： :::warning ❗ 這裡我省略了信心水準的觀念介紹。 ::: 1. 設定信心水準，常見的設定為 95% 的信心水準 2. 以 95% 的信心水準之下，可以直接經由 Z分配，得知 Z分數為 $\pm 1.96$ 因此我們可以將比例的公式表示為： $$ p = \hat{p} \pm1.96 \times SE $$ 直觀上來說，就是「真實的比例 $p$」，是抽樣的比例數值 $\hat{p}$ 分別往上、往下多出一段範圍。接下來就是最後的關鍵問題： > $SE$ 標準誤該怎麼計算？ > 簡單來說，二項分配的標準誤可以直接套公式： $$ SE = \sqrt{\frac{p(1-p)}{n}} $$ - 備註：如果說你對於這公式怎麼來的感到好奇，我們可以從以下步驟來推導： 1. 標準誤其實就是抽樣分配的標準差，我們可以用標準差來理解。 2. 標準差是變異數的平方根， $SE = \sqrt{Var}$ 3. 從二項分配的公式，我們可以知道 $Var(X) = np(1-p)$ → 如果忘記可以[回憶上面此處](#平均數與變異數) 4. ❗ 但這裡要注意！我們此時要計算的變異數是 $Var(p)$，因此我們可以把公式改寫： $$ Var(p) = Var(\frac{X}{n}) = \frac{1}{n^2}Var(X) = \frac{1}{n^2} np(1-p) = \frac{p(1-p)}{n} $$ 5. 所以我們就可以得出 $SE = \sqrt{Var(p)} = \sqrt{\frac{p(1-p)}{n}}$ 這個結果了。最後我們可以得到完整的比例的信賴區間公式為： $$ p = \hat{p} \pm1.96 \times \sqrt{\frac{p(1-p)}{n}} $$ ## 同場加映：怎麼計算合適的樣本數？在民意調查中的慣例，我們可以接受： 1. 在 95% 的信心水準之下（也就是 Z分數為 1.96) 2. 誤差範圍（精確來說為信賴區間）為 $\pm 3\%$ 設定好這些參數後，我們就可以從公式來回推樣本數 $n$ 需要有多少了。 $$ 0.03 = 1.96 \times \sqrt{\frac{p(1-p)}{n}} $$ 但問題來了，我完全不知道 $p$ ，是要怎麼計算 n 呢？這時候需要「算幾不等式」的支援（AM-GM inequality） ![截圖 2023-11-24 上午9.46.16](https://hackmd.io/_uploads/r1ZFltpEp.png) 所以我們可以知道： $$ \sqrt{p(1-p)} \le \frac{p + 1 - p}{2} $$ 所以可以知道 $p(1-p) \le 0.25$ ，因此我們就直接以 0.25 帶入公式啦。可以算出 $$ n \le 1067.11 $$ 也就是說，當 $n = 1068$ 的時候，就可以確保誤差範圍小於 $\pm 3 \%$。這就是為什麼我們看到很多民意調查的樣本數設定為 1068 人。 --- ## 結語其實民意與市場調查中簡單幾個字帶過的「95%信心水準，3% 的誤差範圍」，需要理解二項機率分配、抽樣分配、信賴區間等統計觀念，才能夠正確解讀。這樣高的基礎知識門檻，也難怪一般民眾很容易被政治人物唬弄過去了。 ## 延伸參考資料 - 林澤民老師的[《**什麼是抽樣誤差？為何外國媒體報導的與老師教的不一樣？**》](https://pansci.asia/archives/194869)有針對抽樣誤差的回報細節作更加深度的解析。 - [《**對比式選舉民調的錯誤解讀》林澤民**](https://pansci.asia/archives/80486) > 根據此一公式，兩個百分比差距的誤差一定大於單一百分比的抽樣誤差。 > - [《別人在過Thanksgiving，我在算統計誤差》](https://www.facebook.com/permalink.php?story_fbid=pfbid02a3gGenCNdCMrYeofh4pgwA2gPHB8SeLG7toAWXHTww6tU4B873McpxAhSrGubUNol&id=100010576984324)by ****[Khiong Ng](https://www.facebook.com/profile.php?id=100010576984324&__cft__[0]=AZUxy7oC-EYzngb4-F-RUXO7lPn78lAXwtn3j4yk3i_6xlYBMCyOLtfDPAEAt6ahm5KBTmxTEkOgdlYvXuNxR42iPKKpJmZvk0oQ1ouyuDq0vXJ-vpqyLxQObBX0-zx56qqPat39Hn7-iZh56SQkl_Ej&__tn__=-UC%2CP-R)**** 這篇文章相當詳細地說明單純比例、對比式民調的詳細計算方式。