# 統計學筆記 - 抽樣誤差的觀念極簡解說 ## 前言 恰逢選舉的民調時刻,調查的抽樣誤差成為一個熱門的討論議題。其實抽樣誤差的觀念不只是運用在民意調查,我們在做產品或服務的市場調查、滿意度調查,或者是分析產品的留存率 (Retention)、點擊率 (CTR) 這些數值時,都需要有抽樣誤差的基礎知識,才可以有效解讀資訊。 要充分理解「抽樣誤差」,會需要理解一些統計學以及機率的觀念,我認為可以從這個路徑來理解抽樣的誤差範圍是怎樣估算出來的: 1. 機率與二項分配 2. Z分數 3. 信賴區間 接下來我盡量用沒修過統計學也聽得懂的語言,來解釋一下抽樣誤差的觀念。 如果你有基礎的統計學知識,也可以當作一種複習~ 那我們開始吧! ## 1. 機率與二項分配 特定事件發生的機率可以寫作 $\frac{X}{n}$,其中 $X$ 為特定結果發生次數,而 $n$ 則為試驗的總數。這裡有些機率論的專有名詞,我們可以用躑硬幣來當作例子來解釋: - 我們觀察硬幣出現正面的結果 (outcome) 次數 $X$ - 總共躑了 $n$ 次硬幣(在機率理論中,我們稱為試驗 Trials) - 「躑硬幣出現為正面」這個事件 (event) 發生的機率為 $\frac{X}{n}$ 接著我們用一個機率符號 $\hat{P}$ (讀做 p hat) 來代表事件發生機率 $\frac{X}{n}$。 比例其實跟上述的機率事件是同一事情。 > 舉例來說,我們得知一位候選人 A 的民調支持度為 20%(每100位選民中,有 20位支持 A 候選人),可以視為於投 100 次硬幣中,有 20 次得到正面的結果。 因為是否支持、是否為正面,都是二分的結果,這種機率的結構(或是正式一點來說,就是機率分配)稱為[二項分配 Binomial distribution](https://zh.wikipedia.org/zh-tw/%E4%BA%8C%E9%A0%85%E5%BC%8F%E5%88%86%E5%B8%83):每一次的試驗,都只有 2 種結果。 ### 平均數與變異數 這樣的機率分配,只要我們得知 2 個資訊,就可以推算出這個機率分配的平均數以及變異數,這分別是:(1) 試驗總次數 $n$、 (2) 試驗成功的機率 $p$。我們可以得出: 1. 平均數(也就是期望值 $E(X)$ )為 $np$ 2. 變異數 $Var(X)$ 為 $np(1-p)$ 上面的數學符號可能有點複雜,我們回顧一下硬幣的案例:如果說我想知道躑了 50 次硬幣後,我會得到多少次正面的結果,我可以將這問題表示為: 1. 假設這是一枚公正的硬幣,也就是正反面的機率都是 $p = 0.5$ 2. 我們躑了 50 次,可以寫作 $n = 50$ 3. 我們希望得知正面的次數,其實就是想知道這 50 次投擲的期望值 $E(X)$ 4. 按照公式,我們可以知道這 50 次的正面預期次數為 $E(X) = np = 50 \times 0.5 = 25$ 5. 同時也知道這 50 次投擲的機率分佈中,變異數為 $np(1-p) = 50 \times 0.5 \times 0.5 = 12.5$ 我們得知上述的資訊,對於我們理解統計誤差的幫助在於: > 要計算統計誤差(或精確來說,是特定統計值的信賴區間),恰好需要期望值(平均值)與變異數這兩個關鍵資訊。 > ## 2. Z 分數 在計算統計誤差之前,我們需要有統計檢定中的 Z分配 的基礎觀念: :::warning ❗ 這裡我略過很多觀念。這裡精確來說是「抽樣分配」之下的 Z 分數計算方式。至於什麼是抽樣分配…這我們另外找時間做一集說明。 ::: </aside> 1. Z分配是一種由 Z 分數所形成的機率分配。 2. 每一個值都可以藉由換算,來得知 Z 分數。這換算的公式為: $$ Z = \frac{\bar{X} - \mu}{SE} $$ - 這裡又出現專有名詞 $SE$ ,代表 Standard Error 標準誤,我們可以把這理解成在這種特殊分配下的「標準差」。 - 標準誤的計算公式 $SE = \frac{S}{\sqrt{n}}$,其中 S 為機率分配的標準差,而 n 為這次抽樣的樣本數。 ## 3. 信賴區間 有了 Z 分數這個重要的磚塊,我們就可以進一步計算出特定的統計值(也就是我們關心的,比例)的信賴區間了。 我們這時先把上面的 Z分數公式,用計算比例的代號來取代: $$ Z = \frac{\bar{X}- \mu}{SE} = \frac{\hat{p} - p}{SE} $$ - 其中 $\hat{p}$ 是這次的抽樣結果計算出來的比例數值 - 例如,某媒體的民調結果是 30% 的支持度。 - 而 $p$ (沒帽子的) 則是真實、母體的比例數值 - 例如,全台灣進行投票後,候選人 A 的得票率為 $p$。 我們可以透過移項,把公式先簡化成: $$ Z \times SE = \hat{p} - p $$ 讓我們用物理上的直觀來理解這公式: - $\hat{p} - p$ ,代表 $\hat{p}$ 與 $p$ 之間的距離。 - 而這樣的距離,可以表示為標準誤的某一個倍數 Z 來表達,舉例來說,如果 $Z=1$, 代表這之間的距離為 1倍的標準誤。 信賴區間的計算,主要會經由以下步驟: :::warning ❗ 這裡我省略了信心水準的觀念介紹。 ::: 1. 設定信心水準,常見的設定為 95% 的信心水準 2. 以 95% 的信心水準之下,可以直接經由 Z分配,得知 Z分數為 $\pm 1.96$ 因此我們可以將比例的公式表示為: $$ p = \hat{p} \pm1.96 \times SE $$ 直觀上來說,就是「真實的比例 $p$」,是抽樣的比例數值 $\hat{p}$ 分別往上、往下多出一段範圍。 接下來就是最後的關鍵問題: > $SE$ 標準誤該怎麼計算? > 簡單來說,二項分配的標準誤可以直接套公式: $$ SE = \sqrt{\frac{p(1-p)}{n}} $$ - 備註:如果說你對於這公式怎麼來的感到好奇,我們可以從以下步驟來推導: 1. 標準誤其實就是抽樣分配的標準差,我們可以用標準差來理解。 2. 標準差是變異數的平方根, $SE = \sqrt{Var}$ 3. 從二項分配的公式,我們可以知道 $Var(X) = np(1-p)$ → 如果忘記可以[回憶上面此處](#平均數與變異數) 4. ❗ 但這裡要注意!我們此時要計算的變異數是 $Var(p)$,因此我們可以把公式改寫: $$ Var(p) = Var(\frac{X}{n}) = \frac{1}{n^2}Var(X) = \frac{1}{n^2} np(1-p) = \frac{p(1-p)}{n} $$ 5. 所以我們就可以得出 $SE = \sqrt{Var(p)} = \sqrt{\frac{p(1-p)}{n}}$ 這個結果了。 最後我們可以得到完整的比例的信賴區間公式為: $$ p = \hat{p} \pm1.96 \times \sqrt{\frac{p(1-p)}{n}} $$ ## 同場加映:怎麼計算合適的樣本數? 在民意調查中的慣例,我們可以接受: 1. 在 95% 的信心水準之下(也就是 Z分數為 1.96) 2. 誤差範圍(精確來說為信賴區間)為 $\pm 3\%$ 設定好這些參數後,我們就可以從公式來回推樣本數 $n$ 需要有多少了。 $$ 0.03 = 1.96 \times \sqrt{\frac{p(1-p)}{n}} $$ 但問題來了,我完全不知道 $p$ ,是要怎麼計算 n 呢? 這時候需要「算幾不等式」的支援 (AM-GM inequality)  所以我們可以知道: $$ \sqrt{p(1-p)} \le \frac{p + 1 - p}{2} $$ 所以可以知道 $p(1-p) \le 0.25$ ,因此我們就直接以 0.25 帶入公式啦。可以算出 $$ n \le 1067.11 $$ 也就是說,當 $n = 1068$ 的時候,就可以確保誤差範圍小於 $\pm 3 \%$。 這就是為什麼我們看到很多民意調查的樣本數設定為 1068 人。 --- ## 結語 其實民意與市場調查中簡單幾個字帶過的「95%信心水準,3% 的誤差範圍」,需要理解二項機率分配、抽樣分配、信賴區間等統計觀念,才能夠正確解讀。這樣高的基礎知識門檻,也難怪一般民眾很容易被政治人物唬弄過去了。 ## 延伸參考資料 - 林澤民老師的[《**什麼是抽樣誤差?為何外國媒體報導的與老師教的不一樣?**》](https://pansci.asia/archives/194869)有針對抽樣誤差的回報細節作更加深度的解析。 - [《**對比式選舉民調的錯誤解讀》林澤民**](https://pansci.asia/archives/80486) > 根據此一公式,兩個百分比差距的誤差一定大於單一百分比的抽樣誤差。 > - [《別人在過Thanksgiving,我在算統計誤差》](https://www.facebook.com/permalink.php?story_fbid=pfbid02a3gGenCNdCMrYeofh4pgwA2gPHB8SeLG7toAWXHTww6tU4B873McpxAhSrGubUNol&id=100010576984324)by ****[Khiong Ng](https://www.facebook.com/profile.php?id=100010576984324&__cft__[0]=AZUxy7oC-EYzngb4-F-RUXO7lPn78lAXwtn3j4yk3i_6xlYBMCyOLtfDPAEAt6ahm5KBTmxTEkOgdlYvXuNxR42iPKKpJmZvk0oQ1ouyuDq0vXJ-vpqyLxQObBX0-zx56qqPat39Hn7-iZh56SQkl_Ej&__tn__=-UC%2CP-R)**** 這篇文章相當詳細地說明單純比例、對比式民調的詳細計算方式。
×
Sign in
Email
Password
Forgot password
or
Sign in via Google
Sign in via Facebook
Sign in via X(Twitter)
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
Continue with a different method
New to HackMD?
Sign up
By signing in, you agree to our
terms of service
.