# 統計學筆記 - 抽樣誤差的觀念極簡解說 ## 前言 恰逢選舉的民調時刻,調查的抽樣誤差成為一個熱門的討論議題。其實抽樣誤差的觀念不只是運用在民意調查,我們在做產品或服務的市場調查、滿意度調查,或者是分析產品的留存率 (Retention)、點擊率 (CTR) 這些數值時,都需要有抽樣誤差的基礎知識,才可以有效解讀資訊。 要充分理解「抽樣誤差」,會需要理解一些統計學以及機率的觀念,我認為可以從這個路徑來理解抽樣的誤差範圍是怎樣估算出來的: 1. 機率與二項分配 2. Z分數 3. 信賴區間 接下來我盡量用沒修過統計學也聽得懂的語言,來解釋一下抽樣誤差的觀念。 如果你有基礎的統計學知識,也可以當作一種複習~ 那我們開始吧! ## 1. 機率與二項分配 特定事件發生的機率可以寫作 $\frac{X}{n}$,其中 $X$ 為特定結果發生次數,而 $n$ 則為試驗的總數。這裡有些機率論的專有名詞,我們可以用躑硬幣來當作例子來解釋: - 我們觀察硬幣出現正面的結果 (outcome) 次數 $X$ - 總共躑了 $n$ 次硬幣(在機率理論中,我們稱為試驗 Trials) - 「躑硬幣出現為正面」這個事件 (event) 發生的機率為 $\frac{X}{n}$ 接著我們用一個機率符號 $\hat{P}$ (讀做 p hat) 來代表事件發生機率 $\frac{X}{n}$。 比例其實跟上述的機率事件是同一事情。 > 舉例來說,我們得知一位候選人 A 的民調支持度為 20%(每100位選民中,有 20位支持 A 候選人),可以視為於投 100 次硬幣中,有 20 次得到正面的結果。 因為是否支持、是否為正面,都是二分的結果,這種機率的結構(或是正式一點來說,就是機率分配)稱為[二項分配 Binomial distribution](https://zh.wikipedia.org/zh-tw/%E4%BA%8C%E9%A0%85%E5%BC%8F%E5%88%86%E5%B8%83):每一次的試驗,都只有 2 種結果。 ### 平均數與變異數 這樣的機率分配,只要我們得知 2 個資訊,就可以推算出這個機率分配的平均數以及變異數,這分別是:(1) 試驗總次數 $n$、 (2) 試驗成功的機率 $p$。我們可以得出: 1. 平均數(也就是期望值 $E(X)$ )為 $np$ 2. 變異數 $Var(X)$ 為 $np(1-p)$ 上面的數學符號可能有點複雜,我們回顧一下硬幣的案例:如果說我想知道躑了 50 次硬幣後,我會得到多少次正面的結果,我可以將這問題表示為: 1. 假設這是一枚公正的硬幣,也就是正反面的機率都是 $p = 0.5$ 2. 我們躑了 50 次,可以寫作 $n = 50$ 3. 我們希望得知正面的次數,其實就是想知道這 50 次投擲的期望值 $E(X)$ 4. 按照公式,我們可以知道這 50 次的正面預期次數為 $E(X) = np = 50 \times 0.5 = 25$ 5. 同時也知道這 50 次投擲的機率分佈中,變異數為 $np(1-p) = 50 \times 0.5 \times 0.5 = 12.5$ 我們得知上述的資訊,對於我們理解統計誤差的幫助在於: > 要計算統計誤差(或精確來說,是特定統計值的信賴區間),恰好需要期望值(平均值)與變異數這兩個關鍵資訊。 > ## 2. Z 分數 在計算統計誤差之前,我們需要有統計檢定中的 Z分配 的基礎觀念: :::warning ❗ 這裡我略過很多觀念。這裡精確來說是「抽樣分配」之下的 Z 分數計算方式。至於什麼是抽樣分配…這我們另外找時間做一集說明。 ::: </aside> 1. Z分配是一種由 Z 分數所形成的機率分配。 2. 每一個值都可以藉由換算,來得知 Z 分數。這換算的公式為: $$ Z = \frac{\bar{X} - \mu}{SE} $$ - 這裡又出現專有名詞 $SE$ ,代表 Standard Error 標準誤,我們可以把這理解成在這種特殊分配下的「標準差」。 - 標準誤的計算公式 $SE = \frac{S}{\sqrt{n}}$,其中 S 為機率分配的標準差,而 n 為這次抽樣的樣本數。 ## 3. 信賴區間 有了 Z 分數這個重要的磚塊,我們就可以進一步計算出特定的統計值(也就是我們關心的,比例)的信賴區間了。 我們這時先把上面的 Z分數公式,用計算比例的代號來取代: $$ Z = \frac{\bar{X}- \mu}{SE} = \frac{\hat{p} - p}{SE} $$ - 其中 $\hat{p}$ 是這次的抽樣結果計算出來的比例數值 - 例如,某媒體的民調結果是 30% 的支持度。 - 而 $p$ (沒帽子的) 則是真實、母體的比例數值 - 例如,全台灣進行投票後,候選人 A 的得票率為 $p$。 我們可以透過移項,把公式先簡化成: $$ Z \times SE = \hat{p} - p $$ 讓我們用物理上的直觀來理解這公式: - $\hat{p} - p$ ,代表 $\hat{p}$ 與 $p$ 之間的距離。 - 而這樣的距離,可以表示為標準誤的某一個倍數 Z 來表達,舉例來說,如果 $Z=1$, 代表這之間的距離為 1倍的標準誤。 信賴區間的計算,主要會經由以下步驟: :::warning ❗ 這裡我省略了信心水準的觀念介紹。 ::: 1. 設定信心水準,常見的設定為 95% 的信心水準 2. 以 95% 的信心水準之下,可以直接經由 Z分配,得知 Z分數為 $\pm 1.96$ 因此我們可以將比例的公式表示為: $$ p = \hat{p} \pm1.96 \times SE $$ 直觀上來說,就是「真實的比例 $p$」,是抽樣的比例數值 $\hat{p}$ 分別往上、往下多出一段範圍。 接下來就是最後的關鍵問題: > $SE$ 標準誤該怎麼計算? > 簡單來說,二項分配的標準誤可以直接套公式: $$ SE = \sqrt{\frac{p(1-p)}{n}} $$ - 備註:如果說你對於這公式怎麼來的感到好奇,我們可以從以下步驟來推導: 1. 標準誤其實就是抽樣分配的標準差,我們可以用標準差來理解。 2. 標準差是變異數的平方根, $SE = \sqrt{Var}$ 3. 從二項分配的公式,我們可以知道 $Var(X) = np(1-p)$ → 如果忘記可以[回憶上面此處](#平均數與變異數) 4. ❗ 但這裡要注意!我們此時要計算的變異數是 $Var(p)$,因此我們可以把公式改寫: $$ Var(p) = Var(\frac{X}{n}) = \frac{1}{n^2}Var(X) = \frac{1}{n^2} np(1-p) = \frac{p(1-p)}{n} $$ 5. 所以我們就可以得出 $SE = \sqrt{Var(p)} = \sqrt{\frac{p(1-p)}{n}}$ 這個結果了。 最後我們可以得到完整的比例的信賴區間公式為: $$ p = \hat{p} \pm1.96 \times \sqrt{\frac{p(1-p)}{n}} $$ ## 同場加映:怎麼計算合適的樣本數? 在民意調查中的慣例,我們可以接受: 1. 在 95% 的信心水準之下(也就是 Z分數為 1.96) 2. 誤差範圍(精確來說為信賴區間)為 $\pm 3\%$ 設定好這些參數後,我們就可以從公式來回推樣本數 $n$ 需要有多少了。 $$ 0.03 = 1.96 \times \sqrt{\frac{p(1-p)}{n}} $$ 但問題來了,我完全不知道 $p$ ,是要怎麼計算 n 呢? 這時候需要「算幾不等式」的支援 (AM-GM inequality)  所以我們可以知道: $$ \sqrt{p(1-p)} \le \frac{p + 1 - p}{2} $$ 所以可以知道 $p(1-p) \le 0.25$ ,因此我們就直接以 0.25 帶入公式啦。可以算出 $$ n \le 1067.11 $$ 也就是說,當 $n = 1068$ 的時候,就可以確保誤差範圍小於 $\pm 3 \%$。 這就是為什麼我們看到很多民意調查的樣本數設定為 1068 人。 --- ## 結語 其實民意與市場調查中簡單幾個字帶過的「95%信心水準,3% 的誤差範圍」,需要理解二項機率分配、抽樣分配、信賴區間等統計觀念,才能夠正確解讀。這樣高的基礎知識門檻,也難怪一般民眾很容易被政治人物唬弄過去了。 ## 延伸參考資料 - 林澤民老師的[《**什麼是抽樣誤差?為何外國媒體報導的與老師教的不一樣?**》](https://pansci.asia/archives/194869)有針對抽樣誤差的回報細節作更加深度的解析。 - [《**對比式選舉民調的錯誤解讀》林澤民**](https://pansci.asia/archives/80486) > 根據此一公式,兩個百分比差距的誤差一定大於單一百分比的抽樣誤差。 > - [《別人在過Thanksgiving,我在算統計誤差》](https://www.facebook.com/permalink.php?story_fbid=pfbid02a3gGenCNdCMrYeofh4pgwA2gPHB8SeLG7toAWXHTww6tU4B873McpxAhSrGubUNol&id=100010576984324)by ****[Khiong Ng](https://www.facebook.com/profile.php?id=100010576984324&__cft__[0]=AZUxy7oC-EYzngb4-F-RUXO7lPn78lAXwtn3j4yk3i_6xlYBMCyOLtfDPAEAt6ahm5KBTmxTEkOgdlYvXuNxR42iPKKpJmZvk0oQ1ouyuDq0vXJ-vpqyLxQObBX0-zx56qqPat39Hn7-iZh56SQkl_Ej&__tn__=-UC%2CP-R)**** 這篇文章相當詳細地說明單純比例、對比式民調的詳細計算方式。
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up