{%hackmd /@Hipp0/Hippotumuxthem %} # 統計II ## 假設檢定 ### Bernoulli 試驗 #### 問題:硬幣是否公平? 假設 $p = 0.5$ ### 1. 點估計 $\hat{p}_{\text{MLE}} = \frac{1}{n} \sum x_i$ $x_1, x_2, \ldots, x_n \sim \text{Ber}(p)$ $x = 0$ 的概率是 $1 - p$,$x = 1$ 的概率是 $p$ ### 2. 置信區間 $\hat{p}_{\text{MLE}} \pm 1.96 \cdot \sqrt{\frac{\hat{p}_{\text{MLE}} (1 - \hat{p}_{\text{MLE}})}{n}}$ 誤差,pivotal 方法: $$ \frac{\hat{p} - p}{\sqrt{\frac{p(1-p)}{n}}} \sim N(0, 1) $$ ### 3. 假設檢定 $H_0: p = p_0 \quad \text{vs} \quad H_a: p \neq p_0 \quad (p_0 = 0.5)$ - $H_0$: 原假設 (null hypothesis) - $H_a$: 備選假設 (alternative hypothesis) 相對於 $\hat{p}$ 進行檢定 ### 解釋 #### 點估計 我們使用 $\hat{p}_{\text{MLE}} = \frac{1}{n} \sum x_i$ 作為 $p$ 的最大似然估計量 (MLE),這是樣本中成功次數的均值。 #### 置信區間 使用 $\hat{p}_{\text{MLE}} \pm 1.96 \cdot \sqrt{\frac{\hat{p}_{\text{MLE}} (1 - \hat{p}_{\text{MLE}})}{n}}$ 來構建 $p$ 的置信區間,這裡的 $1.96$ 是對應 $95\%$ 置信水平的標準正態分佈的臨界值。 #### 假設檢定 在假設檢定中,我們的目的是判斷樣本數據是否提供足夠的證據來拒絕原假設 $H_0$。這裡,我們檢驗硬幣是否公平,即 $p = 0.5$。 ## 目標: 找到一個好的檢驗統計量 ### 兩種可能的策略 $p = 0.5$ 1. $\hat{p} - p$ 2. $\hat{p}/p$ 如何衡量足夠接近? 我們需要一個臨界值 (critical value) $$ \left| \frac{\hat{p} - p_0}{\sqrt{\frac{p_0 (1 - p_0)}{n}}} \right| \sim N(0, 1) \quad \text{as} \quad n \to \infty $$ ### 決策規則 如果 $\left| \frac{\hat{p} - p_0}{\sqrt{\frac{\hat{p} (1 - \hat{p})}{n}}} \right| > 1.96$ 則 $\left( \hat{p} \pm 1.96 \cdot \sqrt{\frac{\hat{p} (1 - \hat{p})}{n}} \right)$ 不包含 $0.5$,拒絕 $H_0: p = 0.5$,即硬幣不公平 否則,我們未能拒絕 $H_0: p = 0.5$,即我們沒有足夠的證據說明硬幣不公平 ### ML 預期值的第二次期中考 $H_0: \mu = \mu_0 \quad H_a: \mu \neq \mu_0 \quad (\mu_0 = 60)$ 樣本均值 $\bar{x}_{\text{MLE}}$ 作為 $\mu$ 的估計 $X \sim N(\mu, \sigma^2)$ 且 $\sigma$ 已知 ### 方法 1 $$ \left| \frac{\bar{x} - \mu}{\sigma/\sqrt{n}} \right| \sim N(0,1) $$ ### 規則: 如果 $\left| \frac{\bar{x} - \mu_0}{\sigma/\sqrt{n}} \right| > 1.96 \quad \mu = 60$ 則拒絕 $\mu = \mu_0 = 60$ 否則,我們未能拒絕 $\mu = 60$ ### 解釋 #### 目標 在這裡,我們的目的是找到一個適合用來判斷假設檢定的統計量,特別是檢驗硬幣是否公平。 #### 臨界值 我們使用 $\left| \frac{\hat{p} - p_0}{\sqrt{\frac{p_0 (1 - p_0)}{n}}} \right| \sim N(0, 1)$ 作為統計量,並以 $1.96$ 作為臨界值,這是基於標準正態分佈對應 $95\%$ 置信區間的臨界值。 #### 決策規則 當 $\left| \frac{\hat{p} - p_0}{\sqrt{\frac{\hat{p} (1 - \hat{p})}{n}}} \right| > 1.96$ 時,我們拒絕原假設,表明硬幣不公平。反之,則未能拒絕原假設,表明我們沒有足夠的證據說明硬幣不公平。 #### 第二次期中考的預期值 類似的,我們檢驗樣本均值是否等於給定的均值 $\mu_0$。如果 $\left| \frac{\bar{x} - \mu_0}{\sigma/\sqrt{n}} \right| > 1.96$,則拒絕原假設 $\mu = \mu_0 = 60$,否則,我們未能拒絕原假設。 ## 例子: 假設檢定 假設 $H_0: \mu = 60$,$H_a: \mu \neq 60$ ### 情況 1 $\bar{x} = 70$,$\sigma = 100$,$n = 100$ 計算: $$ \left| \frac{70 - 60}{\frac{100}{\sqrt{100}}} \right| = \left| \frac{10}{10} \right| = 1 < 1.96 $$ 結論:我們未能拒絕 $\mu = 60$ ### 情況 2 $\bar{x} = 70$,$\sigma = 1$,$n = 100$ 計算: $$ \left| \frac{70 - 60}{\frac{1}{\sqrt{100}}} \right| = \left| \frac{10}{0.1} \right| = 100 > 1.96 $$ 結論:我們拒絕 $\mu = 60$ ### 解釋 這裡,我們進行的是假設檢定,目的是檢驗樣本均值 $\bar{x}$ 是否顯著不同於假設的均值 $\mu = 60$。 - **情況 1**: 標準差 $\sigma = 100$,樣本量 $n = 100$ - 我們計算標準化統計量 $\left| \frac{\bar{x} - \mu}{\sigma/\sqrt{n}} \right|$,發現其值為 $1$,小於臨界值 $1.96$,因此我們未能拒絕原假設,表示我們沒有足夠證據表明 $\mu \neq 60$。 - **情況 2**: 標準差 $\sigma = 1$,樣本量 $n = 100$ - 我們計算標準化統計量 $\left| \frac{\bar{x} - \mu}{\sigma/\sqrt{n}} \right|$,發現其值為 $100$,遠大於臨界值 $1.96$,因此我們拒絕原假設,表示我們有足夠證據表明 $\mu \neq 60$。 這些計算顯示了標準差對檢定結果的影響。較小的標準差使得檢定更為敏感,能夠更容易檢測出均值的顯著差異。 ## Neyman-Pearson 引理 假設 $H_0$ 與 $H_a$ 是簡單假設($H_0: \theta = \theta_0$ vs $H_a: \theta = \theta_a$) (若非簡單假設則為 $H_0: \theta = \theta_0$ vs $H_a: \theta \neq \theta_0$) 進行檢驗,當似然比小於常數 $C$ 時拒絕 $H_0$,且顯著性水平為 $\alpha$(即一類錯誤的概率為 $\alpha$) 那麼,在所有顯著性水平小於或等於 $\alpha$ 的檢驗中,似然比檢驗的功效最大。 ### 解釋 Neyman-Pearson 引理是一個關鍵的統計檢驗理論,特別適用於檢驗兩個簡單假設的情況。這裡是一些主要點: 1. **簡單假設**:$H_0$ 和 $H_a$ 是完全指定的,不包含範圍或區間。例如,$H_0: \theta = \theta_0$ 和 $H_a: \theta = \theta_a$ 都是特定值。 2. **似然比檢驗**:這種檢驗基於樣本的似然函數比值。當似然比小於某個臨界值 $C$ 時,我們拒絕 $H_0$。這個臨界值 $C$ 是根據所需的顯著性水平 $\alpha$ 確定的。 3. **顯著性水平 $\alpha$**:這是指一類錯誤的概率,即在 $H_0$ 真實時錯誤地拒絕 $H_0$ 的概率。 4. **檢驗功效**:在所有同樣顯著性水平的檢驗中,似然比檢驗有最大的檢驗功效,即它最有可能檢測到 $H_a$ 為真的情況。 因此,Neyman-Pearson 引理告訴我們,似然比檢驗在統計功效(檢測真實情況的能力)方面是最優的檢驗方法,當我們有兩個簡單假設需要檢驗時。 ![image](https://hackmd.io/_uploads/BJPTfuVS0.png) ![image](https://hackmd.io/_uploads/SkdCz_EBR.png) ![image](https://hackmd.io/_uploads/HJ-1mOVS0.png) ![image](https://hackmd.io/_uploads/H1_kmuVSA.png) ![image](https://hackmd.io/_uploads/SJzZmdEB0.png) ![image](https://hackmd.io/_uploads/H10ZQONSC.png) ![image](https://hackmd.io/_uploads/rJLGXOESR.png) ![image](https://hackmd.io/_uploads/rkt57dNrC.png) ## Likelihood Ratio Test (LRT) ### 定義 似然比檢驗 (Likelihood Ratio Test, LRT) 是一種基於似然函數的統計檢驗方法。它用於比較兩個假設模型的適合度,即零假設 $H_0$ 和備擇假設 $H_a$,以判斷哪個模型更適合觀察到的數據。 ### 公式 設 $L(\theta; x)$ 是樣本 $x$ 的似然函數,其中 $\theta$ 是參數。似然比檢驗的統計量定義為: $$ \lambda(x) = \frac{\sup_{\theta \in \Theta_0} L(\theta; x)}{\sup_{\theta \in \Theta} L(\theta; x)} $$ 其中: - $\Theta_0$ 是在 $H_0$ 下 $\theta$ 的參數空間。 - $\Theta$ 是在 $H_a$ 下 $\theta$ 的參數空間(通常 $\Theta_0 \subset \Theta$)。 ### 檢驗步驟 1. **計算似然比統計量** $\lambda(x)$: - 在零假設 $H_0$ 下,計算 $\sup_{\theta \in \Theta_0} L(\theta; x)$。 - 在備擇假設 $H_a$ 下,計算 $\sup_{\theta \in \Theta} L(\theta; x)$。 - 計算似然比 $\lambda(x)$。 2. **決定臨界區域**: - 根據顯著性水平 $\alpha$ 和 $\lambda(x)$ 的分佈,確定拒絕域 $C$。通常,我們拒絕 $H_0$ 當 $\lambda(x)$ 小於某個臨界值 $c$。 3. **做出結論**: - 如果 $\lambda(x) < c$,拒絕 $H_0$。 - 否則,不能拒絕 $H_0$。 ### 性質 - **漸近分佈**:當樣本量 $n$ 足夠大時,$-2 \log \lambda(x)$ 近似服從卡方分佈,其自由度等於備擇假設和零假設的參數數量之差。 - **Neyman-Pearson 引理**:在簡單假設下,似然比檢驗是最強有力的檢驗。 ### 示例 假設我們有一組樣本 $x_1, x_2, ..., x_n$,這些樣本來自均值為 $\mu$、方差為 $\sigma^2$ 的正態分佈。 1. **零假設** $H_0: \mu = \mu_0$。 2. **備擇假設** $H_a: \mu \neq \mu_0$。 似然比統計量 $\lambda(x)$ 為: $$ \lambda(x) = \frac{L(\mu_0; x)}{\sup_{\mu} L(\mu; x)} $$ 其中,$L(\mu; x)$ 是樣本的似然函數。經過計算和比較,如果 $\lambda(x)$ 足夠小,我們拒絕 $H_0$,接受 $H_a$。 ### 應用 似然比檢驗被廣泛應用於各種統計建模和假設檢驗中,特別是在參數估計和模型選擇的情況下。 ### 總結 似然比檢驗是一種強大而靈活的檢驗方法,適用於多種統計檢驗場景。通過比較模型的似然,我們可以有效地進行假設檢驗並選擇最適合的模型。 ## Uniformly Most Powerful (UMP) Test ### 定義 在統計假設檢驗中,對於一個給定的顯著性水平 $\alpha$,如果一個檢驗在所有備擇假設下都擁有最大的檢驗力(即拒絕零假設 $H_0$ 的概率),則該檢驗稱為一致最強有力檢驗 (Uniformly Most Powerful, UMP) 檢驗。 ### 性質 1. **存在性**:並非在所有情況下都能找到UMP檢驗。UMP檢驗通常存在於具有單參數族(single-parameter family)和某些特定情形下。 2. **Neyman-Pearson引理**:Neyman-Pearson引理提供了一種構造二元假設檢驗的UMP檢驗的方法,但這個方法不能保證多元假設檢驗的UMP檢驗。 ### Neyman-Pearson引理 Neyman-Pearson引理表明,對於簡單假設 $H_0: \theta = \theta_0$ 和備擇假設 $H_a: \theta = \theta_1$,在給定的顯著性水平 $\alpha$ 下,似然比檢驗是最強有力的檢驗。 假設 $L(\theta; x)$ 是樣本 $x$ 的似然函數,則似然比檢驗的統計量定義為: $$ \Lambda(x) = \frac{L(\theta_0; x)}{L(\theta_1; x)} $$ 在顯著性水平 $\alpha$ 下,我們拒絕零假設 $H_0$ 當 $\Lambda(x) < c$,其中 $c$ 是根據 $\alpha$ 確定的臨界值。 ### UMP檢驗的構造 在某些情況下,我們可以使用以下步驟來構造UMP檢驗: 1. **確定似然比統計量**:計算樣本的似然比統計量 $\Lambda(x)$。 2. **確定臨界區域**:根據顯著性水平 $\alpha$ 確定拒絕區域。 3. **檢驗決策**:比較 $\Lambda(x)$ 和臨界值 $c$,如果 $\Lambda(x) < c$,則拒絕 $H_0$;否則,不拒絕 $H_0$。 ### 示例 考慮二項分佈 $X \sim \text{Binomial}(n, p)$,假設 $H_0: p = p_0$ 和 $H_a: p = p_1$,其中 $p_1 > p_0$。 1. **似然比統計量**: $$ \Lambda(x) = \frac{(p_0^x (1 - p_0)^{n - x})}{(p_1^x (1 - p_1)^{n - x})} $$ 2. **臨界區域**:根據顯著性水平 $\alpha$ 確定臨界值 $c$。 3. **檢驗決策**:如果 $\Lambda(x) < c$,則拒絕 $H_0$。 ### 應用 UMP檢驗廣泛應用於參數估計和假設檢驗中,特別是當我們需要在多種情境下擁有最大檢驗力的檢驗時。 ### 總結 UMP檢驗在統計檢驗中具有重要地位,特別是當我們需要在所有備擇假設下擁有最大檢驗力的檢驗時。儘管UMP檢驗的存在性有限,但其理論和應用為統計假設檢驗提供了重要的指導。 ![image](https://hackmd.io/_uploads/r1t0DuES0.png)