# CLT CLT,也就是中央極限定理(central limit theorem) $\overline{X} \overset{approx}{\sim} N(\mu,\ \cfrac{\sigma^2}{n})$ 其中的 $\mu,\ \sigma^2$ 都是原本的分布給定的 --- 通常題目會是 : 請我們找出 $n$ 使得 $P(|\overline{X} - \mu| < \ \varepsilon) = p$ (以樣本平均($\overline{X}$)估計母體平均($\mu$)的誤差能夠控制在($\varepsilon$)的機率達到 $p$) 解法 : 1. 找出原始分佈(distribution)或$f(x)$的 $\mu,\ \sigma^2$ 2. By $CLT$, $\overline{X} \overset{approx}{\sim} N(\mu,\ \cfrac{\sigma^2}{n})$ 3. 把題目給定的 $P(.....)$ 轉換成 $P(\cfrac{|\overline{X} - \mu|}{\sigma / \sqrt{n}} < \ \varepsilon) = p,\ \varepsilon$ 可以是任何式子,只要能夠使左方成立 4. 接著就能把左方改成 $P(Z < \varepsilon) = p$ 5. 又 $\alpha = \cfrac{1 - p}{2}$ 6. $\varepsilon = z_{1-\alpha}$,其中$z_{1-\alpha}$可以查表得到 7. 通常因為 $\varepsilon$ 會包含 $n$,可以從第 6 點的式子得到 $n$,最後要記得無條件進位 :::warning 題目可能會倒過來出 也就是給定 $n$ 要我們算出 $P(Y < a)$ 這時就要把 $Y$ 轉換成 $\overline{X_n}$ (根據題目給定) 會變成 $P(... \overline{X_n} < a)$ 接著就是把左側轉換成 $z$ 的形式 $z = \cfrac{\overline{X_n} - \mu}{\sqrt{\sigma^2}}$ 最後就能得到 $P(Z < ...)$ 利用查表得到準確數值 ::: --- 例子 : # Delta Method 通常題目會是 : 給定一個分佈 $X_i \sim dist$ 希望我們求出 limiting distribution of ...... 其中的 ...... 為一個函數,下方以 $h(x)$ 舉例 (此函數通常會包含 $\overline{X_n}$) 解法 : 首先藉由分佈得到 $EX_n = \mu,\ VX_n = \sigma^2$ 接著藉由 $CLT$ 知道 $\overline{X_n} \overset{approx}{\sim} N(EX_n,\ \cfrac{VX_n}{n})$ 之後要湊數字 $g(y)$,使其能與題目所求相同 因此 $\sqrt{n} \cdot g(y) = h(x)$,並且把 $h(x)$ 當中的 $\overline{X_n}$ 改成 $y$ 接著計算出 $g^{\prime}(y) = \cfrac{d g(y)}{dy}$ 所以現在應該會有這 2 個重要函數 : $g(y),\ g^{\prime}(y)$ By Delta method $g(\overline{X_n}) = ...(把 \overline{X_n} 帶入 g(y) 之中)... \overset{approx}{\sim} N(g(\mu),\ (g^{\prime}(\mu))^2 \cdot \cfrac{\sigma^2}{n})$ 最後就能夠得到題目所求 $h(x) \overset{p}{\longrightarrow} N(g(\mu),\ (g^{\prime}(\mu))^2 \cdot \cfrac{\sigma^2}{n})$ :::danger 原本公式長這樣 : $\cfrac{\sqrt{n}(\overline{X_n} - \mu)}{\sigma_n} \overset{p}{\longrightarrow} N(0,1)$ $\Rightarrow \cfrac{\sqrt{n}(g(\overline{X_n}) - g(\mu))}{|g^{\prime}(\mu)| \cdot \sigma_n} \overset{p}{\longrightarrow} N(0,1)$ $\therefore Y_n \approx N(\mu,\ \cfrac{\sigma^2}{n})$ $\Rightarrow g(Y_n) \approx N(g(\mu),\ (g^{\prime}(\mu))^2 \cdot \cfrac{\sigma^2}{n})$ ::: --- 例子 : # Quality of Estimator 通常會需要計算出 $bias,\ sd,\ MSE,\ consistency$ --- 題目會先給定 : $X_i \sim dist,\ \hat{\theta} \ 或 \ \hat{\lambda} = ...$ 希望我們可以求出 $bias,\ sd,\ MSE,\ consistency$ 解法 : 1. 找出原始分佈(distribution)或$f(x)$的 $EX_i,\ VX_i$ 2. 接著使用給定的 $\hat{\theta} \ 或 \ \hat{\lambda}$ 代換掉 $EX_i,\ VX_i$ (會變成 $E\hat{\lambda} = ......,\ V\hat{\lambda} = ......$) 3. 接著就能計算出 $bias,\ sd,\ MSE,\ consistency$ * $bias(\hat{\lambda}) = E\hat{\lambda} - \lambda$ * $sd(\hat{\lambda}) = \sqrt{V\hat{\lambda}}$ * $MSE = bias^2 + V\hat{\lambda}$ * $consistent : \lim\limits_{n \rightarrow \infty} P(|\hat{\lambda} - \lambda| > \varepsilon) = 0 \ 即為 \ consistent$ 通常會使用 chebyshev's inequality : $\lim\limits_{n \rightarrow \infty} P(|\hat{\lambda} - \lambda| > \varepsilon) \le \lim\limits_{n \rightarrow \infty} \cfrac{V\hat{\lambda}}{\varepsilon^2}$ 或是也可利用機率收斂的角度來看 當機率收斂到 $1$ 的時候也代表 $consistent$ :::warning **小補充 :** 判別怎樣是比較好的估計 一般情況下,比較 $var$ 或 $MSE$ 在 $lim$ 情況下的收斂速度 收斂的情況**越快越好** ::: :::danger 當題目出現希望我們算出一個 unbias estimator $\theta$ based on $Y_n$ 時 需要先算出 $F(t) = P(Y_n \le t)$ 接著就能算出 $f(t) = \cfrac{d F(t)}{dt}$ 然後算出 $EY_n = \int t \cdot f(t) dt$ (其中的積分須帶入 t 的區間範圍) 計算出 $EY_n$ 後就能知道怎麼調整 $Y_n$ 才能等於 $\theta$ ::: --- 例子 : # CI 通常會分成 2 個部分 (i). 有 95% 的把握,估計參數的誤差可以控制在多少之內 (ii). 建立 95% 信賴區間 題目會先給定 : $\overline{X}$ 的分佈 解法 : 首先藉由 $\overline{X}$ 的分布得出 $EX,\ VX$ 接著透過 $CLT$ 得到此 $\overline{X} \overset{approx}{\sim} N(EX,\ \cfrac{VX}{n})$ 然後還有原本參數估計的 $CLT$,也就是 $\hat{\lambda} \overset{approx}{\sim} N(\lambda,\ \hat{\sigma}^2)$ 最後就得出 (i). 誤差 $\varepsilon < 1.96 \cdot \sqrt{\hat{\sigma}^2}$ (ii). $P(|\hat{\lambda} - \lambda| < 1.96 \cdot \sigma) = 95\%$ $\Rightarrow P(\hat{\lambda} - 1.96 \cdot \sigma < \lambda < \hat{\lambda} + 1.96 \cdot \sigma) = CI$ (記得把 $\hat{\lambda}$ 帶入算出來的數值) --- 例子 : # Hypothesis Testing 題目會先給定 : $H_0,\ H_a$ 以及拒絕區域(reject region) 會希望我們求出 $c$ 可以 reject $H_0$ 解法 : 可以先從假設檢定當中看出怎樣的條件會 reject $H_0$ 也就是當 $\theta$ 或 $p$ 靠近哪個數字會 reject $H_0$ 然後利用 $CLT$ 知道 $X \overset{approx}{\sim} N(\mu,\ \cfrac{\sigma^2}{n})$ 接著使用 $P(X > c) = P(\cfrac{X - \mu}{\sqrt{\sigma^2/n}} < \cfrac{c - \mu}{\sqrt{\sigma^2/n}}) = P(Z < \cfrac{c - \mu}{\sqrt{\sigma^2/n}})$ 最後就能知道 $\cfrac{c - \mu}{\sqrt{\sigma^2/n}} = z_{\alpha/2}$ 解開等式就能知道 $c$ --- 例子 : # Method of Moments 題目會先給定 : $X_i \sim dist$ 希望我們求出 MME for $a,\ b$ 解法 : 利用題目給定的分佈得到 $EX_i,\ VX_i$ 接著利用 $EX_i^2 = VX_i - (EX_i)^2$ 重要的就是 $EX_i,\ EX_i^2$ By Method of Moments $\begin{cases} EX_i = ... = m_1 \\ EX_i^2 = ... = m_2 \\ \end{cases}$,其中 ... 應該要包含 $a,\ b$ 最後解開上面的聯立方程式 應該要得到 : $\begin{cases} \hat{a} = ... \\ \hat{b} = ... \\ \end{cases}$,其中的 ... 應該只會包含 $m_1,\ m_2$ --- 例子 : # Maximum Likelihood Method 通常會需要計算出 $mle \ \hat{\theta}$ --- 題目會先給定 : $f(x;\theta)$ 解法 : 看到這種函數直接當成 $f(x)$ 看就好 1. $L(\theta) = \Pi_{i=1}^n f(x)$ 2. 接著整理式子,把不關 $_i$ 的部分丟出來,也把 **連乘** 整理成 **連加** 3. (取 $log$ --> 方便計算) $\Rightarrow l(\theta) = ......$ 4. (微分 --> 方便計算) $\Rightarrow \cfrac{d \ l(\theta)}{d \ \theta} = ...... = 0$ 5. 從第 4 點最後的式子就能解出 $\hat{\theta}$ 有的時候可以省略掉第 3 點以及第 4 點 直接從式子中看出如何使得 $L(\theta)$ 最大 假設是需要讓 $\theta$ 更大 $\Rightarrow \hat{\theta}_{mle} = min(X_1,\ ...,\ X_n)$ 如果是要讓 $\theta$ 更小的話則為相反 $\Rightarrow \hat{\theta}_{mle} = max(X_1,\ ...,\ X_n)$ :::warning 如果看到 $\hat{\theta}_{mle} = \overline{X_n}$ 的話要注意 需要透過畫圖分成 2 段討論 ![image](https://hackmd.io/_uploads/ryIrDlxx0.png) 通常會先透過 $f(x)$ 判別這個分布會出現在哪些位置 接著應該會有其他限制條件看出 $\theta$ 會出現在哪些位置 只會透過限制條件的其中一邊分成 (i) 跟 (ii) 討論(這部分要自己判別) 可以看到 (i) 的位置時 : $\theta = \overline{x}$ 時有最大值 可以看到 (ii) 的位置時 : $\theta = (ii)$ 時有最大值 最後就是寫出 : 綜合 (i)、(ii),$\hat{\theta}_{mle} = max(\overline{x}, (ii))$ ::: :::warning 如果是看到 find c that $E(c\hat{\theta}) = \theta$ 首先把 $f(x)$ 積分改造成 $F(x)$ (注意範圍區間) 接著令 $g,\ G$ 為 $\hat{\theta}$ 的 pdf & cdf $G(t) = P(\hat{\theta} \le t) = P(帶入算出的 \hat{\theta} \le t) = 轉換一下 P 變成F(x)$ 然後計算出 $g(t) = \cfrac{d}{dt}G(t)$ 就能算出 $E(c\hat{\theta}) = c \cdot E(\hat{\theta}) = c \cdot \int t \cdot g(t) dt = \theta$ (其中的積分須帶入 $x$ 的區間範圍) 最後就可以解出 $c$ ::: :::danger **補充** MLE 會優於 MME ::: --- 例子 :