# CLT
CLT,也就是中央極限定理(central limit theorem)
$\overline{X} \overset{approx}{\sim} N(\mu,\ \cfrac{\sigma^2}{n})$
其中的 $\mu,\ \sigma^2$ 都是原本的分布給定的
---
通常題目會是 :
請我們找出 $n$
使得 $P(|\overline{X} - \mu| < \
\varepsilon) = p$
(以樣本平均($\overline{X}$)估計母體平均($\mu$)的誤差能夠控制在($\varepsilon$)的機率達到 $p$)
解法 :
1. 找出原始分佈(distribution)或$f(x)$的 $\mu,\ \sigma^2$
2. By $CLT$, $\overline{X} \overset{approx}{\sim} N(\mu,\ \cfrac{\sigma^2}{n})$
3. 把題目給定的 $P(.....)$ 轉換成 $P(\cfrac{|\overline{X} - \mu|}{\sigma / \sqrt{n}} < \
\varepsilon) = p,\ \varepsilon$ 可以是任何式子,只要能夠使左方成立
4. 接著就能把左方改成 $P(Z < \varepsilon) = p$
5. 又 $\alpha = \cfrac{1 - p}{2}$
6. $\varepsilon = z_{1-\alpha}$,其中$z_{1-\alpha}$可以查表得到
7. 通常因為 $\varepsilon$ 會包含 $n$,可以從第 6 點的式子得到 $n$,最後要記得無條件進位
:::warning
題目可能會倒過來出
也就是給定 $n$ 要我們算出 $P(Y < a)$
這時就要把 $Y$ 轉換成 $\overline{X_n}$ (根據題目給定)
會變成 $P(... \overline{X_n} < a)$
接著就是把左側轉換成 $z$ 的形式 $z = \cfrac{\overline{X_n} - \mu}{\sqrt{\sigma^2}}$
最後就能得到 $P(Z < ...)$ 利用查表得到準確數值
:::
---
例子 :
# Delta Method
通常題目會是 :
給定一個分佈 $X_i \sim dist$
希望我們求出 limiting distribution of ......
其中的 ...... 為一個函數,下方以 $h(x)$ 舉例 (此函數通常會包含 $\overline{X_n}$)
解法 :
首先藉由分佈得到 $EX_n = \mu,\ VX_n = \sigma^2$
接著藉由 $CLT$ 知道 $\overline{X_n} \overset{approx}{\sim} N(EX_n,\ \cfrac{VX_n}{n})$
之後要湊數字 $g(y)$,使其能與題目所求相同
因此 $\sqrt{n} \cdot g(y) = h(x)$,並且把 $h(x)$ 當中的 $\overline{X_n}$ 改成 $y$
接著計算出 $g^{\prime}(y) = \cfrac{d g(y)}{dy}$
所以現在應該會有這 2 個重要函數 : $g(y),\ g^{\prime}(y)$
By Delta method
$g(\overline{X_n}) = ...(把 \overline{X_n} 帶入 g(y) 之中)... \overset{approx}{\sim} N(g(\mu),\ (g^{\prime}(\mu))^2 \cdot \cfrac{\sigma^2}{n})$
最後就能夠得到題目所求 $h(x) \overset{p}{\longrightarrow} N(g(\mu),\ (g^{\prime}(\mu))^2 \cdot \cfrac{\sigma^2}{n})$
:::danger
原本公式長這樣 :
$\cfrac{\sqrt{n}(\overline{X_n} - \mu)}{\sigma_n} \overset{p}{\longrightarrow} N(0,1)$
$\Rightarrow \cfrac{\sqrt{n}(g(\overline{X_n}) - g(\mu))}{|g^{\prime}(\mu)| \cdot \sigma_n} \overset{p}{\longrightarrow} N(0,1)$
$\therefore Y_n \approx N(\mu,\ \cfrac{\sigma^2}{n})$
$\Rightarrow g(Y_n) \approx N(g(\mu),\ (g^{\prime}(\mu))^2 \cdot \cfrac{\sigma^2}{n})$
:::
---
例子 :
# Quality of Estimator
通常會需要計算出 $bias,\ sd,\ MSE,\ consistency$
---
題目會先給定 :
$X_i \sim dist,\ \hat{\theta} \ 或 \ \hat{\lambda} = ...$
希望我們可以求出 $bias,\ sd,\ MSE,\ consistency$
解法 :
1. 找出原始分佈(distribution)或$f(x)$的 $EX_i,\ VX_i$
2. 接著使用給定的 $\hat{\theta} \ 或 \ \hat{\lambda}$ 代換掉 $EX_i,\ VX_i$
(會變成 $E\hat{\lambda} = ......,\ V\hat{\lambda} = ......$)
3. 接著就能計算出 $bias,\ sd,\ MSE,\ consistency$
* $bias(\hat{\lambda}) = E\hat{\lambda} - \lambda$
* $sd(\hat{\lambda}) = \sqrt{V\hat{\lambda}}$
* $MSE = bias^2 + V\hat{\lambda}$
* $consistent : \lim\limits_{n \rightarrow \infty} P(|\hat{\lambda} - \lambda| > \varepsilon) = 0 \ 即為 \ consistent$
通常會使用 chebyshev's inequality : $\lim\limits_{n \rightarrow \infty} P(|\hat{\lambda} - \lambda| > \varepsilon) \le \lim\limits_{n \rightarrow \infty} \cfrac{V\hat{\lambda}}{\varepsilon^2}$
或是也可利用機率收斂的角度來看
當機率收斂到 $1$ 的時候也代表 $consistent$
:::warning
**小補充 :** 判別怎樣是比較好的估計
一般情況下,比較 $var$ 或 $MSE$ 在 $lim$ 情況下的收斂速度
收斂的情況**越快越好**
:::
:::danger
當題目出現希望我們算出一個 unbias estimator $\theta$ based on $Y_n$ 時
需要先算出 $F(t) = P(Y_n \le t)$
接著就能算出 $f(t) = \cfrac{d F(t)}{dt}$
然後算出 $EY_n = \int t \cdot f(t) dt$ (其中的積分須帶入 t 的區間範圍)
計算出 $EY_n$ 後就能知道怎麼調整 $Y_n$ 才能等於 $\theta$
:::
---
例子 :
# CI
通常會分成 2 個部分
(i). 有 95% 的把握,估計參數的誤差可以控制在多少之內
(ii). 建立 95% 信賴區間
題目會先給定 :
$\overline{X}$ 的分佈
解法 :
首先藉由 $\overline{X}$ 的分布得出 $EX,\ VX$
接著透過 $CLT$ 得到此 $\overline{X} \overset{approx}{\sim} N(EX,\ \cfrac{VX}{n})$
然後還有原本參數估計的 $CLT$,也就是 $\hat{\lambda} \overset{approx}{\sim} N(\lambda,\ \hat{\sigma}^2)$
最後就得出
(i). 誤差 $\varepsilon < 1.96 \cdot \sqrt{\hat{\sigma}^2}$
(ii). $P(|\hat{\lambda} - \lambda| < 1.96 \cdot \sigma) = 95\%$
$\Rightarrow P(\hat{\lambda} - 1.96 \cdot \sigma < \lambda < \hat{\lambda} + 1.96 \cdot \sigma) = CI$ (記得把 $\hat{\lambda}$ 帶入算出來的數值)
---
例子 :
# Hypothesis Testing
題目會先給定 :
$H_0,\ H_a$
以及拒絕區域(reject region)
會希望我們求出 $c$ 可以 reject $H_0$
解法 :
可以先從假設檢定當中看出怎樣的條件會 reject $H_0$
也就是當 $\theta$ 或 $p$ 靠近哪個數字會 reject $H_0$
然後利用 $CLT$ 知道 $X \overset{approx}{\sim} N(\mu,\ \cfrac{\sigma^2}{n})$
接著使用 $P(X > c) = P(\cfrac{X - \mu}{\sqrt{\sigma^2/n}} < \cfrac{c - \mu}{\sqrt{\sigma^2/n}}) = P(Z < \cfrac{c - \mu}{\sqrt{\sigma^2/n}})$
最後就能知道 $\cfrac{c - \mu}{\sqrt{\sigma^2/n}} = z_{\alpha/2}$
解開等式就能知道 $c$
---
例子 :
# Method of Moments
題目會先給定 :
$X_i \sim dist$
希望我們求出 MME for $a,\ b$
解法 :
利用題目給定的分佈得到 $EX_i,\ VX_i$
接著利用 $EX_i^2 = VX_i - (EX_i)^2$
重要的就是 $EX_i,\ EX_i^2$
By Method of Moments
$\begin{cases}
EX_i = ... = m_1 \\
EX_i^2 = ... = m_2 \\
\end{cases}$,其中 ... 應該要包含 $a,\ b$
最後解開上面的聯立方程式
應該要得到 :
$\begin{cases}
\hat{a} = ... \\
\hat{b} = ... \\
\end{cases}$,其中的 ... 應該只會包含 $m_1,\ m_2$
---
例子 :
# Maximum Likelihood Method
通常會需要計算出 $mle \ \hat{\theta}$
---
題目會先給定 :
$f(x;\theta)$
解法 :
看到這種函數直接當成 $f(x)$ 看就好
1. $L(\theta) = \Pi_{i=1}^n f(x)$
2. 接著整理式子,把不關 $_i$ 的部分丟出來,也把 **連乘** 整理成 **連加**
3. (取 $log$ --> 方便計算) $\Rightarrow l(\theta) = ......$
4. (微分 --> 方便計算) $\Rightarrow \cfrac{d \ l(\theta)}{d \ \theta} = ...... = 0$
5. 從第 4 點最後的式子就能解出 $\hat{\theta}$
有的時候可以省略掉第 3 點以及第 4 點
直接從式子中看出如何使得 $L(\theta)$ 最大
假設是需要讓 $\theta$ 更大 $\Rightarrow \hat{\theta}_{mle} = min(X_1,\ ...,\ X_n)$
如果是要讓 $\theta$ 更小的話則為相反 $\Rightarrow \hat{\theta}_{mle} = max(X_1,\ ...,\ X_n)$
:::warning
如果看到 $\hat{\theta}_{mle} = \overline{X_n}$ 的話要注意
需要透過畫圖分成 2 段討論
![image](https://hackmd.io/_uploads/ryIrDlxx0.png)
通常會先透過 $f(x)$ 判別這個分布會出現在哪些位置
接著應該會有其他限制條件看出 $\theta$ 會出現在哪些位置
只會透過限制條件的其中一邊分成 (i) 跟 (ii) 討論(這部分要自己判別)
可以看到 (i) 的位置時 : $\theta = \overline{x}$ 時有最大值
可以看到 (ii) 的位置時 : $\theta = (ii)$ 時有最大值
最後就是寫出 : 綜合 (i)、(ii),$\hat{\theta}_{mle} = max(\overline{x}, (ii))$
:::
:::warning
如果是看到 find c that $E(c\hat{\theta}) = \theta$
首先把 $f(x)$ 積分改造成 $F(x)$ (注意範圍區間)
接著令 $g,\ G$ 為 $\hat{\theta}$ 的 pdf & cdf
$G(t) = P(\hat{\theta} \le t) = P(帶入算出的 \hat{\theta} \le t) = 轉換一下 P 變成F(x)$
然後計算出 $g(t) = \cfrac{d}{dt}G(t)$
就能算出 $E(c\hat{\theta}) = c \cdot E(\hat{\theta}) = c \cdot \int t \cdot g(t) dt = \theta$ (其中的積分須帶入 $x$ 的區間範圍)
最後就可以解出 $c$
:::
:::danger
**補充**
MLE 會優於 MME
:::
---
例子 :