# 商統不會的公式&檢定的decision rolue
先記錄下來:(
## 解釋為什麼cretical value approach的 desion role 跟 p-value approach不同
### 以T分布為例
$H_0: \mu \le \mu_0$ v.s $H_1: \mu > \mu_0$
Let W(X) be a test by p-value definition:statistc
$P_{\mu,\sigma}(W(X)\ge W(x))=P_{\mu,\sigma}(\frac {\bar x - \mu_0}{s ÷ \sqrt n}\ge W(x))$
$=P_{\mu,\sigma}(\frac {\bar x - \mu_0}{s ÷ \sqrt n}+\frac { \mu_0 - \mu}{s ÷ \sqrt n}\ge W(x)+\frac { \mu_0 - \mu}{s ÷ \sqrt n})$
$=P_{\mu,\sigma}(\frac {\bar x - \mu}{s ÷ \sqrt n}\ge W(x)+\frac { \mu_0 - \mu}{s ÷ \sqrt n})$
$=P_{\mu,\sigma}(T_{(n-1)}\ge W(x)+\frac { \mu_0 - \mu}{s ÷ \sqrt n})\le P_{\mu,\sigma}(T_{(n-1)}\ge W(x))$, $\because \mu_0-\mu \le0 by H_0$
So as we can see, the desion role of cretical value and p-value is totolly opposited.
## 為什麼有的公式要多除根號n有的不用
從[wiki](https://zh.m.wikipedia.org/zh-tw/%E4%B8%AD%E5%BF%83%E6%9E%81%E9%99%90%E5%AE%9A%E7%90%86)來看,常態分佈的由來是中央極限定理,原始版本不需要除n
如果是從二項式分佈推到常態分佈的也不需要除n,例如比率方面的檢定。
只有平均才需要多除根號n。
我流推導:中央極限定理同除n得到平均數版,<u>也就是說,用平均數才需要同除以n,加總直接用CLT的原始版解決即可。</u>
## 其他注意事項(考慮移走)
從二項式分配轉至常態分配時,要求的機率最好加\減0.5(視檢定要求大於還是小於),因為一個是離散,一個是連續。
## Difference Between 2 Population means:($\mu$)
>source:10.2
### 檢定be like:
$H_0:\mu_1-\mu_2><=D_0$ v.s $H_1: not \ H_0$
### 變異數已知:使用Z分配。
$z={(\bar x_1-\bar x_2)-D_0 \over \sqrt{\frac{σ^2_1}{n_1}+\frac{σ^2_2}{n_2}}}$
### 變異數未知:使用t分配。
$df ={(\frac{s_1^2}{n_1}+\frac {s_2^2}{n_2})^2 \over \frac {1}{n_1-1}\times(\frac {s_1^2}{n_1})^2+ \frac {1}{n_2-1}\times(\frac {s_2^2}{n_2})^2}$
$t={(\bar x_1-\bar x_2)-D_0 \over \sqrt{\frac{s^2_1}{n_1}+\frac{s^2_2}{n_2}}}$
### 變異數未知但<u>假定標準差一樣</u>($σ^2_1=σ^2_2$):還是t分配
$s_p={(n_1-1)s_1^2+(n_2-1)s_2\over n_1+n_2-2}$
$t={(\bar x_1-\bar x_2)-D_0 \over s_p \sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}$
## Difference Between 2 Population means: Matched Samples ($\mu$)
>souce:10.3
### 檢定be like:
$H_0:\mu_1-\mu_2=0$ v.s $H_1: not \ H_0$
### 直接t分配
$t={\bar d - \mu_d \over s_d ÷\sqrt n}$
$\bar d=\frac{\sum d_i}{n}=\frac{\sum (x_{1i}-x_{2i})}{n}$
## Difference Between 2 Population proportions ( p )
> souce:10.4
### 檢定be like:
$H_0:p_1-p_2=0$ v.s $H_1: not \ H_0$
### 直接z分配
$z={\bar p_1 -\bar p_2) \over \sqrt {\bar p (1- \bar p)(\frac {1}{n_1}+\frac {1}{n_2})}}$
$\bar p = {n_1 \bar p_1 + n_2 \bar p_2 \over n_1 + n_2}$
## Inferences About a Population Variance($σ^2$)
>souce:11.1
### 檢定be like:
$H_0:σ^2><=σ_0^2$ v.s $H_1: not \ H_0$
### 卡方
$χ^2={(n-1)s^2 \over σ^2_0}$
### desion rule
| 性質 | 大於等於 | 小於等於 | 雙尾 |
| -------- | -------- | -------- | -------- |
| test be like | $H_0:σ^2≧σ_0^2$ | $H_0:σ^2≦σ_0^2$ |$H_0:σ^2=σ_0^2$|
|reject $H_0$ :cretical value approach| $χ^2≦χ^2_{1-\alpha}$|$χ^2≧χ^2_{\alpha}$|$χ^2≦χ^2_{1-\alpha/2}$ or $χ^2≧χ^2_{1-\alpha/2}$
## Inferences About 2 Population Variance
>souce:11.2
### 檢定be like:
$H_0:σ_1^2<>=σ_2^2$ v.s $H_1: not \ H_0$
### F 檢定
$F=\frac {s_1^2}{s_2^2}$
$df=n_1-1,n_2-1$
### desion rule
| 性質 | 小於等於 | 雙尾 |
| -------- | -------- | --------
| test be like | $H_0:σ_1^2≦σ_2^2$|$H_0:σ_1^2=σ_2^2$|
|reject $H_0$ :cretical value approach| $F≧F_\alpha$ | $F≧F_{\alpha/2}$
|Note| | $s_1^2>s_2^2$|
### one-way ANOVA
代號說明:
- $n_j$=不同實驗方法的各數
- $\bar x_j$= 實驗方法j的平均
$H_0: μ_1 = μ_2 = μ_3 ... = μ_k$ v.s $H_1:not H_0$
| Source of Variation | Degrees of Freedom (df) | Sums of Squares (SS) | Mean Squares (MS) | F |
| ------------------- | ----------------------- | -------------------- | ----------------- | --- |
| Between Treatments | k-1 | SSB = $\sum \sum n_j(\bar x_j-\bar x)^2$ | SSB/(k-1) | $\frac{MSB}{MSE}$ |
| Error (or Residual) | N-k | SSR = $\sum \sum (x_{ij}-\bar x_j)^2$ | SSR/(N-k) | |
| Total | N-1 | SST = $\sum \sum (\bar x_{ij}-\bar x)^2$ | | |
#### desion rule
v.s $F_{k-1,N-k}$
- $>F_{k-1,N-k}$ -> reject $H_0$
## 無母數部分
### Sign test
#### 檢定be like:
$H_0: Median >=< d$ v.s $H_1: not H_0$, where d is constant
轉為:
$H_0: p >=< 0.5$ v.s $H_1: not H_0$
#### step
1. 在樣本值旁紀錄,大於中位數為+,小於為-,持平不計。
2. 使用二項式分布,帶入$H_0$條件與+號數
$\sum_{x=+號數}^{n-持平}\tbinom{n}{x}(0.5)^{n-持平}$
3. 漸進常態分配,請用:
$X~Bin(n,p)=X~N(np+0.5,npq)$然後CLT起來。
4. Bin算出來即為P-value,跟α比大小。
### Wilcoxon sigin-rank test
> 條件: obs.有相同分布
#### 檢定be like:
$H_0: method A中位數 - method B中位數=0$ v.s $H_1: not H_0$
#### step
1. 算樣本A-樣本B的差、差的絕對值,依差的絕對值排rank(rank一樣的一起+0.5),計算
## ANOVA for 迴歸
易忘ㄉ公式:
$S_{xx}=\sum X_i^2-n\bar x^2$
$S_{xy}=\sum X_iY_i-n\bar x \bar y$
$b_1=\frac{S_{xy}}{S_xx}$
$b_0=\bar y - b_1\bar x$
$SSR=b_1S_{xy}$
$SST=\sum(y_i-\bar y)^2=\sum y_i^2-n(\bar y)^2$
### 簡單迴歸
$Y_i=\beta_0+\beta_1X_1+ε_i$
$\hat y=\hat \beta_0+\hat\beta_1 \hat x_i$
#### ANOVA
| source |df | SS|
| -------- | -------- | -------- |
| REG | 1(自變數個數) | $\sum (\hat y_i-\bar y)=b_1S_{xy}$ |
|ERR | n-1-reg | SST-SSR |
|TOTAL | n-1 | $S_{yy}=E(Y^2)-[E(Y)]^2$ |
#### $\beta_1$/$\beta_0$ infrence
##### 檢定be like:
$H_0=\beta_1>=<c v.s not H_0$
$H_0=\beta_0>=<c v.s not H_0$
where c is a constant.
##### $b_0$,$b_1$之期望值、變異數
皆服從於常態分配
$b_0~N(\beta_0,\frac{\sigma^2}{n}\frac{\sum x^2}{\sum (x-\bar x)^2}=\sigma^2[\frac{1}{n}+\frac{\bar x}{\sum (x- \bar x)^2}])$
$b_1~N(\beta_1,\frac{\sigma^2}{\sum (x-\bar x)^2})$
其中$\sigma^2$在實務上為未知,以$MSE$代替;計算分配也從常態轉為T分配。
以$b_1$為例,對應分配及統計量計算為:
$\frac{(b_1-\beta_1)}{s(b_1)}~T_{n-2}$
$s(b_1)=\frac{MSE}{\sum (X_i-\bar X)^2}=\frac{MSE}{S_{xx}}$
:::success
:information_source: 紀錄一下變異數推導過程
$Var(b_1)=Var(\frac{S_{xy}}{S_{xx}})=\frac{Var(\sum(x_i-\bar x)(y_i-\bar y)}{S^2_{xx}}$
Since $\sum (x_i - \bar x)\bar y = \bar y \sum (x_i- \bar x)= \bar y (\sum x_i - n \bar x)=0$, therefore,
$=\frac{Var[\sum(x_i-\bar x)y_i]}{S^2_{xx}}=\frac{\sum(x_i-\bar x)^2Var(y_i)}{S^2_{xx}}=\frac{S_{xx}\sigma^2}{S^2_{xx}}$
$Var(b_0)=Var(\bar y - b_1\bar x)=Var(\bar y) + Var(b_1\bar x)$
Since $Cov(\bar y , b_1)=0$ (自行推導,懶)
$=\frac{\sigma^2}{n}+\bar x^2Var(b_1)=\frac{\sigma^2}{n}+\bar x^2\frac{\sigma^2}{S_xx}$
:::
### $R^2$ for 簡單迴歸
>$r^2$是ρ的不偏統計量。
公式:
$r^2=\frac{SSR}{SST}=\frac{\sum (\hat Y - \bar Y)^2}{\sum (Y- \bar Y)^2}$
$r=b_1 \frac{s_x}{s_y}$
:::info
:information_source: 直覺想法:$\frac{估計變異}{真實變異}$
:::
#### $r^2$推論
建議直接在ANOVA時用$\frac{MSR}{MSE}$與F檢定比對。原版做法則是T分配:
##### 檢定be like:
$H_0=ρ>=<0 v.s not H_0$
統計量計算:
$t=\frac{r \sqrt n-2}{\sqrt 1-r^2}$與$t_{(n-2)}$比較
F版演化過程:
$t^2=\frac{r^2(n-2)}{1-r^2}=\frac{r^2/1}{(1-r^2)/(n-2)}=\frac{SSR/1}{SSE/(n-2)}=\frac{MSR}{MSE}$
## 複回歸
### 參數矩陣通解
$Y=X\beta+\varepsilon$
where $Y= \begin{pmatrix} y_1 \\ y_2 \\ . \\. \\. \\ y_n \end{pmatrix} $, $X= \begin{pmatrix} 1 & x_{11} & x_{21} & ... & x_{n1}\\ 1 & x_{12} & x_{22} & ... & x_{n2}\\ . &. \\. & & .\\. & & & . \\ 1 & x_{1n} & x_{2n} & ... & x_{nn}\end{pmatrix} $,$\beta = \begin{pmatrix} \beta_1 \\ \beta_2 \\ . \\. \\. \\ \beta_n \end{pmatrix} $, $\varepsilon = \begin{pmatrix} \varepsilon_1 \\ \varepsilon_2 \\ . \\. \\. \\ \varepsilon_n \end{pmatrix} $
#### 最小平方法
$min{(Y-X\beta)^T(Y-X\beta)}$
對β取微分得到(先用背的,因為還推不出來QQ):
$X^TX\beta - X^TY=0$
$\hat \beta=(X^TX)^{-1}X^TY$
#### 不偏性證明
$E(\hat\beta_{OLS})=E[(X^TX)^{-1}X^TY]=E[(X^TX)^{-1}X^T(X\beta+\varepsilon)]$
$=(X^TX)^{-1}X^TX\beta=\beta$
:::info
:information_source: $\because E(\varepsilon)=0$
:::