# 商統不會的公式&檢定的decision rolue 先記錄下來:( ## 解釋為什麼cretical value approach的 desion role 跟 p-value approach不同 ### 以T分布為例 $H_0: \mu \le \mu_0$ v.s $H_1: \mu > \mu_0$ Let W(X) be a test by p-value definition:statistc $P_{\mu,\sigma}(W(X)\ge W(x))=P_{\mu,\sigma}(\frac {\bar x - \mu_0}{s ÷ \sqrt n}\ge W(x))$ $=P_{\mu,\sigma}(\frac {\bar x - \mu_0}{s ÷ \sqrt n}+\frac { \mu_0 - \mu}{s ÷ \sqrt n}\ge W(x)+\frac { \mu_0 - \mu}{s ÷ \sqrt n})$ $=P_{\mu,\sigma}(\frac {\bar x - \mu}{s ÷ \sqrt n}\ge W(x)+\frac { \mu_0 - \mu}{s ÷ \sqrt n})$ $=P_{\mu,\sigma}(T_{(n-1)}\ge W(x)+\frac { \mu_0 - \mu}{s ÷ \sqrt n})\le P_{\mu,\sigma}(T_{(n-1)}\ge W(x))$, $\because \mu_0-\mu \le0 by  H_0$ So as we can see, the desion role of cretical value and p-value is totolly opposited. ## 為什麼有的公式要多除根號n有的不用 從[wiki](https://zh.m.wikipedia.org/zh-tw/%E4%B8%AD%E5%BF%83%E6%9E%81%E9%99%90%E5%AE%9A%E7%90%86)來看,常態分佈的由來是中央極限定理,原始版本不需要除n 如果是從二項式分佈推到常態分佈的也不需要除n,例如比率方面的檢定。 只有平均才需要多除根號n。 我流推導:中央極限定理同除n得到平均數版,<u>也就是說,用平均數才需要同除以n,加總直接用CLT的原始版解決即可。</u> ## 其他注意事項(考慮移走) 從二項式分配轉至常態分配時,要求的機率最好加\減0.5(視檢定要求大於還是小於),因為一個是離散,一個是連續。 ## Difference Between 2 Population means:($\mu$) >source:10.2 ### 檢定be like: $H_0:\mu_1-\mu_2><=D_0$ v.s $H_1: not \ H_0$ ### 變異數已知:使用Z分配。 $z={(\bar x_1-\bar x_2)-D_0 \over \sqrt{\frac{σ^2_1}{n_1}+\frac{σ^2_2}{n_2}}}$ ### 變異數未知:使用t分配。 $df ={(\frac{s_1^2}{n_1}+\frac {s_2^2}{n_2})^2 \over \frac {1}{n_1-1}\times(\frac {s_1^2}{n_1})^2+ \frac {1}{n_2-1}\times(\frac {s_2^2}{n_2})^2}$ $t={(\bar x_1-\bar x_2)-D_0 \over \sqrt{\frac{s^2_1}{n_1}+\frac{s^2_2}{n_2}}}$ ### 變異數未知但<u>假定標準差一樣</u>($σ^2_1=σ^2_2$):還是t分配 $s_p={(n_1-1)s_1^2+(n_2-1)s_2\over n_1+n_2-2}$ $t={(\bar x_1-\bar x_2)-D_0 \over s_p \sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}$ ## Difference Between 2 Population means: Matched Samples ($\mu$) >souce:10.3 ### 檢定be like: $H_0:\mu_1-\mu_2=0$ v.s $H_1: not \ H_0$ ### 直接t分配 $t={\bar d - \mu_d \over s_d ÷\sqrt n}$ $\bar d=\frac{\sum d_i}{n}=\frac{\sum (x_{1i}-x_{2i})}{n}$ ## Difference Between 2 Population proportions ( p ) > souce:10.4 ### 檢定be like: $H_0:p_1-p_2=0$ v.s $H_1: not \ H_0$ ### 直接z分配 $z={\bar p_1 -\bar p_2) \over \sqrt {\bar p (1- \bar p)(\frac {1}{n_1}+\frac {1}{n_2})}}$ $\bar p = {n_1 \bar p_1 + n_2 \bar p_2 \over n_1 + n_2}$ ## Inferences About a Population Variance($σ^2$) >souce:11.1 ### 檢定be like: $H_0:σ^2><=σ_0^2$ v.s $H_1: not \ H_0$ ### 卡方 $χ^2={(n-1)s^2 \over σ^2_0}$ ### desion rule | 性質 | 大於等於 | 小於等於 | 雙尾 | | -------- | -------- | -------- | -------- | | test be like | $H_0:σ^2≧σ_0^2$ | $H_0:σ^2≦σ_0^2$ |$H_0:σ^2=σ_0^2$| |reject $H_0$ :cretical value approach| $χ^2≦χ^2_{1-\alpha}$|$χ^2≧χ^2_{\alpha}$|$χ^2≦χ^2_{1-\alpha/2}$ or $χ^2≧χ^2_{1-\alpha/2}$ ## Inferences About 2 Population Variance >souce:11.2 ### 檢定be like: $H_0:σ_1^2<>=σ_2^2$ v.s $H_1: not \ H_0$ ### F 檢定 $F=\frac {s_1^2}{s_2^2}$ $df=n_1-1,n_2-1$ ### desion rule | 性質 | 小於等於 | 雙尾 | | -------- | -------- | -------- | test be like | $H_0:σ_1^2≦σ_2^2$|$H_0:σ_1^2=σ_2^2$| |reject $H_0$ :cretical value approach| $F≧F_\alpha$ | $F≧F_{\alpha/2}$ |Note| | $s_1^2>s_2^2$| ### one-way ANOVA 代號說明: - $n_j$=不同實驗方法的各數 - $\bar x_j$= 實驗方法j的平均 $H_0: μ_1 = μ_2 = μ_3 ... = μ_k$ v.s $H_1:not H_0$ | Source of Variation | Degrees of Freedom (df) | Sums of Squares (SS) | Mean Squares (MS) | F | | ------------------- | ----------------------- | -------------------- | ----------------- | --- | | Between Treatments | k-1 | SSB = $\sum \sum n_j(\bar x_j-\bar x)^2$ | SSB/(k-1) | $\frac{MSB}{MSE}$ | | Error (or Residual) | N-k | SSR = $\sum \sum (x_{ij}-\bar x_j)^2$ | SSR/(N-k) | | | Total | N-1 | SST = $\sum \sum (\bar x_{ij}-\bar x)^2$ | | | #### desion rule v.s $F_{k-1,N-k}$ - $>F_{k-1,N-k}$ -> reject $H_0$ ## 無母數部分 ### Sign test #### 檢定be like: $H_0: Median >=< d$ v.s $H_1: not  H_0$, where d is constant 轉為: $H_0: p >=< 0.5$ v.s $H_1: not H_0$ #### step 1. 在樣本值旁紀錄,大於中位數為+,小於為-,持平不計。 2. 使用二項式分布,帶入$H_0$條件與+號數 $\sum_{x=+號數}^{n-持平}\tbinom{n}{x}(0.5)^{n-持平}$ 3. 漸進常態分配,請用: $X~Bin(n,p)=X~N(np+0.5,npq)$然後CLT起來。 4. Bin算出來即為P-value,跟α比大小。 ### Wilcoxon sigin-rank test > 條件: obs.有相同分布 #### 檢定be like: $H_0: method A中位數 - method B中位數=0$ v.s $H_1: not H_0$ #### step 1. 算樣本A-樣本B的差、差的絕對值,依差的絕對值排rank(rank一樣的一起+0.5),計算 ## ANOVA for 迴歸 易忘ㄉ公式: $S_{xx}=\sum X_i^2-n\bar x^2$ $S_{xy}=\sum X_iY_i-n\bar x \bar y$ $b_1=\frac{S_{xy}}{S_xx}$ $b_0=\bar y - b_1\bar x$ $SSR=b_1S_{xy}$ $SST=\sum(y_i-\bar y)^2=\sum y_i^2-n(\bar y)^2$ ### 簡單迴歸 $Y_i=\beta_0+\beta_1X_1+ε_i$ $\hat y=\hat \beta_0+\hat\beta_1 \hat x_i$ #### ANOVA | source |df | SS| | -------- | -------- | -------- | | REG | 1(自變數個數) | $\sum (\hat y_i-\bar y)=b_1S_{xy}$ | |ERR | n-1-reg | SST-SSR | |TOTAL | n-1 | $S_{yy}=E(Y^2)-[E(Y)]^2$ | #### $\beta_1$/$\beta_0$ infrence ##### 檢定be like: $H_0=\beta_1>=<c v.s not H_0$ $H_0=\beta_0>=<c v.s not H_0$ where c is a constant. ##### $b_0$,$b_1$之期望值、變異數 皆服從於常態分配 $b_0~N(\beta_0,\frac{\sigma^2}{n}\frac{\sum x^2}{\sum (x-\bar x)^2}=\sigma^2[\frac{1}{n}+\frac{\bar x}{\sum (x- \bar x)^2}])$ $b_1~N(\beta_1,\frac{\sigma^2}{\sum (x-\bar x)^2})$ 其中$\sigma^2$在實務上為未知,以$MSE$代替;計算分配也從常態轉為T分配。 以$b_1$為例,對應分配及統計量計算為: $\frac{(b_1-\beta_1)}{s(b_1)}~T_{n-2}$ $s(b_1)=\frac{MSE}{\sum (X_i-\bar X)^2}=\frac{MSE}{S_{xx}}$ :::success :information_source: 紀錄一下變異數推導過程 $Var(b_1)=Var(\frac{S_{xy}}{S_{xx}})=\frac{Var(\sum(x_i-\bar x)(y_i-\bar y)}{S^2_{xx}}$ Since $\sum (x_i - \bar x)\bar y = \bar y \sum (x_i- \bar x)= \bar y (\sum x_i - n \bar x)=0$, therefore, $=\frac{Var[\sum(x_i-\bar x)y_i]}{S^2_{xx}}=\frac{\sum(x_i-\bar x)^2Var(y_i)}{S^2_{xx}}=\frac{S_{xx}\sigma^2}{S^2_{xx}}$ $Var(b_0)=Var(\bar y - b_1\bar x)=Var(\bar y) + Var(b_1\bar x)$ Since $Cov(\bar y , b_1)=0$ (自行推導,懶) $=\frac{\sigma^2}{n}+\bar x^2Var(b_1)=\frac{\sigma^2}{n}+\bar x^2\frac{\sigma^2}{S_xx}$ ::: ### $R^2$ for 簡單迴歸 >$r^2$是ρ的不偏統計量。 公式: $r^2=\frac{SSR}{SST}=\frac{\sum (\hat Y - \bar Y)^2}{\sum (Y- \bar Y)^2}$ $r=b_1 \frac{s_x}{s_y}$ :::info :information_source: 直覺想法:$\frac{估計變異}{真實變異}$ ::: #### $r^2$推論 建議直接在ANOVA時用$\frac{MSR}{MSE}$與F檢定比對。原版做法則是T分配: ##### 檢定be like: $H_0=ρ>=<0 v.s not H_0$ 統計量計算: $t=\frac{r \sqrt n-2}{\sqrt 1-r^2}$與$t_{(n-2)}$比較 F版演化過程: $t^2=\frac{r^2(n-2)}{1-r^2}=\frac{r^2/1}{(1-r^2)/(n-2)}=\frac{SSR/1}{SSE/(n-2)}=\frac{MSR}{MSE}$ ## 複回歸 ### 參數矩陣通解 $Y=X\beta+\varepsilon$ where $Y= \begin{pmatrix} y_1 \\ y_2 \\ . \\. \\. \\ y_n \end{pmatrix}  $, $X= \begin{pmatrix} 1 & x_{11} & x_{21} & ... & x_{n1}\\ 1 & x_{12} & x_{22} & ... & x_{n2}\\ . &. \\. & & .\\. & & & . \\ 1 & x_{1n} & x_{2n} & ... & x_{nn}\end{pmatrix}  $,$\beta = \begin{pmatrix} \beta_1 \\ \beta_2 \\ . \\. \\. \\ \beta_n \end{pmatrix}  $, $\varepsilon = \begin{pmatrix} \varepsilon_1 \\ \varepsilon_2 \\ . \\. \\. \\ \varepsilon_n \end{pmatrix}  $ #### 最小平方法 $min{(Y-X\beta)^T(Y-X\beta)}$ 對β取微分得到(先用背的,因為還推不出來QQ): $X^TX\beta - X^TY=0$ $\hat \beta=(X^TX)^{-1}X^TY$ #### 不偏性證明 $E(\hat\beta_{OLS})=E[(X^TX)^{-1}X^TY]=E[(X^TX)^{-1}X^T(X\beta+\varepsilon)]$ $=(X^TX)^{-1}X^TX\beta=\beta$ :::info :information_source: $\because E(\varepsilon)=0$ :::