# 生物統計學
> Reference:國立中山大學 開放式課程 生物統計學1+2 (李玉玲教授)
## 統計之觀念
- 樣本(Samples)回推族群(Population)
- 樣本的介質(Statistic)推出族群的介量/徵值(Parameter)
- 重點:樣本之代表性
- median中位數;mode眾數
- $SS$=sum of square;$\sigma^2$=mean square
- 變異數的單位是單位^2^,難以想像,所以開根號變成標準差
## 常態分佈與趨中心定理
- 從一組不論分佈的數據中不斷抽樣,所有抽樣的結果會形成常態分布
- 這些抽樣的平均數與原數據相同,變異數為原變異數/n
## 擬說測驗之步驟(Test of Hypothesis)(以Z分佈為例)
1. 設定null hypothesis($H_0$)跟alternative hypothesis($H_a$,與$H_0$相對)
3. 假設(待測驗的東西)是常態分佈、樣本是隨機有代表性、已知標準差
4. 設定$\alpha$,並搭配$H_a$以設定critical region
5. 進行Z轉換
6. 若Z落在critical region,則接受$H_a$,拒絕$H_0$(標註可能犯Type I error);反之,則接受$H_0$(標註可能犯Type II error)。
:::info
Z轉換:
$Z=\frac{\bar{x}-\mu_0}{\sigma/\sqrt{n}}$
Type I error:
拒絕$H_0$,但實際上$H_0$成立。發生的機率為$\alpha$。(~~因為1要巨~~,所以拒絕$H_0$只會有型一錯誤)
Type II error:
接受$H_0$,但實際上應該拒絕。發生的機率$\beta$無法得知。若$\mu_0$和真正的$\mu$相近時、$\alpha$較小時,$\beta$上升;反之,若sample size提升、$\sigma$降低時,$\beta$下降。
$power\ of\ test\ =\ 1-\ \beta$
:::
## 用t分佈進行測驗之步驟
1. 設定null hypothesis($H_0$)跟alternative hypothesis($H_a$,與$H_0$相對)
3. 假設(待測驗的東西)是常態分佈、樣本是隨機有代表性
4. 設定$\alpha$,並搭配$H_a$、**df**(degree of freedom)以設定critical region
5. 計算t
6. 若t落在critical region,則接受$H_a$,拒絕$H_0$(標註可能犯Type I error);反之,則接受$H_0$(標註可能犯Type II error)。
:::info
t分佈中,df(degree of freedom) = n(sample size) - 1
$t=\frac{\bar{Y}-\mu_0}{S/\sqrt{n}}$
$S$為樣本標準差(因為z用到的$\sigma$母體標準差事實上無法取得,故t用樣本標準差可解決此問題)
故當t的自由度無限大時,t=z
:::
## Confidence Interval(信賴區間)
- 概念:用一段區間估計母體真實情況
- 目標:confidence coefficient高、interval length小
- confidence coefficient(信賴係數)之意義:
- 以信賴係數0.95為例,代表做100個信賴區間,有95個會涵蓋真實值
- 以Z計算:$P[\bar{Y}-1.96\cdot\frac{\sigma}{\sqrt{n}}\le\mu\le\bar{Y}+1.96\cdot\frac{\sigma}{\sqrt{n}}]=0.95$(以信賴係數0.95為例)
>但同樣的,Z分佈用了無法取得的母體標準差$\sigma$
>所以,要改用使用樣本標準差$S$的t分佈
- 以t計算:
- $P[\bar{Y}-t_{0.025}\cdot\frac{S}{\sqrt{n}}\le\mu\le\bar{Y}+t_{0.025}\cdot\frac{S}{\sqrt{n}}]=0.95$(以信賴係數0.95為例)
- $P[\bar{Y}-t_{\alpha/2}\cdot\frac{S}{\sqrt{n}}\le\mu\le\bar{Y}+t_{\alpha/2}\cdot\frac{S}{\sqrt{n}}]=1-\alpha$(一般式)
## Paired-T test
- 概念:控制confounding以比較兩族群的做法
### 操作步驟
1. 將不同族群中,有相同因子的數據分為一對(實驗設計時就應安排)
2. 將同對內的兩個數據相減(方向需相同),得到數據$d$
3. 計算出$\bar{d}$, $S_d$等數據
4. 設定$H_0$, $H_a$(若$H_0$為兩treatment效果無差異,則$H_0$為$\mu_d=0$)
5. 其後步驟同於以t分佈進行擬說測試的步驟
:::info
Paird-T test中使用的degree of freedom = n-1中的n,是指總共有幾對pair
:::
## $\chi^2$ distribution(卡方分布)
- 概念:檢測族群的$\sigma^2$是否為某個值
- $\chi^2=\frac{\sum(X_i-\mu)^2}{\sigma^2}$, $df=n$
- 特性:
- 範圍:$0\rightarrow\infty$
- 不對稱。但當n提升,會趨於對稱
- $E(\chi^2)=n$
- 具有加成性:$\chi^2_1+\chi^2_2=\chi^2_3$,此時$df_1+df_2=df_3$
:::info
同樣地,$\mu$是無法取得的,必須用$\bar{x}$代替。
此時改用此公式:$\chi^2=\frac{\sum(X_i-\bar{x})^2}{\sigma^2}$, **$df=n-1$**
:::
### 操作步驟
1. 設定$H_0$, $H_a$。例如:$H_0:\sigma^2=4$, $H_a:\sigma^2\neq4$。($H_a$也可能有方向性)
2. make assumptions:觀測值為常態分佈、取樣隨機有代表性
3. set $\alpha$
4. 用$df=n-1,\ \alpha$訂出critical region
5. 計算$\chi^2$值
6. 下結論
### 用$\chi^2$做confidence interval
$P[\frac{(n-1)S^2}{\chi^2_{1-\frac{\alpha}{2}}}\le\sigma^2\le\frac{(n-1)S^2}{\chi^2_\frac{\alpha}{2}}]=1-\alpha$
> $S^2$為樣本變異數
> $\chi^2_{1-\frac{\alpha}{2}},\ \chi^2_\frac{\alpha}{2}$可由查表得知,其中$df=n-1$
## F-distribution
- $H_0:\sigma^2_1=\sigma^2_2$
- 概念:由$N(\mu_1,\sigma^2_1)$取出同大為$n_1$之全部可能樣本,得每個樣本之變異數為$S^2_1$;另由$N(\mu_2,\sigma^2_2)$取出同大為$n_2$之全部可能樣本,得每個樣本之變異數為$S^2_2$。**當$\sigma^2_1=\sigma^2_2$時**,全部可能的比率$F=\frac{S^2_1}{S^2_2}$構成自由度$df_1=n_1-1$和$df_2=n_2-1$的F分佈。
- 特性:
- F-distribution有很多條,不同的$df_1, df_2$就有不同的分佈
- $0\le F\le\infty$
- $E(F)=1$
- $F_{a}(df_1,df_2)=\frac{1}{F_{1-a}(df_2,df_1)}$
- e.g. $F_{0.025}(2,3)=\frac{1}{F_{0.975}(3,2)}$
- 若**接受**$H_0$(即$\sigma^2_1=\sigma^2_1=\sigma^2$),則可計算$S^2_p$(p指pooled),用於估計$\sigma^2$。
- $S^2_p=\frac{SS_1+SS_2}{df_1+df_2}=\frac{S^2_1(n_1-1)+S^2_2(n_2-1)}{(n_1-1)+(n_2-1)}$
:::info
**Z, t, $\chi^2$, F分佈的關係**
$\frac{\chi^2}{df}=\frac{\frac{SS}{df}}{\sigma^2}=\frac{S^2}{\sigma^2}=F(df,\infty)$
如介值$\chi^2$為自由度$df$的卡方分佈,介值$\frac{\chi^2}{df}$即為自由度$df,\infty$的F分佈。
當t的自由度無限大時,t=z
$\chi^2=Z^2\ (df=1)$, $Z^2=\frac{\chi^2}{1}=F(1,\infty)$
$t^2(\infty)=F(1,\infty)$
$t^2_\frac{\alpha}{2}(df)=F_{1-\alpha}(1,df)$
:::
## t-test
- $H_0:\mu_1-\mu_2=\delta$
- 概念:自$Y_1,\ Y_2$兩族群中,重複取出大小為$n_1,\ n_2$的樣本,形成$\bar{Y_1},\ \bar{Y_2}$兩族群。再將此二族群中每個值相減,形成新族群。新族群之平均數為$\mu_1-\mu_2$,變異數為$\frac{\sigma^2_1}{n_1}+\frac{\sigma^2_2}{n_2}$。接下來,以此族群進行測試。
- 對此族群進行Z轉換:$Z=\frac{(\bar{Y_1}-\bar{Y_2})-\delta}{\sqrt{\frac{\sigma^2_1}{n_1}+\frac{\sigma^2_2}{n_2}}}$然而,$\sigma_1,\ \sigma_2$同樣不可能取得,需以$S_1,\ S_2$取代(即:改用t轉換)。
- 進行t轉換:$t=\frac{(\bar{Y_1}-\bar{Y_2})-\delta}{\sqrt{\frac{S^2_1}{n_1}+\frac{S^2_2}{n_2}}}$然而,$n_1,\ n_2$未必相同,t之$df$如何決定?首先,進行f檢測。
- 若接受$\sigma^2_1=\sigma^2_2$,則可做出$S^2_p$。接著,原本的t就可以改寫為$t=\frac{(\bar{Y_1}-\bar{Y_2})-\delta}{\sqrt{S^2_p(\frac{1}{n_1}+\frac{1}{n_2})}}$,$df=n_1+n_2-2$。
- 若拒絕$\sigma^2_1=\sigma^2_2$(即$\sigma^2_1\neq\sigma^2_2$),則**不可**做$S^2_p$。此時,$t=\frac{(\bar{Y_1}-\bar{Y_2})-\delta}{\sqrt{\frac{S^2_1}{n_1}+\frac{S^2_2}{n_2}}}$,需使用一近似:$t^{\prime}_{\alpha}$。
- 先用第一組樣本的$df=n_1-1$,找出$t_{\alpha_1}$(即用於決定critical region的t值);再用第二組樣本的$df=n_2-1$找出$t_{\alpha_2}$。接著,即可求出$t^{\prime}_{\alpha}=\frac{\frac{S^2_1}{n_1} t_{\alpha_1}+\frac{S^2_2}{n_2} t_{\alpha_2}}{\frac{S^2_1}{n_1}+\frac{S^2_2}{n_2}}$。此數值即可用於建立critical region。
- 若拒絕$\sigma^2_1=\sigma^2_2$,但是$n_1=n_2=n$。則,t改為$t=\frac{(\bar{Y_1}-\bar{Y_2})-\delta}{\sqrt{\frac{S^2_1+S^2_2}{n}}}$,$df=n-1$。
- 設計實驗時,以**同大樣本**為佳。因為樣本同大時,$\sigma^2$最小,$Z$會變大。則,更有機會拒絕$H_0$(即,犯Type-II error的機率$\beta$更小)。
## One Way ANOVA(Analysis of Variance, 變方分析)
- $H_0:\mu_1=\mu_2=\mu_3...$
- 概念:只有一個變項但產生好幾個族群(e.g.只有溫度變化,但是有25、30、35度處理後的結果)
- 變方分析
- 將平方和($SS$)劃分成幾個成分
- 可以用來測驗兩個以上的族群平均值相等的擬說
- $MS=S^2=\frac{SS}{df}$ ($MS=$mean square)
- $Y_{ij}=\bar{\bar{Y}}+(\bar{Y_i}-\bar{\bar{Y}})+(Y_{ij}-\bar{Y_i})$
- **個別數值=總平均+組間差異+隨機誤差**
- 前述公式移項後:$Y_{ij}-\bar{\bar{Y}}=(\bar{Y_i}-\bar{\bar{Y}})+(Y_{ij}-\bar{Y_i})$
- 兩側取平方和化簡後:$\sum\sum(Y_{ij}-\bar{\bar{Y}})^2=\sum\sum(Y_{ij}-\bar{Y_i})^2+\sum\sum(\bar{Y_i}-\bar{\bar{Y}})^2$
- 總平方和$SST$=組內平方和$SSE$+組間平方和$SSt$(SSE又稱SSW,SSt又稱SSB)
:::info
SST=SS total
SSE=SS error, SSt=SS treatment(需搭配使用)
SSW=SS within treatment, SSB=SS between treatment(需搭配使用)
$SSt=\sum\sum(\bar{Y_i}-\bar{\bar{Y}})^2=n\cdot\sum(\bar{Y_i}-\bar{\bar{Y}})^2$(n為每組的樣本數)
:::
- 若k個樣本皆來自同個族群($\mu,\sigma^2$皆相同),則$SSt$可用於估計$(k-1)\cdot\sigma^2$
- 若k個樣本的族群,其$\sigma^2$皆相同,則$SSE$可用於估計$(n-1)k\cdot\sigma^2$
### ANOVA表格
| SOV| SS | df | MS|
| -------- | -------- |--------|-------- |
| Treatment| $SSt$ | $(k-1)$ |$MSt$ |
| Error|$SSE$ | $k(n-1)$ |$MSE$ |
| Total|$SST$ | $kn-1$ | |
$F=\frac{MSt}{MSE}$
完成ANOVA表格、計算出F值後,進行F-test。此時,永遠使用**右尾**且$MSt$永遠放在分子。
:::info
SOV=Source of Variation
$MS=\frac{SS}{df}$
若K個樣本間的$\mu$不同,則$MSt$之期望值$E(MSt)=\sigma^2+n\sigma^2_\mu$,故$MSt$會增大,F增大,則F-test就會拒絕null hypothesis($\sigma^2_\mu$為各樣本間$\mu$的variance)。此即$MSt$永遠放在F的分母且F永遠採右尾的原因。
此外,由於$SST=SSE+SSt$,三個$SS$算兩個就可推出第三個。
:::
> ANOVA的觀念:組間差異是否比隨機誤差(組內差異)大。若組間差異比隨機誤差大,就可以推論不同處理確實造成不同的效應。所以要看$\frac{MSt}{MSE}$。
> ANOVA假設各樣本所來自之族群,$\sigma^2$相同
### 公式化簡
$SST=\sum\sum Y^2_{ij}-\frac{G^2}{kn}$
$SSt=\sum\frac{T^2_i}{n}-\frac{G^2}{kn}$
$SSE=\sum\sum Y^2_{ij}-\sum\frac{T^2_i}{n}$
:::info
$G=\bar{\bar{Y}}\cdot nk=grand\ total$
$T_i=\bar{Y_i}\cdot n$
:::
### 操作步驟
1. $H_0:\mu_1=\mu_2=\mu_3$
2. $H_a:At\ least\ one\ of\ the\ population\ differs\ from\ the\ rest$
3. Assumptions ... $\sigma^2_i$equal
4. set $\alpha$
5. set critical region
6. 計算表格、F值
7. 下結論(拒絕$H_0$->了解可能犯型一錯誤;拒絕$H_a$->了解可能犯型二錯誤)
:::info
Q:**n不一樣時,怎麼辦?**
A:$SSE$的$df$改為$\sum(n_i-1)$、$SST$的$df$改為$\sum n_i-1$
:::
### Orthogonal Contrast
- 問題意識:透過ANOVA發現多個樣本中,至少有一者的$\mu$不同時,如何找出不同的樣本?
1. 一個contrast需為$\sum C_i=0$
2. $\sum C_{1i}\cdot \mu_i$及$\sum C_{1i}\cdot \mu_i$為兩個contrast,當$\sum (C_{1i}\cdot C_{2i})=0$時,此二contrast彼此orthogonal
3. 對$df$為$k-1$之$SSt$,可將其分為$(k-1)$個彼此獨立之$SS$,每個$SS$具$df=1$。而這些$SS$相加等於$SSt$
::: info
假設有$\mu_1,\mu_2,\mu_3,\mu_4$(此時$df=k-1=4-1=3$)
**Contrast之概念**(1.)
設$H_0:\mu_1=\frac{\mu_2+\mu_3+\mu_4}{3}$,則移項得$3\mu_1-\mu_2-\mu_3-\mu_4=0$。此時,係數3, -1, -1, -1之和,即為$\sum C_i$。而此$\sum C_i=0$,故此為一組contrast
**Orthogonal之概念**(2.)
設$H_0:\mu_1+\mu_2=\mu_3+\mu_4$,則$C_{1i}:1,1,-1,-1$
設$H_0:\mu_1=\mu_2$,則$C_{2i}:1,-1,0,0$
設$H_0:\mu_3=\mu_4$,則$C_{3i}:0,0,1,-1$
此時,不論是$\sum (C_{1i}\cdot C_{2i}),\sum (C_{1i}\cdot C_{3i}),\sum (C_{2i}\cdot C_{3i})$皆為0,故此三contrast間,兩兩彼此orthogonal。
**而這三組$SS$各自的$df=1$,相加就與$SSt$的$df=3$相等。此三組$SS$相加,即等於$SSt$(3.)**
寫出orthogonal的重點:比過的別再比。
再一例:五個樣本的orthogonal contrast
3 3 -2 -2 -2
1 -1 0 0 0
0 0 2 -1 -1
0 0 0 1 -1
:::
### 計算Orthogonal contrast的t,F值 $H_0:\sum (C_i\mu_i)=0$
- $t=\frac{U-\mu_U}{\sqrt{Var(U)}}$
- $U=\sum (C_i\bar{Y_i})$其中$\sum C_i=0$
- $Var(U)=\sum (C^2_i\cdot\frac{\sigma^2_i}{n_i})$,寫成ANOVA的型式(假設所有$\sigma^2$皆相同):
- $Var(U)=MSE\cdot\frac{\sum C^2_i}{n}$(若n相同)
- $Var(U)=MSE\cdot\sum\frac{C^2_i}{n_i}$(若n不同)
> $Var(U)$的$df$就是$MSE$的$df$
- $F=t^2$,加工後得$F=\frac{(\sum C_iT_i)^2}{MSE\cdot n\cdot \sum C^2_i}$
- $Q^2=SS=\frac{(\sum C_iT_i)^2}{n\cdot \sum C^2_i}$
- 取得F值後執行F-test
### LSD最小顯著差異 Least Significance Difference (易顯著,不常用)
- 執行ANOVA顯著後判斷兩兩樣本是否顯著。接近簡化版T-test
- 概念:$\vert\bar{Y_1}-\bar{Y_2}\vert>LSD$
- $\vert\bar{Y_1}-\bar{Y_2}\vert>t_\frac{\alpha}{2}\cdot\sqrt{\frac{2MSE}{n}}$(即LSD)
- 亦可表達為:$\vert\bar{T_1}-\bar{T_2}\vert>t_\frac{\alpha}{2}\cdot\sqrt{2n\cdot MSE}$(即LSD)
> 註:$t$的$df$是$MSE$的$df$
### Scheff's
$\frac{U}{\sqrt{MSE\cdot\frac{\sum C^2_i}{n}}}>\sqrt{(k-1)F_\alpha}$ (等式右側加上$(k-1)$則樣本愈多愈不易顯著)
### Duncans Multiple Range (DMR)(最常用)
- DMR的想法和Scheff的想法相近,即差異越大的平均值,要有較大的差別才會顯著
$SSR_p=r_p\cdot\sqrt{\frac{MSE}{n}}$
> $SSR_p=Shortest\ Significant\ Range$
#### 操作步驟
1. 將每個樣本的平均值照大小排列
2. 照大小排列後的距離為p值(例如:ABCDEF 則A-F間的p值為6)
3. 查表取得$r_p$值
4. 計算$SSR_p=r_p\cdot\sqrt{\frac{MSE}{n}}$
5. 將$\vert\bar{Y_i}-\bar{Y_j}\vert$與$SSR_p$(注意需以i,j之距離決定p值)相比,若前者大於後者,則顯著。
:::info
如有一個包含幾個均值的不顯著變距存在,則此變距內任兩個均值差都不得為顯著
例:ABCDEF間,BD為不顯著,則BC、CD均不得為顯著
:::
- 最終表示方式:
- **不顯著**的群體劃一條底線 例:$\underline{ABC}D\underline{EF}$代表ABC間不顯著、EF間不顯著。底線也可能重疊。
- 不顯著的群體使用同一上標 例:$A^a\ B^a\ C^{ab}\ D^b E^b$代表ABC間不顯著、CDE間不顯著
## Randomized Block Design(RBD)
### 概念
1. 按block size分成幾個block,block間差異大
2. 每個block內,random給treatment level。每個block內每個treatment level均有且只有一個
3. $\bar{Y_i}$間差異已將block效應消除,可顯現treatment效應
4. model:$Y_{ij}=\mu+\alpha_i+\beta_i+\epsilon_{ij}$ (個別數值=平均+組間效應+block效應+隨機誤差)
### 表格
| SOV| SS | df | MS|
| -------- | -------- |--------|-------- |
| Treatment| $SSt$ | $(k-1)$ |$MSt$ |
| Block|$SSB$|$(n-1)$| $MSB$
| Error|$SSE$ | $(k-1)(n-1)$ |$MSE$ |
| Total|$SST$ | $kn-1$ | |
$F=\frac{MSt}{MSE}$
若block效應不顯著($F=\frac{MSB}{MSE}$),則做RBD不會比CRD(完全隨機設計,一般的ANOVA)有效率。但是實驗已經設計為RBD,仍需以RBD分析
### 簡化公式
$SST=\sum\sum Y^2_{ij}-\frac{G^2}{kn}$
$SSt=\sum\frac{T^2_t}{n}-\frac{G^2}{kn}$
$SSB=\sum\frac{T^2_r}{k}-\frac{G^2}{kn}$
$SSE=SST-SSt-SSB$
:::info
RDB假設在每個block中,treatment的效應恆定
(block和treatment沒有interaction)
:::
## Linear Regression 直線回歸
- $\hat{Y}=a+bX$ ($\hat{Y}$指$Y$的預測值)
- 若需表示觀測值$Y$,則公式需修正為$Y_i=a+bX+e_i$
- $\hat{Y}$稱為依變數,$X$稱為自變數
- 問題意識:
- 如何取得係數:斜率slope($b$)、截距intercept($a$)
- $H_0:\beta=0$($\beta$為斜率$b$)
- 研究$r$(correlation coefficient)和直線回歸的關係
- ANOVA和Regression的差異
- Linear Regression的假設
- 每個$X_i$下的$Y_i$均為normal distribution,且$\sigma^2$相同$\mu$不同
- $\mu_{Y_i X_i}$呈直線
- 係數:
- $b=\frac{\sum XY-n\bar{X}\bar{Y}}{\sum X^2 - n\bar{X}^2}$
- $a=\bar{Y}-b\bar{X}$
- 回歸直線必須:在X的範圍內,且必然通過$(\bar{X},\bar{Y})$
- 檢測$H_0:b=0$
- 拆分$SST=SSR+SSE$
- $SST=\sum Y^2$
- $SSR=b^2 \sum X^2=b \sum XY$
- $SSE=SST-SSR$
| SOV | SS | df | MS |
| --------- | ----- | ---- | ---- |
| Regression| $SSR$ | 1 | $MSR$|
| Error | $SSE$ | $n-2$| $MSE$|
| total | $SST$ | $n-1$| |
$F=\frac{MSR}{MSE}$
此時採取**單尾檢定**
> $E(MSR)=\sigma^2 + \beta^2\sum(X-\bar{X})^2$($MSR$之期望值為隨機誤差+回歸效應)
> $E(MSE)=\sigma^2$
> 因此,若null hypothesis成立,即回歸效應不存在($\beta=0$),則$MSR=MSE$,F-test應為不顯著
> 若alternative hypothesis成立,則$MSR$必定大於$MSE$,因此此時F-test亦採取**單尾**。
- 第二種檢測$H_0$的方式:t-test
- 寫出分佈(可做confidence interval):
- $\bar{Y}\sim N(\alpha,\frac{\sigma^2}{n})$
- $b\sim N(\beta,\frac{\sigma^2}{\sum X^2})$
- $t=\frac{b-\beta}{\sqrt{\frac{MSE}{\sum X^2}}}$
> t-test相較ANOVA的差別在於,除了可檢測$H_0:\beta=0$外,還可以檢測$H_0:\beta=$任意值,只要將想檢測的值帶入$t$中的$\beta$即可。若將$\beta$代入0後,用$F=t^2$的公式計算,會發現此F值和ANOVA的F值一樣。
> $F=t^2=\frac{b^2}{\frac{MSE}{\sum X^2}}=\frac{b^2 \sum X^2}{MSE}= \frac{MSR}{MSE}$
- confidence interval
- $\beta:b\pm t_{\frac{\alpha}{2}}\cdot S_b$
- $S_b=\sqrt{\frac{MSE}{\sum X^2}}$
- $\hat{Y}:\hat{Y}\pm t_{\frac{\alpha}{2}}\cdot S_\hat{Y}$
- $S_\hat{Y}=\sqrt{MSE(\frac{1}{n}+\frac{X_i-\bar{X}}{\sum X^2})}$
- coefficient of determination 決定係數
- $R^2=\frac{SSR}{SST}$, $0\le R^2\le 1$ (SS Regression有多大程度能解釋SS Total)
> $R^2=b_{yx}\cdot b_{xy}$
- correlation coefficient 相關係數
- $r=\frac{\sum XY}{\sqrt{\sum X^2 \sum Y^2}}$
| |r | b |
| -------- | -------- | -------- |
| Unit |N/A |$\frac{Y}{X}$|
| 範圍 |1~-1 |任意實數|
|意義|兩變數間的直線關係|X變動時Y的變動
|error|X,Y均有error|X without error
:::warning
相關係數高$\ne$有因果關係
相關係數只能測量線性關係
:::
- 檢測$H_0:\rho=0$(r=0)
- $t=\frac{r-\rho}{\sqrt{\frac{1-r^2}{n-2}}}$
- $F=t^2=\frac{r^2\cdot (n-2)}{1-r^2}$
## Two-way ANOVA複因子試驗
| SOV | SS | df | MS | F |
| -------- | -------- | -------- |-------- |-------- |
| A|SSA|$p-1$|MSA|$\frac{MSA}{MSE}$|
| B|SSB|$q-1$|MSB|$\frac{MSB}{MSE}$|
| A\*B(interaction)|SSAB|$(p-1)(q-1)$|MSAB| |
| ERROR|SSE|$(n-1)pq$|MSE| |
| Total|SST|$npq-1$ | | |
$SSA=\sum\frac{T^2_A}{nq}-\frac{G^2}{npq}$
$SSB=\sum\frac{T^2_B}{np}-\frac{G^2}{npq}$
$SST=\sum\sum\sum Y^2_{ijk}-\frac{G^2}{npq}$
$SSE=\sum\sum\sum Y^2_{ijk}-\frac{\sum T^2}{n}$
$SSAB=SST-SSA-SSB-SSE$
:::warning
若發現interaction顯著,則不可繼續用Two-way ANOVA分析main effect,需退回做One-way ANOVA。
:::
- Model:$Y_{ijk}=\mu+\alpha_i+\beta_j+\alpha\beta_{ij}+\epsilon_{ijk}$
- $Y_{ijk}=\bar{\bar{Y}}+(\bar{Y_A}-\bar{\bar{Y}})+(\bar{Y_B}-\bar{\bar{Y}})+(\bar{Y}-\bar{Y_A}-\bar{Y_B+\bar{\bar{Y}}})+(Y_{ijk}-\bar{Y})$
> $\bar{Y}$是同一個treatment level內n個重複的平均值
> T是同一個treatment level內n個重複的和
### example
| | $A_1$ | $A_2$ | $A_3$ | $A_4$ | $T_B$ |
| ----- | ----- | ----- |------ |-------|-------|
| $B_1$ | 5 9 | 4 4 |1 3 |2 4 | 32 |
| $B_2$ | 10 12 | 2 6 |2 2 |2 4 | 40 |
| $B_3$ | 12 12 | 9 11 |3 7 |8 10 | 72 |
| $T_A$ | 60 | 36 |18 |30 | G=144 |
- p=4(4個treatment 1)
- q=3(3個treatment 2)
- n=2(每個treatment level重複2次)