# 生物統計學 > Reference:國立中山大學 開放式課程 生物統計學1+2 (李玉玲教授) ## 統計之觀念 - 樣本(Samples)回推族群(Population) - 樣本的介質(Statistic)推出族群的介量/徵值(Parameter) - 重點:樣本之代表性 - median中位數;mode眾數 - $SS$=sum of square;$\sigma^2$=mean square - 變異數的單位是單位^2^,難以想像,所以開根號變成標準差 ## 常態分佈與趨中心定理 - 從一組不論分佈的數據中不斷抽樣,所有抽樣的結果會形成常態分布 - 這些抽樣的平均數與原數據相同,變異數為原變異數/n ## 擬說測驗之步驟(Test of Hypothesis)(以Z分佈為例) 1. 設定null hypothesis($H_0$)跟alternative hypothesis($H_a$,與$H_0$相對) 3. 假設(待測驗的東西)是常態分佈、樣本是隨機有代表性、已知標準差 4. 設定$\alpha$,並搭配$H_a$以設定critical region 5. 進行Z轉換 6. 若Z落在critical region,則接受$H_a$,拒絕$H_0$(標註可能犯Type I error);反之,則接受$H_0$(標註可能犯Type II error)。 :::info Z轉換: $Z=\frac{\bar{x}-\mu_0}{\sigma/\sqrt{n}}$ Type I error: 拒絕$H_0$,但實際上$H_0$成立。發生的機率為$\alpha$。(~~因為1要巨~~,所以拒絕$H_0$只會有型一錯誤) Type II error: 接受$H_0$,但實際上應該拒絕。發生的機率$\beta$無法得知。若$\mu_0$和真正的$\mu$相近時、$\alpha$較小時,$\beta$上升;反之,若sample size提升、$\sigma$降低時,$\beta$下降。 $power\ of\ test\ =\ 1-\ \beta$ ::: ## 用t分佈進行測驗之步驟 1. 設定null hypothesis($H_0$)跟alternative hypothesis($H_a$,與$H_0$相對) 3. 假設(待測驗的東西)是常態分佈、樣本是隨機有代表性 4. 設定$\alpha$,並搭配$H_a$、**df**(degree of freedom)以設定critical region 5. 計算t 6. 若t落在critical region,則接受$H_a$,拒絕$H_0$(標註可能犯Type I error);反之,則接受$H_0$(標註可能犯Type II error)。 :::info t分佈中,df(degree of freedom) = n(sample size) - 1 $t=\frac{\bar{Y}-\mu_0}{S/\sqrt{n}}$ $S$為樣本標準差(因為z用到的$\sigma$母體標準差事實上無法取得,故t用樣本標準差可解決此問題) 故當t的自由度無限大時,t=z ::: ## Confidence Interval(信賴區間) - 概念:用一段區間估計母體真實情況 - 目標:confidence coefficient高、interval length小 - confidence coefficient(信賴係數)之意義: - 以信賴係數0.95為例,代表做100個信賴區間,有95個會涵蓋真實值 - 以Z計算:$P[\bar{Y}-1.96\cdot\frac{\sigma}{\sqrt{n}}\le\mu\le\bar{Y}+1.96\cdot\frac{\sigma}{\sqrt{n}}]=0.95$(以信賴係數0.95為例) >但同樣的,Z分佈用了無法取得的母體標準差$\sigma$ >所以,要改用使用樣本標準差$S$的t分佈 - 以t計算: - $P[\bar{Y}-t_{0.025}\cdot\frac{S}{\sqrt{n}}\le\mu\le\bar{Y}+t_{0.025}\cdot\frac{S}{\sqrt{n}}]=0.95$(以信賴係數0.95為例) - $P[\bar{Y}-t_{\alpha/2}\cdot\frac{S}{\sqrt{n}}\le\mu\le\bar{Y}+t_{\alpha/2}\cdot\frac{S}{\sqrt{n}}]=1-\alpha$(一般式) ## Paired-T test - 概念:控制confounding以比較兩族群的做法 ### 操作步驟 1. 將不同族群中,有相同因子的數據分為一對(實驗設計時就應安排) 2. 將同對內的兩個數據相減(方向需相同),得到數據$d$ 3. 計算出$\bar{d}$, $S_d$等數據 4. 設定$H_0$, $H_a$(若$H_0$為兩treatment效果無差異,則$H_0$為$\mu_d=0$) 5. 其後步驟同於以t分佈進行擬說測試的步驟 :::info Paird-T test中使用的degree of freedom = n-1中的n,是指總共有幾對pair ::: ## $\chi^2$ distribution(卡方分布) - 概念:檢測族群的$\sigma^2$是否為某個值 - $\chi^2=\frac{\sum(X_i-\mu)^2}{\sigma^2}$, $df=n$ - 特性: - 範圍:$0\rightarrow\infty$ - 不對稱。但當n提升,會趨於對稱 - $E(\chi^2)=n$ - 具有加成性:$\chi^2_1+\chi^2_2=\chi^2_3$,此時$df_1+df_2=df_3$ :::info 同樣地,$\mu$是無法取得的,必須用$\bar{x}$代替。 此時改用此公式:$\chi^2=\frac{\sum(X_i-\bar{x})^2}{\sigma^2}$, **$df=n-1$** ::: ### 操作步驟 1. 設定$H_0$, $H_a$。例如:$H_0:\sigma^2=4$, $H_a:\sigma^2\neq4$。($H_a$也可能有方向性) 2. make assumptions:觀測值為常態分佈、取樣隨機有代表性 3. set $\alpha$ 4. 用$df=n-1,\ \alpha$訂出critical region 5. 計算$\chi^2$值 6. 下結論 ### 用$\chi^2$做confidence interval $P[\frac{(n-1)S^2}{\chi^2_{1-\frac{\alpha}{2}}}\le\sigma^2\le\frac{(n-1)S^2}{\chi^2_\frac{\alpha}{2}}]=1-\alpha$ > $S^2$為樣本變異數 > $\chi^2_{1-\frac{\alpha}{2}},\ \chi^2_\frac{\alpha}{2}$可由查表得知,其中$df=n-1$ ## F-distribution - $H_0:\sigma^2_1=\sigma^2_2$ - 概念:由$N(\mu_1,\sigma^2_1)$取出同大為$n_1$之全部可能樣本,得每個樣本之變異數為$S^2_1$;另由$N(\mu_2,\sigma^2_2)$取出同大為$n_2$之全部可能樣本,得每個樣本之變異數為$S^2_2$。**當$\sigma^2_1=\sigma^2_2$時**,全部可能的比率$F=\frac{S^2_1}{S^2_2}$構成自由度$df_1=n_1-1$和$df_2=n_2-1$的F分佈。 - 特性: - F-distribution有很多條,不同的$df_1, df_2$就有不同的分佈 - $0\le F\le\infty$ - $E(F)=1$ - $F_{a}(df_1,df_2)=\frac{1}{F_{1-a}(df_2,df_1)}$ - e.g. $F_{0.025}(2,3)=\frac{1}{F_{0.975}(3,2)}$ - 若**接受**$H_0$(即$\sigma^2_1=\sigma^2_1=\sigma^2$),則可計算$S^2_p$(p指pooled),用於估計$\sigma^2$。 - $S^2_p=\frac{SS_1+SS_2}{df_1+df_2}=\frac{S^2_1(n_1-1)+S^2_2(n_2-1)}{(n_1-1)+(n_2-1)}$ :::info **Z, t, $\chi^2$, F分佈的關係** $\frac{\chi^2}{df}=\frac{\frac{SS}{df}}{\sigma^2}=\frac{S^2}{\sigma^2}=F(df,\infty)$ 如介值$\chi^2$為自由度$df$的卡方分佈,介值$\frac{\chi^2}{df}$即為自由度$df,\infty$的F分佈。 當t的自由度無限大時,t=z $\chi^2=Z^2\ (df=1)$, $Z^2=\frac{\chi^2}{1}=F(1,\infty)$ $t^2(\infty)=F(1,\infty)$ $t^2_\frac{\alpha}{2}(df)=F_{1-\alpha}(1,df)$ ::: ## t-test - $H_0:\mu_1-\mu_2=\delta$ - 概念:自$Y_1,\ Y_2$兩族群中,重複取出大小為$n_1,\ n_2$的樣本,形成$\bar{Y_1},\ \bar{Y_2}$兩族群。再將此二族群中每個值相減,形成新族群。新族群之平均數為$\mu_1-\mu_2$,變異數為$\frac{\sigma^2_1}{n_1}+\frac{\sigma^2_2}{n_2}$。接下來,以此族群進行測試。 - 對此族群進行Z轉換:$Z=\frac{(\bar{Y_1}-\bar{Y_2})-\delta}{\sqrt{\frac{\sigma^2_1}{n_1}+\frac{\sigma^2_2}{n_2}}}$然而,$\sigma_1,\ \sigma_2$同樣不可能取得,需以$S_1,\ S_2$取代(即:改用t轉換)。 - 進行t轉換:$t=\frac{(\bar{Y_1}-\bar{Y_2})-\delta}{\sqrt{\frac{S^2_1}{n_1}+\frac{S^2_2}{n_2}}}$然而,$n_1,\ n_2$未必相同,t之$df$如何決定?首先,進行f檢測。 - 若接受$\sigma^2_1=\sigma^2_2$,則可做出$S^2_p$。接著,原本的t就可以改寫為$t=\frac{(\bar{Y_1}-\bar{Y_2})-\delta}{\sqrt{S^2_p(\frac{1}{n_1}+\frac{1}{n_2})}}$,$df=n_1+n_2-2$。 - 若拒絕$\sigma^2_1=\sigma^2_2$(即$\sigma^2_1\neq\sigma^2_2$),則**不可**做$S^2_p$。此時,$t=\frac{(\bar{Y_1}-\bar{Y_2})-\delta}{\sqrt{\frac{S^2_1}{n_1}+\frac{S^2_2}{n_2}}}$,需使用一近似:$t^{\prime}_{\alpha}$。 - 先用第一組樣本的$df=n_1-1$,找出$t_{\alpha_1}$(即用於決定critical region的t值);再用第二組樣本的$df=n_2-1$找出$t_{\alpha_2}$。接著,即可求出$t^{\prime}_{\alpha}=\frac{\frac{S^2_1}{n_1} t_{\alpha_1}+\frac{S^2_2}{n_2} t_{\alpha_2}}{\frac{S^2_1}{n_1}+\frac{S^2_2}{n_2}}$。此數值即可用於建立critical region。 - 若拒絕$\sigma^2_1=\sigma^2_2$,但是$n_1=n_2=n$。則,t改為$t=\frac{(\bar{Y_1}-\bar{Y_2})-\delta}{\sqrt{\frac{S^2_1+S^2_2}{n}}}$,$df=n-1$。 - 設計實驗時,以**同大樣本**為佳。因為樣本同大時,$\sigma^2$最小,$Z$會變大。則,更有機會拒絕$H_0$(即,犯Type-II error的機率$\beta$更小)。 ## One Way ANOVA(Analysis of Variance, 變方分析) - $H_0:\mu_1=\mu_2=\mu_3...$ - 概念:只有一個變項但產生好幾個族群(e.g.只有溫度變化,但是有25、30、35度處理後的結果) - 變方分析 - 將平方和($SS$)劃分成幾個成分 - 可以用來測驗兩個以上的族群平均值相等的擬說 - $MS=S^2=\frac{SS}{df}$ ($MS=$mean square) - $Y_{ij}=\bar{\bar{Y}}+(\bar{Y_i}-\bar{\bar{Y}})+(Y_{ij}-\bar{Y_i})$ - **個別數值=總平均+組間差異+隨機誤差** - 前述公式移項後:$Y_{ij}-\bar{\bar{Y}}=(\bar{Y_i}-\bar{\bar{Y}})+(Y_{ij}-\bar{Y_i})$ - 兩側取平方和化簡後:$\sum\sum(Y_{ij}-\bar{\bar{Y}})^2=\sum\sum(Y_{ij}-\bar{Y_i})^2+\sum\sum(\bar{Y_i}-\bar{\bar{Y}})^2$ - 總平方和$SST$=組內平方和$SSE$+組間平方和$SSt$(SSE又稱SSW,SSt又稱SSB) :::info SST=SS total SSE=SS error, SSt=SS treatment(需搭配使用) SSW=SS within treatment, SSB=SS between treatment(需搭配使用) $SSt=\sum\sum(\bar{Y_i}-\bar{\bar{Y}})^2=n\cdot\sum(\bar{Y_i}-\bar{\bar{Y}})^2$(n為每組的樣本數) ::: - 若k個樣本皆來自同個族群($\mu,\sigma^2$皆相同),則$SSt$可用於估計$(k-1)\cdot\sigma^2$ - 若k個樣本的族群,其$\sigma^2$皆相同,則$SSE$可用於估計$(n-1)k\cdot\sigma^2$ ### ANOVA表格 | SOV| SS | df | MS| | -------- | -------- |--------|-------- | | Treatment| $SSt$ | $(k-1)$ |$MSt$ | | Error|$SSE$ | $k(n-1)$ |$MSE$ | | Total|$SST$ | $kn-1$ | | $F=\frac{MSt}{MSE}$ 完成ANOVA表格、計算出F值後,進行F-test。此時,永遠使用**右尾**且$MSt$永遠放在分子。 :::info SOV=Source of Variation $MS=\frac{SS}{df}$ 若K個樣本間的$\mu$不同,則$MSt$之期望值$E(MSt)=\sigma^2+n\sigma^2_\mu$,故$MSt$會增大,F增大,則F-test就會拒絕null hypothesis($\sigma^2_\mu$為各樣本間$\mu$的variance)。此即$MSt$永遠放在F的分母且F永遠採右尾的原因。 此外,由於$SST=SSE+SSt$,三個$SS$算兩個就可推出第三個。 ::: > ANOVA的觀念:組間差異是否比隨機誤差(組內差異)大。若組間差異比隨機誤差大,就可以推論不同處理確實造成不同的效應。所以要看$\frac{MSt}{MSE}$。 > ANOVA假設各樣本所來自之族群,$\sigma^2$相同 ### 公式化簡 $SST=\sum\sum Y^2_{ij}-\frac{G^2}{kn}$ $SSt=\sum\frac{T^2_i}{n}-\frac{G^2}{kn}$ $SSE=\sum\sum Y^2_{ij}-\sum\frac{T^2_i}{n}$ :::info $G=\bar{\bar{Y}}\cdot nk=grand\ total$ $T_i=\bar{Y_i}\cdot n$ ::: ### 操作步驟 1. $H_0:\mu_1=\mu_2=\mu_3$ 2. $H_a:At\ least\ one\ of\ the\ population\ differs\ from\ the\ rest$ 3. Assumptions ... $\sigma^2_i$equal 4. set $\alpha$ 5. set critical region 6. 計算表格、F值 7. 下結論(拒絕$H_0$->了解可能犯型一錯誤;拒絕$H_a$->了解可能犯型二錯誤) :::info Q:**n不一樣時,怎麼辦?** A:$SSE$的$df$改為$\sum(n_i-1)$、$SST$的$df$改為$\sum n_i-1$ ::: ### Orthogonal Contrast - 問題意識:透過ANOVA發現多個樣本中,至少有一者的$\mu$不同時,如何找出不同的樣本? 1. 一個contrast需為$\sum C_i=0$ 2. $\sum C_{1i}\cdot \mu_i$及$\sum C_{1i}\cdot \mu_i$為兩個contrast,當$\sum (C_{1i}\cdot C_{2i})=0$時,此二contrast彼此orthogonal 3. 對$df$為$k-1$之$SSt$,可將其分為$(k-1)$個彼此獨立之$SS$,每個$SS$具$df=1$。而這些$SS$相加等於$SSt$ ::: info 假設有$\mu_1,\mu_2,\mu_3,\mu_4$(此時$df=k-1=4-1=3$) **Contrast之概念**(1.) 設$H_0:\mu_1=\frac{\mu_2+\mu_3+\mu_4}{3}$,則移項得$3\mu_1-\mu_2-\mu_3-\mu_4=0$。此時,係數3, -1, -1, -1之和,即為$\sum C_i$。而此$\sum C_i=0$,故此為一組contrast **Orthogonal之概念**(2.) 設$H_0:\mu_1+\mu_2=\mu_3+\mu_4$,則$C_{1i}:1,1,-1,-1$ 設$H_0:\mu_1=\mu_2$,則$C_{2i}:1,-1,0,0$ 設$H_0:\mu_3=\mu_4$,則$C_{3i}:0,0,1,-1$ 此時,不論是$\sum (C_{1i}\cdot C_{2i}),\sum (C_{1i}\cdot C_{3i}),\sum (C_{2i}\cdot C_{3i})$皆為0,故此三contrast間,兩兩彼此orthogonal。 **而這三組$SS$各自的$df=1$,相加就與$SSt$的$df=3$相等。此三組$SS$相加,即等於$SSt$(3.)** 寫出orthogonal的重點:比過的別再比。 再一例:五個樣本的orthogonal contrast 3 3 -2 -2 -2 1 -1 0 0 0 0 0 2 -1 -1 0 0 0 1 -1 ::: ### 計算Orthogonal contrast的t,F值 $H_0:\sum (C_i\mu_i)=0$ - $t=\frac{U-\mu_U}{\sqrt{Var(U)}}$ - $U=\sum (C_i\bar{Y_i})$其中$\sum C_i=0$ - $Var(U)=\sum (C^2_i\cdot\frac{\sigma^2_i}{n_i})$,寫成ANOVA的型式(假設所有$\sigma^2$皆相同): - $Var(U)=MSE\cdot\frac{\sum C^2_i}{n}$(若n相同) - $Var(U)=MSE\cdot\sum\frac{C^2_i}{n_i}$(若n不同) > $Var(U)$的$df$就是$MSE$的$df$ - $F=t^2$,加工後得$F=\frac{(\sum C_iT_i)^2}{MSE\cdot n\cdot \sum C^2_i}$ - $Q^2=SS=\frac{(\sum C_iT_i)^2}{n\cdot \sum C^2_i}$ - 取得F值後執行F-test ### LSD最小顯著差異 Least Significance Difference (易顯著,不常用) - 執行ANOVA顯著後判斷兩兩樣本是否顯著。接近簡化版T-test - 概念:$\vert\bar{Y_1}-\bar{Y_2}\vert>LSD$ - $\vert\bar{Y_1}-\bar{Y_2}\vert>t_\frac{\alpha}{2}\cdot\sqrt{\frac{2MSE}{n}}$(即LSD) - 亦可表達為:$\vert\bar{T_1}-\bar{T_2}\vert>t_\frac{\alpha}{2}\cdot\sqrt{2n\cdot MSE}$(即LSD) > 註:$t$的$df$是$MSE$的$df$ ### Scheff's $\frac{U}{\sqrt{MSE\cdot\frac{\sum C^2_i}{n}}}>\sqrt{(k-1)F_\alpha}$ (等式右側加上$(k-1)$則樣本愈多愈不易顯著) ### Duncans Multiple Range (DMR)(最常用) - DMR的想法和Scheff的想法相近,即差異越大的平均值,要有較大的差別才會顯著 $SSR_p=r_p\cdot\sqrt{\frac{MSE}{n}}$ > $SSR_p=Shortest\ Significant\ Range$ #### 操作步驟 1. 將每個樣本的平均值照大小排列 2. 照大小排列後的距離為p值(例如:ABCDEF 則A-F間的p值為6) 3. 查表取得$r_p$值 4. 計算$SSR_p=r_p\cdot\sqrt{\frac{MSE}{n}}$ 5. 將$\vert\bar{Y_i}-\bar{Y_j}\vert$與$SSR_p$(注意需以i,j之距離決定p值)相比,若前者大於後者,則顯著。 :::info 如有一個包含幾個均值的不顯著變距存在,則此變距內任兩個均值差都不得為顯著 例:ABCDEF間,BD為不顯著,則BC、CD均不得為顯著 ::: - 最終表示方式: - **不顯著**的群體劃一條底線 例:$\underline{ABC}D\underline{EF}$代表ABC間不顯著、EF間不顯著。底線也可能重疊。 - 不顯著的群體使用同一上標 例:$A^a\ B^a\ C^{ab}\ D^b E^b$代表ABC間不顯著、CDE間不顯著 ## Randomized Block Design(RBD) ### 概念 1. 按block size分成幾個block,block間差異大 2. 每個block內,random給treatment level。每個block內每個treatment level均有且只有一個 3. $\bar{Y_i}$間差異已將block效應消除,可顯現treatment效應 4. model:$Y_{ij}=\mu+\alpha_i+\beta_i+\epsilon_{ij}$ (個別數值=平均+組間效應+block效應+隨機誤差) ### 表格 | SOV| SS | df | MS| | -------- | -------- |--------|-------- | | Treatment| $SSt$ | $(k-1)$ |$MSt$ | | Block|$SSB$|$(n-1)$| $MSB$ | Error|$SSE$ | $(k-1)(n-1)$ |$MSE$ | | Total|$SST$ | $kn-1$ | | $F=\frac{MSt}{MSE}$ 若block效應不顯著($F=\frac{MSB}{MSE}$),則做RBD不會比CRD(完全隨機設計,一般的ANOVA)有效率。但是實驗已經設計為RBD,仍需以RBD分析 ### 簡化公式 $SST=\sum\sum Y^2_{ij}-\frac{G^2}{kn}$ $SSt=\sum\frac{T^2_t}{n}-\frac{G^2}{kn}$ $SSB=\sum\frac{T^2_r}{k}-\frac{G^2}{kn}$ $SSE=SST-SSt-SSB$ :::info RDB假設在每個block中,treatment的效應恆定 (block和treatment沒有interaction) ::: ## Linear Regression 直線回歸 - $\hat{Y}=a+bX$ ($\hat{Y}$指$Y$的預測值) - 若需表示觀測值$Y$,則公式需修正為$Y_i=a+bX+e_i$ - $\hat{Y}$稱為依變數,$X$稱為自變數 - 問題意識: - 如何取得係數:斜率slope($b$)、截距intercept($a$) - $H_0:\beta=0$($\beta$為斜率$b$) - 研究$r$(correlation coefficient)和直線回歸的關係 - ANOVA和Regression的差異 - Linear Regression的假設 - 每個$X_i$下的$Y_i$均為normal distribution,且$\sigma^2$相同$\mu$不同 - $\mu_{Y_i X_i}$呈直線 - 係數: - $b=\frac{\sum XY-n\bar{X}\bar{Y}}{\sum X^2 - n\bar{X}^2}$ - $a=\bar{Y}-b\bar{X}$ - 回歸直線必須:在X的範圍內,且必然通過$(\bar{X},\bar{Y})$ - 檢測$H_0:b=0$ - 拆分$SST=SSR+SSE$ - $SST=\sum Y^2$ - $SSR=b^2 \sum X^2=b \sum XY$ - $SSE=SST-SSR$ | SOV | SS | df | MS | | --------- | ----- | ---- | ---- | | Regression| $SSR$ | 1 | $MSR$| | Error | $SSE$ | $n-2$| $MSE$| | total | $SST$ | $n-1$| | $F=\frac{MSR}{MSE}$ 此時採取**單尾檢定** > $E(MSR)=\sigma^2 + \beta^2\sum(X-\bar{X})^2$($MSR$之期望值為隨機誤差+回歸效應) > $E(MSE)=\sigma^2$ > 因此,若null hypothesis成立,即回歸效應不存在($\beta=0$),則$MSR=MSE$,F-test應為不顯著 > 若alternative hypothesis成立,則$MSR$必定大於$MSE$,因此此時F-test亦採取**單尾**。 - 第二種檢測$H_0$的方式:t-test - 寫出分佈(可做confidence interval): - $\bar{Y}\sim N(\alpha,\frac{\sigma^2}{n})$ - $b\sim N(\beta,\frac{\sigma^2}{\sum X^2})$ - $t=\frac{b-\beta}{\sqrt{\frac{MSE}{\sum X^2}}}$ > t-test相較ANOVA的差別在於,除了可檢測$H_0:\beta=0$外,還可以檢測$H_0:\beta=$任意值,只要將想檢測的值帶入$t$中的$\beta$即可。若將$\beta$代入0後,用$F=t^2$的公式計算,會發現此F值和ANOVA的F值一樣。 > $F=t^2=\frac{b^2}{\frac{MSE}{\sum X^2}}=\frac{b^2 \sum X^2}{MSE}= \frac{MSR}{MSE}$ - confidence interval - $\beta:b\pm t_{\frac{\alpha}{2}}\cdot S_b$ - $S_b=\sqrt{\frac{MSE}{\sum X^2}}$ - $\hat{Y}:\hat{Y}\pm t_{\frac{\alpha}{2}}\cdot S_\hat{Y}$ - $S_\hat{Y}=\sqrt{MSE(\frac{1}{n}+\frac{X_i-\bar{X}}{\sum X^2})}$ - coefficient of determination 決定係數 - $R^2=\frac{SSR}{SST}$, $0\le R^2\le 1$ (SS Regression有多大程度能解釋SS Total) > $R^2=b_{yx}\cdot b_{xy}$ - correlation coefficient 相關係數 - $r=\frac{\sum XY}{\sqrt{\sum X^2 \sum Y^2}}$ | |r | b | | -------- | -------- | -------- | | Unit |N/A |$\frac{Y}{X}$| | 範圍 |1~-1 |任意實數| |意義|兩變數間的直線關係|X變動時Y的變動 |error|X,Y均有error|X without error :::warning 相關係數高$\ne$有因果關係 相關係數只能測量線性關係 ::: - 檢測$H_0:\rho=0$(r=0) - $t=\frac{r-\rho}{\sqrt{\frac{1-r^2}{n-2}}}$ - $F=t^2=\frac{r^2\cdot (n-2)}{1-r^2}$ ## Two-way ANOVA複因子試驗 | SOV | SS | df | MS | F | | -------- | -------- | -------- |-------- |-------- | | A|SSA|$p-1$|MSA|$\frac{MSA}{MSE}$| | B|SSB|$q-1$|MSB|$\frac{MSB}{MSE}$| | A\*B(interaction)|SSAB|$(p-1)(q-1)$|MSAB| | | ERROR|SSE|$(n-1)pq$|MSE| | | Total|SST|$npq-1$ | | | $SSA=\sum\frac{T^2_A}{nq}-\frac{G^2}{npq}$ $SSB=\sum\frac{T^2_B}{np}-\frac{G^2}{npq}$ $SST=\sum\sum\sum Y^2_{ijk}-\frac{G^2}{npq}$ $SSE=\sum\sum\sum Y^2_{ijk}-\frac{\sum T^2}{n}$ $SSAB=SST-SSA-SSB-SSE$ :::warning 若發現interaction顯著,則不可繼續用Two-way ANOVA分析main effect,需退回做One-way ANOVA。 ::: - Model:$Y_{ijk}=\mu+\alpha_i+\beta_j+\alpha\beta_{ij}+\epsilon_{ijk}$ - $Y_{ijk}=\bar{\bar{Y}}+(\bar{Y_A}-\bar{\bar{Y}})+(\bar{Y_B}-\bar{\bar{Y}})+(\bar{Y}-\bar{Y_A}-\bar{Y_B+\bar{\bar{Y}}})+(Y_{ijk}-\bar{Y})$ > $\bar{Y}$是同一個treatment level內n個重複的平均值 > T是同一個treatment level內n個重複的和 ### example | | $A_1$ | $A_2$ | $A_3$ | $A_4$ | $T_B$ | | ----- | ----- | ----- |------ |-------|-------| | $B_1$ | 5 9 | 4 4 |1 3 |2 4 | 32 | | $B_2$ | 10 12 | 2 6 |2 2 |2 4 | 40 | | $B_3$ | 12 12 | 9 11 |3 7 |8 10 | 72 | | $T_A$ | 60 | 36 |18 |30 | G=144 | - p=4(4個treatment 1) - q=3(3個treatment 2) - n=2(每個treatment level重複2次)