# 生物統計學-NCKU ## Lek.0 Introduction 研究設計與資料收集是最重要的。而資料屬性也很重要! :::info #### 案例:喜好度調查 喜好度調查以五分為量尺, 1. 非常不喜歡 2. 不喜歡 3. 無意見 4. 喜歡 5. 非常喜歡 但是,這是類別資料而非連續資料。故呈現統計資料時應分述五類別的統計量,而**不能**逕予平均,得出如「喜好度平均3.75分,介於無意見到喜歡之間」的結果。 ::: ### 統計的功能 1. 決定抽樣與資料收集方法 2. 監測研究是否需提早結束(可能病安出問題或效果非常好)與處理資料 3. 提出研究結果的強度與限制 ### 雙變量統計的三種關係 1. 類別-連續 例如:藥物種類對病人收縮壓 2. 類別-類別 例如:藥物種類對病人預後(e.g.五年存活與否) 3. 連續-連續 例如:病人血壓對睡眠品質(可量化為連續資料) ### 推論性統計的兩大支柱:估計與檢定 Association$\ne$Cause/Effect 橫斷面研究不能推論因果,RCT才可以 Interim期中分析 cross-sectional大約等於survey 介於實驗與觀察之間:原爆倖存者實驗(觀察性研究需為自然發生或自選,但是原爆是人為,又不是為了實驗所為,稱為pseudo-experiment) #### 橫斷研究 好處:方便快速 壞處:沒有時序資訊、容易不回應 ## Lek.1 ### Cohort - 耗時 - 高成本 - 低發生率疾病很貴 - 可找出時序關係temporal relationship - 用暴露追疾病 ### Case-control - 用疾病回憶(溯)暴露 - 省錢 - 省時 - 對於長潛伏期疾病比較好用 - 用Odds Ratio #### Bias們 - 選樣selection bias - 對照組偏差:經典案例-哈佛胰臟癌研究 - 疾病組偏差:案例-在急診找心臟病患,但是太嚴重的不會進急診、很輕微的也不會進急診 - 回憶recall bias - e.g.嬰兒猝死症的家長會比對照組更認真回憶,甚至過度回憶 - 觀察observation bias ### RCT 對照組與實驗組隨機分派後組成應屬相似(已知、未知因素均平均),給予暴露後觀察結果。 :::info ##### Intention to Treat 用原先分配的組別分析結果 Effectiveness ##### Explanatory Trial 用最後實際實驗的分配進行分析 Efficacy ::: #### 問題 - 不能拿易感族群做實驗,因此結果很難外推。 - 不夠隨機的問題:可以分層再隨機 ### 臨床試驗 #### Phase I Safety 小族群、健康族群,測試安全 #### Phase II Feasibility Study 繼續測試安全 #### Phase III Clinical Trial Efficacy - Trial #### Phase IV Post-Market Effectiveness - Real World ## Lek.2 描述性統計 - nominal類別(名目) - e.g.血型A B O AB對應1 2 3 4 - 特別型類別:二分類 - ordinal序位 - e.g.檢傷分級(第一級~第五級),有程度之分但無法量化 - ranked等級化 - e.g.十大死因排名 - discrete離散型 - 整數,無負數,可運算、平均(有小數) - e.g.每個人有幾台電子產品 - continuous連續型 - 有小數,可運算可平均 - e.g.LDL濃度 - frequency distribution - 用次數呈現分佈 - relative frequency - 將frequency distribution改以百分比呈現 - cumulative relative frequency - 將frequency distribution改以百分比呈現,並呈現累積情況 ### 圖 - 長條圖 - 類別、序位資料 - 直方圖 - 離散、連續型資料 - 次數多邊圖frquency polygon - 點出組中位數並相連 - 可以用於比較多組資料 - 單維散布圖 - 二維散布圖 - 盒狀圖 - 解釋數據 - Q1-P25 - Q2-P50 - Q3-P75 - 合理範圍:Q1-1.5IQR~Q3+1.5IQR - 最接近合理範圍的上下兩筆資料就是上下界 - 其他是離群值 - 折線圖line graph - 橫軸為年齡、時間等 - 堆疊圖stacked area chart - 分母是同一群 ### 描述性統計的數值 - 資料集中趨勢 - mean:比中位數靠近極值 - median - mode - 資料離散程度 - range - interquartile range - varience and standard deviation - coefficient of variation :::info #### 百分位 算出來整數:該位與下一位平均 算出來非整數:無條件進位 #### 自由度 Varience, Standard Deviation df=n-1 ::: ## Lek.3 計算數目 - prevalence(整個族群納入分母) - point - period - lifetime prevalence - incidence(分母排除已發病者) - cumulative incidence:完整追蹤 - incidence density單位為:次/人年 - 病程決定prevalence和incidence的關係 - 可歸因風險:$\frac{P_{smoker}-P_{nonsmoker}}{P_{all}}$(p=prevalence)(衛生行政官員愛看,解決公衛問題) - 相對風險:$\frac{P_{smoker}}{P_{nonsmoker}}$(流病學家愛看,找病因) - 勝算:$\frac{發病}{沒發病}$(不是發病/全部!!!) :::info 10%以下就算稀有疾病,RR跟odds ratio會很接近 ::: ## Lek.4 推論性統計 ### 抽樣 - 機率樣本 - 簡單隨機抽樣 - 系統性抽樣:編號、抽起始後再依一定號碼間隔選樣 - 分層抽樣:先分層後隨機 - 非機率樣本 - 方便樣本:研究者自己方便取得的樣本 - 配額樣本:事先決定不同族群的樣本配額 ### 機率 推論性統計常用條件機率:假設母體後計算出樣本的機率。 ### 二項式分佈 $P(x)=\frac{n!}{x!(n-x)!}p^x(1-p)^{n-x}$ n=number of times process is replicated p=P(success) x=number of successes of interest - mean=np(若以百分比表示為p) - variance=np(1-p)(若以百分比表示:$\frac{p(1-p)}{ns}$) - standard deviation=$\sqrt{np(1-p)}$ - 逼近常態分佈時: - np>5且nq>5 - 或是npq>5 ### 常態分布 - 68-95-99.7原則 - 但是多數生物醫學資料是**偏右分布** - 常態分佈的$Z$轉換:$Z=\frac{X-\mu}{\sigma}$ ### 中央極限定理 抽樣分布的標準差=標準誤:$\sigma_\bar{X}=\frac{\sigma}{\sqrt{n}}$ 抽樣分布的平均值:$\mu_\bar{X}=\mu$ ### 信賴區間(非機率區間) 點估計±估計誤差(Z×標準誤) ### t分佈 用s取代$\sigma$的Z分佈,為t分佈。 ## Lek.5 兩樣本 ### 信賴區間 $(\bar{X_1}-\bar{X_2})\pm ZS_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}$ **若涵蓋0則不顯著,若否則顯著** ### paired $\bar{X_d}\pm Z\frac{s_d}{\sqrt{n}}$ ### 二項式 $(\hat{p_1}-\hat{p_2})\pm Z\sqrt{\frac{\hat{p_1}(1-\hat{p_1})}{n_1}+\frac{\hat{p_2}(1-\hat{p_2})}{n_2}}$ :::info RR和OR看比值看1 ::: ## Lek.6 檢定 - 臨床多單尾(有沒有更好?) - 公衛多雙尾(暴露在空汙地區民眾,肺病盛行率是否有差異?) - 檢力=$1-\beta$ - 擴大檢力: - SE變小 - 對照組與實驗組差異大 - 放大$\alpha$ - 區間估計與假說檢定可以達成一樣結論,但檢定只能定性不定量 - 可是假說檢定可以用在多組樣本,區間估計至多兩組樣本 ## Lek.7 檢定-2 ### 二項分佈 $Z=\frac{\hat{p}-p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}}$ ### $\chi^2$分佈 $H_0: p_1=p_{10},\ p_2=p_{20},\ ......p_k=p_{k0}$ (多個樣本機率是否與各自的期望值相同) $\chi^2=\sum\frac{(O-E)^2}{E}$, $df=k-1$ $O=$ 觀察值,$E=$ 期望值 #### 配對卡方 $\chi^2=\frac{(|n_a-n_b|-1)^2}{n_a+n_b}$ | | 事件後Yes | 事件後No | | -------- | -------- | -------- | | 事件前Yes | (不重要) | $n_a$ | | 事件前No | $n_b$ | (不重要) | 2×2列連表,df=1 ### 兩樣本平均值 $H_0:\mu_1=\mu_2$ dependent:前測後測(paired T) ### 兩樣本機率 $Z=\frac{\hat{p_1}-\hat{p_2}}{\sqrt{\hat{p}(1-\hat{p})(\frac{1}{n_1}+\frac{1}{n_2})}}$ $\hat{p}$是全體(兩組混合)的機率 ### ANOVA 兩組或更多樣本都可以用。為什麼不要兩個兩個做t-test就好? 發生type I error的機會會累積!!!(做三次,則type I error至少一次的機率是1-(1-0.05)^3^=1-0.857=0.143) - 兩組也可以做ANOVA - t^2^=F - 兩者結果相同 #### 顯著了怎麼辦? 用LSD, Bonferroni等兩兩比,但不會造成type I error膨脹 ### TWO-WAY ANOVA ### 兩變項卡方:類別與類別的相關 自由度:(行數-1)(列數-1) 期望值:$\frac{橫軸margin×縱軸margin}{total}$。 ## Power | | 現實:H~0~對 | 現實:H~0~錯 | | -------- | -------- | -------- | |結論:不推翻H~0~|true negative(TN)|FN型二錯誤$\beta$ | |結論:推翻H~0~ |FP型一錯誤$\alpha$|TP(最想要)**檢力**$1-\beta$| - 區間估計時:增加樣本數以避免區間過寬($Z\times SE$) - n用標準差、期待的信賴區間寬度反推 - e.g. $SD=20$, 95%信心水準, 期待寬度為5 - 所需受試者$n=(\frac{Z\sigma}{E})^2=(\frac{1.96\times20}{5})^2=61.5$ - 二項分布e.g.期待寬度為5%, 95%信賴區間。最保守估計:$p=0.5$ - 所需受試者$n=p(1-p)(\frac{Z}{E})^2=0.5(1-0.5)(\frac{1.96}{0.05})^2=384.2$ :::info Power至少要有0.8比較好 ::: ## 回歸直線 - 範圍問題:他是線段不是直線 - 殘差residual:預測值與實際值的差別 ## 無母數檢定 - 適用小樣本(n<25) - 一樣建立虛無假設、對立假設、$\alpha$、計算檢定 - 但沒有假設的母體 - 數目轉換成序位-不會被極端值影響 - 對**序位**做分析 - 值相同者:序位平均 - e.g. 1 3 5 5 7 -> 序位:1 2 3.5 3.5 5 ### Mann-Whitney U 獨立T檢定的無母數版 - 檢測兩樣本是否相同,$H_0:$兩樣本沒有差異 - $U_1=n_1 n_2-\frac{n_1 (n_1 +1)}{2}-R_1$ - $U_2=n_1 n_2-\frac{n_2 (n_2 +1)}{2}-R_2$ - $U=min(U_1 , U_2)$ - 拒絕$H_0$,如果$U\le$ critical value #### 排序 - 兩組**一起排**再轉成序位,最小為1 - $R=$一組序位的總和 - 用$U$值查表 ### Wilcoxon Rank Sum Test 獨立T檢定的無母數版2 - 常用 - 用排序的差異 - 很powerful - 和Mann-Whitney U一樣的排序規則 - 把計算Rank Sum - $Z_w=\frac{W-\mu_W}{\sigma_W}$,W是小的那個Rank Sum - $\mu_W=\frac{n_s(n_s + n_L + 1)}{2}$ - $\sigma_W=\sqrt{\frac{n_s n_L(n_s + n_L + 1)}{12}}$ - $n_s$小樣本數、$n_L$大樣本數 ### Sign Test 配對T檢定的無母數版 - 檢測兩配對樣本中位數是否有差異,$H_0:$中位數差異為0 - 樣本先兩兩相減(和配對T檢定一樣) - 但只留下正負號,不留下數值(中一:移除0、課本:隨機給0一個+或-) - 選定單雙尾 - 查表 ### Wilcoxon Signed Rank Test 配對T檢定的無母數版2 - 檢測內容和sign test相同 - 樣本兩兩相減,數值取絕對值後排序,變化最小為1,一樣的就取序位平均 - 接下來再把原本到正負號加在序位上 - $\sum$序位為正者為$W+$, $\sum$序位為負者為$W-$ - $W=min(W+,W-)$($W+$,$W-$都是絕對值) ### Kruskal-Wallis Test ANOVA的無母數版 ### Fisher's Exact Test 無母數版本的皮爾森卡方檢定 - 不用卡方,改用Fisher's exact的情境 - 有任何格子期望值<2 - 有20%格子期望值<5 - 也可以併組處理:但如果併到剩下2×2(最小的列連表)怎麼辦? - 用Fisher,直接算出p值免查表 - P=從原本的開始,越來越極端的p的總和 ### Spearman Rank-Order correlation coefficient相關係數的無母數版 ## 存活分析 ### 方法 - 平均存活年數:研究做不了這麼久,也會離開研究 - 中位數存活時間:一半的人死亡就可以算(條件:樣本死一半) - 用存活率:e.g.4年死四個,總共15人,那五年存活率是11/15 - 太樂觀 - N年存活率 - 死亡數/總人年 - 假設死亡率恆定:100人一年、20人五年、10人十年都算成100人年 - 生命表:最好 - kaplan meier(生物醫學研究愛用) - actuarial精算法(保險愛用) ### 問題意識 - 要分析存活時間,不能只有yes/no outcome - 存活分析重視時間與事件是否發生 - 設限censoring - 不完整的資料:drop out、意外死亡等 - 生命表假設所有失去追蹤都是隨機而非有原因 #### 精算法 把研究期間分成等距區間,例如一年一區間,逐年計算。畫出的曲線較平滑。 | $x$ | $l_x$ | $w_x$ | $r_x=l_x-\frac{w_x}{2}$ | $d_x$ | $q_x$ | $p_x=1-q_x$ | $Sx_i=p_{x1}p_{x2}...$ | | -------- | -------- | --- | --- | --- | --- | --- | -------- | | 區間| 區間開始的受試者|區間不見幾個受試者 |區間有效受試者 | 區間死亡數 | 區間死亡率 | 區間存活率 | 累積存活率 | #### Kaplan Meier 不切分區間,有人死掉才重新算累積存活率,曲線比較像下樓梯 | t |$r_t$|$d_t$|$q_t=\frac{d_t}{r_t}$|$p_t=1-q_t$|$S_{ti}=p_{t1}p_{t2}...$ | | -------- | --- | --- | --- | -------- | -------- | | 時間點 |樣本人數 |死亡數 | 死亡率 | 存活率| 累積存活率 | ### 兩條存活曲線差異之檢定 log rank test:一種卡方檢定 ## 作圖/表 - 人時地以圖呈現比較好 - 欄是依變項,列是自變項