# 生物統計學-NCKU
## Lek.0 Introduction
研究設計與資料收集是最重要的。而資料屬性也很重要!
:::info
#### 案例:喜好度調查
喜好度調查以五分為量尺,
1. 非常不喜歡
2. 不喜歡
3. 無意見
4. 喜歡
5. 非常喜歡
但是,這是類別資料而非連續資料。故呈現統計資料時應分述五類別的統計量,而**不能**逕予平均,得出如「喜好度平均3.75分,介於無意見到喜歡之間」的結果。
:::
### 統計的功能
1. 決定抽樣與資料收集方法
2. 監測研究是否需提早結束(可能病安出問題或效果非常好)與處理資料
3. 提出研究結果的強度與限制
### 雙變量統計的三種關係
1. 類別-連續
例如:藥物種類對病人收縮壓
2. 類別-類別
例如:藥物種類對病人預後(e.g.五年存活與否)
3. 連續-連續
例如:病人血壓對睡眠品質(可量化為連續資料)
### 推論性統計的兩大支柱:估計與檢定
Association$\ne$Cause/Effect
橫斷面研究不能推論因果,RCT才可以
Interim期中分析
cross-sectional大約等於survey
介於實驗與觀察之間:原爆倖存者實驗(觀察性研究需為自然發生或自選,但是原爆是人為,又不是為了實驗所為,稱為pseudo-experiment)
#### 橫斷研究
好處:方便快速
壞處:沒有時序資訊、容易不回應
## Lek.1
### Cohort
- 耗時
- 高成本
- 低發生率疾病很貴
- 可找出時序關係temporal relationship
- 用暴露追疾病
### Case-control
- 用疾病回憶(溯)暴露
- 省錢
- 省時
- 對於長潛伏期疾病比較好用
- 用Odds Ratio
#### Bias們
- 選樣selection bias
- 對照組偏差:經典案例-哈佛胰臟癌研究
- 疾病組偏差:案例-在急診找心臟病患,但是太嚴重的不會進急診、很輕微的也不會進急診
- 回憶recall bias
- e.g.嬰兒猝死症的家長會比對照組更認真回憶,甚至過度回憶
- 觀察observation bias
### RCT
對照組與實驗組隨機分派後組成應屬相似(已知、未知因素均平均),給予暴露後觀察結果。
:::info
##### Intention to Treat
用原先分配的組別分析結果 Effectiveness
##### Explanatory Trial
用最後實際實驗的分配進行分析 Efficacy
:::
#### 問題
- 不能拿易感族群做實驗,因此結果很難外推。
- 不夠隨機的問題:可以分層再隨機
### 臨床試驗
#### Phase I Safety
小族群、健康族群,測試安全
#### Phase II Feasibility Study
繼續測試安全
#### Phase III Clinical Trial
Efficacy - Trial
#### Phase IV Post-Market
Effectiveness - Real World
## Lek.2 描述性統計
- nominal類別(名目)
- e.g.血型A B O AB對應1 2 3 4
- 特別型類別:二分類
- ordinal序位
- e.g.檢傷分級(第一級~第五級),有程度之分但無法量化
- ranked等級化
- e.g.十大死因排名
- discrete離散型
- 整數,無負數,可運算、平均(有小數)
- e.g.每個人有幾台電子產品
- continuous連續型
- 有小數,可運算可平均
- e.g.LDL濃度
- frequency distribution
- 用次數呈現分佈
- relative frequency
- 將frequency distribution改以百分比呈現
- cumulative relative frequency
- 將frequency distribution改以百分比呈現,並呈現累積情況
### 圖
- 長條圖
- 類別、序位資料
- 直方圖
- 離散、連續型資料
- 次數多邊圖frquency polygon
- 點出組中位數並相連
- 可以用於比較多組資料
- 單維散布圖
- 二維散布圖
- 盒狀圖
- 解釋數據
- Q1-P25
- Q2-P50
- Q3-P75
- 合理範圍:Q1-1.5IQR~Q3+1.5IQR
- 最接近合理範圍的上下兩筆資料就是上下界
- 其他是離群值
- 折線圖line graph
- 橫軸為年齡、時間等
- 堆疊圖stacked area chart
- 分母是同一群
### 描述性統計的數值
- 資料集中趨勢
- mean:比中位數靠近極值
- median
- mode
- 資料離散程度
- range
- interquartile range
- varience and standard deviation
- coefficient of variation
:::info
#### 百分位
算出來整數:該位與下一位平均
算出來非整數:無條件進位
#### 自由度
Varience, Standard Deviation df=n-1
:::
## Lek.3 計算數目
- prevalence(整個族群納入分母)
- point
- period
- lifetime prevalence
- incidence(分母排除已發病者)
- cumulative incidence:完整追蹤
- incidence density單位為:次/人年
- 病程決定prevalence和incidence的關係
- 可歸因風險:$\frac{P_{smoker}-P_{nonsmoker}}{P_{all}}$(p=prevalence)(衛生行政官員愛看,解決公衛問題)
- 相對風險:$\frac{P_{smoker}}{P_{nonsmoker}}$(流病學家愛看,找病因)
- 勝算:$\frac{發病}{沒發病}$(不是發病/全部!!!)
:::info
10%以下就算稀有疾病,RR跟odds ratio會很接近
:::
## Lek.4 推論性統計
### 抽樣
- 機率樣本
- 簡單隨機抽樣
- 系統性抽樣:編號、抽起始後再依一定號碼間隔選樣
- 分層抽樣:先分層後隨機
- 非機率樣本
- 方便樣本:研究者自己方便取得的樣本
- 配額樣本:事先決定不同族群的樣本配額
### 機率
推論性統計常用條件機率:假設母體後計算出樣本的機率。
### 二項式分佈
$P(x)=\frac{n!}{x!(n-x)!}p^x(1-p)^{n-x}$
n=number of times process is replicated
p=P(success)
x=number of successes of interest
- mean=np(若以百分比表示為p)
- variance=np(1-p)(若以百分比表示:$\frac{p(1-p)}{ns}$)
- standard deviation=$\sqrt{np(1-p)}$
- 逼近常態分佈時:
- np>5且nq>5
- 或是npq>5
### 常態分布
- 68-95-99.7原則
- 但是多數生物醫學資料是**偏右分布**
- 常態分佈的$Z$轉換:$Z=\frac{X-\mu}{\sigma}$
### 中央極限定理
抽樣分布的標準差=標準誤:$\sigma_\bar{X}=\frac{\sigma}{\sqrt{n}}$
抽樣分布的平均值:$\mu_\bar{X}=\mu$
### 信賴區間(非機率區間)
點估計±估計誤差(Z×標準誤)
### t分佈
用s取代$\sigma$的Z分佈,為t分佈。
## Lek.5 兩樣本
### 信賴區間
$(\bar{X_1}-\bar{X_2})\pm ZS_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}$
**若涵蓋0則不顯著,若否則顯著**
### paired
$\bar{X_d}\pm Z\frac{s_d}{\sqrt{n}}$
### 二項式
$(\hat{p_1}-\hat{p_2})\pm Z\sqrt{\frac{\hat{p_1}(1-\hat{p_1})}{n_1}+\frac{\hat{p_2}(1-\hat{p_2})}{n_2}}$
:::info
RR和OR看比值看1
:::
## Lek.6 檢定
- 臨床多單尾(有沒有更好?)
- 公衛多雙尾(暴露在空汙地區民眾,肺病盛行率是否有差異?)
- 檢力=$1-\beta$
- 擴大檢力:
- SE變小
- 對照組與實驗組差異大
- 放大$\alpha$
- 區間估計與假說檢定可以達成一樣結論,但檢定只能定性不定量
- 可是假說檢定可以用在多組樣本,區間估計至多兩組樣本
## Lek.7 檢定-2
### 二項分佈
$Z=\frac{\hat{p}-p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}}$
### $\chi^2$分佈
$H_0: p_1=p_{10},\ p_2=p_{20},\ ......p_k=p_{k0}$
(多個樣本機率是否與各自的期望值相同)
$\chi^2=\sum\frac{(O-E)^2}{E}$, $df=k-1$
$O=$ 觀察值,$E=$ 期望值
#### 配對卡方
$\chi^2=\frac{(|n_a-n_b|-1)^2}{n_a+n_b}$
| | 事件後Yes | 事件後No |
| -------- | -------- | -------- |
| 事件前Yes | (不重要) | $n_a$ |
| 事件前No | $n_b$ | (不重要) |
2×2列連表,df=1
### 兩樣本平均值
$H_0:\mu_1=\mu_2$
dependent:前測後測(paired T)
### 兩樣本機率
$Z=\frac{\hat{p_1}-\hat{p_2}}{\sqrt{\hat{p}(1-\hat{p})(\frac{1}{n_1}+\frac{1}{n_2})}}$
$\hat{p}$是全體(兩組混合)的機率
### ANOVA
兩組或更多樣本都可以用。為什麼不要兩個兩個做t-test就好?
發生type I error的機會會累積!!!(做三次,則type I error至少一次的機率是1-(1-0.05)^3^=1-0.857=0.143)
- 兩組也可以做ANOVA
- t^2^=F
- 兩者結果相同
#### 顯著了怎麼辦?
用LSD, Bonferroni等兩兩比,但不會造成type I error膨脹
### TWO-WAY ANOVA
### 兩變項卡方:類別與類別的相關
自由度:(行數-1)(列數-1)
期望值:$\frac{橫軸margin×縱軸margin}{total}$。
## Power
| | 現實:H~0~對 | 現實:H~0~錯 |
| -------- | -------- | -------- |
|結論:不推翻H~0~|true negative(TN)|FN型二錯誤$\beta$ |
|結論:推翻H~0~ |FP型一錯誤$\alpha$|TP(最想要)**檢力**$1-\beta$|
- 區間估計時:增加樣本數以避免區間過寬($Z\times SE$)
- n用標準差、期待的信賴區間寬度反推
- e.g. $SD=20$, 95%信心水準, 期待寬度為5
- 所需受試者$n=(\frac{Z\sigma}{E})^2=(\frac{1.96\times20}{5})^2=61.5$
- 二項分布e.g.期待寬度為5%, 95%信賴區間。最保守估計:$p=0.5$
- 所需受試者$n=p(1-p)(\frac{Z}{E})^2=0.5(1-0.5)(\frac{1.96}{0.05})^2=384.2$
:::info
Power至少要有0.8比較好
:::
## 回歸直線
- 範圍問題:他是線段不是直線
- 殘差residual:預測值與實際值的差別
## 無母數檢定
- 適用小樣本(n<25)
- 一樣建立虛無假設、對立假設、$\alpha$、計算檢定
- 但沒有假設的母體
- 數目轉換成序位-不會被極端值影響
- 對**序位**做分析
- 值相同者:序位平均
- e.g. 1 3 5 5 7 -> 序位:1 2 3.5 3.5 5
### Mann-Whitney U 獨立T檢定的無母數版
- 檢測兩樣本是否相同,$H_0:$兩樣本沒有差異
- $U_1=n_1 n_2-\frac{n_1 (n_1 +1)}{2}-R_1$
- $U_2=n_1 n_2-\frac{n_2 (n_2 +1)}{2}-R_2$
- $U=min(U_1 , U_2)$
- 拒絕$H_0$,如果$U\le$ critical value
#### 排序
- 兩組**一起排**再轉成序位,最小為1
- $R=$一組序位的總和
- 用$U$值查表
### Wilcoxon Rank Sum Test 獨立T檢定的無母數版2
- 常用
- 用排序的差異
- 很powerful
- 和Mann-Whitney U一樣的排序規則
- 把計算Rank Sum
- $Z_w=\frac{W-\mu_W}{\sigma_W}$,W是小的那個Rank Sum
- $\mu_W=\frac{n_s(n_s + n_L + 1)}{2}$
- $\sigma_W=\sqrt{\frac{n_s n_L(n_s + n_L + 1)}{12}}$
- $n_s$小樣本數、$n_L$大樣本數
### Sign Test 配對T檢定的無母數版
- 檢測兩配對樣本中位數是否有差異,$H_0:$中位數差異為0
- 樣本先兩兩相減(和配對T檢定一樣)
- 但只留下正負號,不留下數值(中一:移除0、課本:隨機給0一個+或-)
- 選定單雙尾
- 查表
### Wilcoxon Signed Rank Test 配對T檢定的無母數版2
- 檢測內容和sign test相同
- 樣本兩兩相減,數值取絕對值後排序,變化最小為1,一樣的就取序位平均
- 接下來再把原本到正負號加在序位上
- $\sum$序位為正者為$W+$, $\sum$序位為負者為$W-$
- $W=min(W+,W-)$($W+$,$W-$都是絕對值)
### Kruskal-Wallis Test ANOVA的無母數版
### Fisher's Exact Test 無母數版本的皮爾森卡方檢定
- 不用卡方,改用Fisher's exact的情境
- 有任何格子期望值<2
- 有20%格子期望值<5
- 也可以併組處理:但如果併到剩下2×2(最小的列連表)怎麼辦?
- 用Fisher,直接算出p值免查表
- P=從原本的開始,越來越極端的p的總和
### Spearman Rank-Order correlation coefficient相關係數的無母數版
## 存活分析
### 方法
- 平均存活年數:研究做不了這麼久,也會離開研究
- 中位數存活時間:一半的人死亡就可以算(條件:樣本死一半)
- 用存活率:e.g.4年死四個,總共15人,那五年存活率是11/15
- 太樂觀
- N年存活率
- 死亡數/總人年
- 假設死亡率恆定:100人一年、20人五年、10人十年都算成100人年
- 生命表:最好
- kaplan meier(生物醫學研究愛用)
- actuarial精算法(保險愛用)
### 問題意識
- 要分析存活時間,不能只有yes/no outcome
- 存活分析重視時間與事件是否發生
- 設限censoring
- 不完整的資料:drop out、意外死亡等
- 生命表假設所有失去追蹤都是隨機而非有原因
#### 精算法
把研究期間分成等距區間,例如一年一區間,逐年計算。畫出的曲線較平滑。
| $x$ | $l_x$ | $w_x$ | $r_x=l_x-\frac{w_x}{2}$ | $d_x$ | $q_x$ | $p_x=1-q_x$ | $Sx_i=p_{x1}p_{x2}...$ |
| -------- | -------- | --- | --- | --- | --- | --- | -------- |
| 區間| 區間開始的受試者|區間不見幾個受試者 |區間有效受試者 | 區間死亡數 | 區間死亡率 | 區間存活率 | 累積存活率 |
#### Kaplan Meier
不切分區間,有人死掉才重新算累積存活率,曲線比較像下樓梯
| t |$r_t$|$d_t$|$q_t=\frac{d_t}{r_t}$|$p_t=1-q_t$|$S_{ti}=p_{t1}p_{t2}...$ |
| -------- | --- | --- | --- | -------- | -------- |
| 時間點 |樣本人數 |死亡數 | 死亡率 | 存活率| 累積存活率 |
### 兩條存活曲線差異之檢定
log rank test:一種卡方檢定
## 作圖/表
- 人時地以圖呈現比較好
- 欄是依變項,列是自變項