GenEpi / 背景知識
===
###### tags: `基因體/三級分析/GenEpi`
###### tags: `基因體`, `SNP`, `dbSNP`, `Variant`, `GenEpi`, `ML`, `生物資訊`
<br>
[返回 GenEpi 首頁](https://hackmd.io/1toBEWFgT06g74yub09BIg)
<br>
## 全基因體關聯研究(GWAS)
- 參考資料
- [[wiki] 全基因組關聯分析](https://zh.wikipedia.org/wiki/%E5%85%A8%E5%9F%BA%E5%9B%A0%E7%BB%84%E5%85%B3%E8%81%94%E5%88%86%E6%9E%90)
- [全基因組關聯研究](https://www.yourgenome.org/stories/genome-wide-association-studies)
## 連鎖不平衡 (Linkage Disequilibrium, LD)

- 圖例:
- 在患者的祖先中,X 和 B1 保留在同一染色體上,並且未經歷重組。
- X 和 B1 之間的關係稱為 "連鎖不平衡"
- 定義:
- 不同基因座上的兩個基因
- 同時遺傳到後代的頻率,明顯高於隨機機率的現象
- 稱為「連鎖不平衡」
- 參考資料
- [什麼是連鎖不平衡](https://wiki.mbalib.com/zh-tw/%E8%BF%9E%E9%94%81%E4%B8%8D%E5%B9%B3%E8%A1%A1)
- [連鎖不平衡分析](https://www.dynacom.co.jp/product_service/packages/snpalyze/sa_t1_ld.html)
- 論文
- Lewontin RC: The Interaction of Selection and Linkage. I. General Considerations; Heterotic Models. Genetics 1964, 49(1):49-67.
- [full text](https://www.genetics.org/content/genetics/49/1/49.full.pdf)
## 脂蛋白酶元E分型 (APOE)
- [臨床意義](http://www.ucl.com.tw/webshop/shop/ServiceQueryInfo.asp?GoodsID=D0114007&GoodstypeID=D0&MiddleID=D011)
- [Wiki](https://en.wikipedia.org/wiki/Apolipoprotein_E)
## 穩定性選擇 (Stability selection)
- Meinshausen N, Bühlmann P: Stability selection. Journal of the Royal Statistical Society: Series B (Statistical Methodology) 2010, 72(4):417-473.
- [Abstract](https://rss.onlinelibrary.wiley.com/doi/full/10.1111/j.1467-9868.2010.00740.x)
- [PDF](https://rss.onlinelibrary.wiley.com/doi/epdf/10.1111/j.1467-9868.2010.00740.x)
## 勝算比 (odds ratio, OR)
- [醫學期刊常見的風險測量(Risk measure in medical journal)](https://dasanlin888.pixnet.net/blog/post/34469402)
- 50 位肺癌組中,有70%曾經抽煙
- 150 位健康組中(即對照組),僅有40%曾經抽過煙
- 要如何比較?
- <span style="color: white">(70%/30%) / (40%/60%) = 3.5</span>
## 卡方檢定
- [[教學] [統計] 卡方檢定 小筆記 (未完)](https://belleaya.pixnet.net/blog/post/30844198)
- [淺談卡方檢定](http://yashi4sale.pixnet.net/blog/post/45635923) (卡方獨立檢定)
## [2-fold CV](https://codertw.com/%E4%BA%BA%E5%B7%A5%E6%99%BA%E6%85%A7/8179/)
- 2-fold Cross Validation (2折交叉驗證)
- 又稱 Double Cross Validation
- 作法:
- **資料集**
- 將原始資料集 → 大小相等的兩個子集
- **訓練**
- 進行兩回合的分類器訓練
- 第一回合
- 一個子集作為 training set
- 另一個子集作為 testing set
- 第二回合
- 將第一回合的 training set 和 testing set 對調
- **討論**
- 兩次 testing set 的辨識率
- **實務上**
- 通常不常用,why?
- 因為 training set 的樣本數太少
- 通常不足以代表母體樣本的分佈
- 缺點
- 兩次的 testing set 辨識率,容易產生明顯落差
- 辨識率的變異度大,往往無法達到「實驗過程必須可以被複製」的要求
## ROC
- Receiver Operating Characteristic curve, 接收者操作特徵曲線
- [從tp、fp、tn、fn到roc曲線、miss-rate、行人檢測](http://newgoodlooking.pixnet.net/blog/post/110450733)
- [機器學習之分類器性能指標之ROC曲線、AUC值](https://read01.com/kBRPN.html)
- [ROC曲線](https://zh.wikipedia.org/zh-tw/ROC%E6%9B%B2%E7%BA%BF)