GenEpi / 背景知識 === ###### tags: `基因體/三級分析/GenEpi` ###### tags: `基因體`, `SNP`, `dbSNP`, `Variant`, `GenEpi`, `ML`, `生物資訊` <br> [返回 GenEpi 首頁](https://hackmd.io/1toBEWFgT06g74yub09BIg) <br> ## 全基因體關聯研究(GWAS) - 參考資料 - [[wiki] 全基因組關聯分析](https://zh.wikipedia.org/wiki/%E5%85%A8%E5%9F%BA%E5%9B%A0%E7%BB%84%E5%85%B3%E8%81%94%E5%88%86%E6%9E%90) - [全基因組關聯研究](https://www.yourgenome.org/stories/genome-wide-association-studies) ## 連鎖不平衡 (Linkage Disequilibrium, LD) ![](https://www.dynacom.co.jp/wp-content/upload_files/sa_t1_2-2-1.gif) - 圖例: - 在患者的祖先中,X 和 B1 保留在同一染色體上,並且未經歷重組。 - X 和 B1 之間的關係稱為 "連鎖不平衡" - 定義: - 不同基因座上的兩個基因 - 同時遺傳到後代的頻率,明顯高於隨機機率的現象 - 稱為「連鎖不平衡」 - 參考資料 - [什麼是連鎖不平衡](https://wiki.mbalib.com/zh-tw/%E8%BF%9E%E9%94%81%E4%B8%8D%E5%B9%B3%E8%A1%A1) - [連鎖不平衡分析](https://www.dynacom.co.jp/product_service/packages/snpalyze/sa_t1_ld.html) - 論文 - Lewontin RC: The Interaction of Selection and Linkage. I. General Considerations; Heterotic Models. Genetics 1964, 49(1):49-67. - [full text](https://www.genetics.org/content/genetics/49/1/49.full.pdf) ## 脂蛋白酶元E分型 (APOE) - [臨床意義](http://www.ucl.com.tw/webshop/shop/ServiceQueryInfo.asp?GoodsID=D0114007&GoodstypeID=D0&MiddleID=D011) - [Wiki](https://en.wikipedia.org/wiki/Apolipoprotein_E) ## 穩定性選擇 (Stability selection) - Meinshausen N, Bühlmann P: Stability selection. Journal of the Royal Statistical Society: Series B (Statistical Methodology) 2010, 72(4):417-473. - [Abstract](https://rss.onlinelibrary.wiley.com/doi/full/10.1111/j.1467-9868.2010.00740.x) - [PDF](https://rss.onlinelibrary.wiley.com/doi/epdf/10.1111/j.1467-9868.2010.00740.x) ## 勝算比 (odds ratio, OR) - [醫學期刊常見的風險測量(Risk measure in medical journal)](https://dasanlin888.pixnet.net/blog/post/34469402) - 50 位肺癌組中,有70%曾經抽煙 - 150 位健康組中(即對照組),僅有40%曾經抽過煙 - 要如何比較? - <span style="color: white">(70%/30%) / (40%/60%) = 3.5</span> ## 卡方檢定 - [[教學] [統計] 卡方檢定 小筆記 (未完)](https://belleaya.pixnet.net/blog/post/30844198) - [淺談卡方檢定](http://yashi4sale.pixnet.net/blog/post/45635923) (卡方獨立檢定) ## [2-fold CV](https://codertw.com/%E4%BA%BA%E5%B7%A5%E6%99%BA%E6%85%A7/8179/) - 2-fold Cross Validation (2折交叉驗證) - 又稱 Double Cross Validation - 作法: - **資料集** - 將原始資料集 → 大小相等的兩個子集 - **訓練** - 進行兩回合的分類器訓練 - 第一回合 - 一個子集作為 training set - 另一個子集作為 testing set - 第二回合 - 將第一回合的 training set 和 testing set 對調 - **討論** - 兩次 testing set 的辨識率 - **實務上** - 通常不常用,why? - 因為 training set 的樣本數太少 - 通常不足以代表母體樣本的分佈 - 缺點 - 兩次的 testing set 辨識率,容易產生明顯落差 - 辨識率的變異度大,往往無法達到「實驗過程必須可以被複製」的要求 ## ROC - Receiver Operating Characteristic curve, 接收者操作特徵曲線 - [從tp、fp、tn、fn到roc曲線、miss-rate、行人檢測](http://newgoodlooking.pixnet.net/blog/post/110450733) - [機器學習之分類器性能指標之ROC曲線、AUC值](https://read01.com/kBRPN.html) - [ROC曲線](https://zh.wikipedia.org/zh-tw/ROC%E6%9B%B2%E7%BA%BF)