GenEpi / 整體概念 === ###### tags: `基因體/三級分析/GenEpi` ###### tags: `基因體`, `SNP`, `dbSNP`, `Variant`, `GenEpi`, `ML`, `生物資訊` <br> [返回 GenEpi 首頁](https://hackmd.io/1toBEWFgT06g74yub09BIg) <br> ## 大綱分類 - **前半段** - 摘要(成效說明) - 簡介 → 結果 - **後半段** - 討論 - 實驗的資料&方法 <br> ## 摘要 - ### 全基因體關聯研究(GWAS, Genome-wide association study) - 識別「遺傳變異」和「表現型」之間的關聯 - 例如: - 豬:[緊迫基因遺傳標記](http://www.biotaiwan.org.tw/mag/image_doc/19/08%E8%B1%AC%E7%B6%93%E6%BF%9F%E6%80%A7%E7%8B%80%E9%81%BA%E5%82%B3%E6%A8%99%E8%A8%98%E9%96%8B%E7%99%BC%E8%88%87%E6%87%89%E7%94%A8.pdf) - 意義 - 抗壓性差 - 位置 - [染色體位置 1q42–q43](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2885589/) - 第一對染色體,第 1843 鹼基產生突變 C → T - 基因型 | 母 \ 父 | T | t | | -------- | -------- | -------- | | T | <b style="background: yellow; color: red;">```TT``` (純合子)</b> | ```tT``` | | t | ```Tt``` | ```tt``` (純合子) | - 表現型 | 母 \ 父 | T | t | | -------- | -------- | -------- | | T | <b style="background: yellow; color: red;">```BB``` (陽性反應)</b> | ```AB``` (正常) | | t | ```AB``` (正常) | ```AA``` (正常) | <br> - 豬:[高肉質基因遺傳標記](http://www.biotaiwan.org.tw/mag/image_doc/19/08%E8%B1%AC%E7%B6%93%E6%BF%9F%E6%80%A7%E7%8B%80%E9%81%BA%E5%82%B3%E6%A8%99%E8%A8%98%E9%96%8B%E7%99%BC%E8%88%87%E6%87%89%E7%94%A8.pdf) (非病徵) - 意義 - 豬肉具有「柔嫩度」、「多汁性」與「良好風味」 - 位於 - 第六對染色體 - 7 種表現型 - 最佳:HH6、 - 次佳:HL5、HL4、HL3 - 較差:LL2、LL1 - 最差:LL0 <br> - ### GWAS 能帶給我們什麼? - **找出疾病的基因源頭** - 豬隻的「抗壓性差」的基因,位於何處? - 人類的「阿茲海默症」的發病基因,位於何處? - **困難點** - 病症的基因,通常是「交互作用」(多個基因共同參與) - 高血壓、糖尿病、肥胖 - 病症通常不會由「單一個鹼基」所影響 - 豬的緊迫基因 (一個鹼基突變所造成) <br> - ### 作者群的願景 - 開發一種「有效率」且「有效果」的 GWAS 方法 - 來找出「複雜疾病」的發病關鍵(基因源頭) - ### 作者群的方法 - **名稱** - GenEpi (Gene Epistasis,基因的上位作用) - 是一種方法,也是一個[開源 python 套件]( https://github.com/Chester75321/GenEpi) - **類別** - 機器學習 - **功能** - 揭示與表現型相關的上位作用之計算套件 - 識別「基因內」和「跨基因」的上位作用 - **特色** - 特徵:採用「雙元素」組合編碼 - 模型: - 採用「L1 正規化」 - 穩定性選擇 - **測試資料** - 阿茲海默症疾病(Alzheimer’s disease, AD) <br> ## 簡介 - ### [GWAS 的研究歷史](https://zh.wikipedia.org/wiki/%E5%85%A8%E5%9F%BA%E5%9B%A0%E7%BB%84%E5%85%B3%E8%81%94%E5%88%86%E6%9E%90) - **2002 年** - 提出 GWAS 方法 - **2005 年** - 第一項「老年性黃斑部退化(AMD)」的 GWAS 研究 - 症狀 - 「視力模糊」或「中央視野視力障礙」 <br> - **AMD 的實驗資料** - 來源 - 96 個病例組 - 50 個對照組 - 差異性 - 10.6 萬個 SNPs (=105,980) - 關聯 - 補體因子H(CFH)基因中的SNP,與 AMD 顯著相關 - 隨後有 - 冠心病 - 肥胖 - 第二型糖尿病 - 甘油三酯 - 精神分裂症 - 等等 ![](https://i.imgur.com/tKIa7dj.png) ([圖片來源](https://www.yourgenome.org/stories/genome-wide-association-studies)) <br> - **到 2019 年為止** - 在 117,398 個 SNP 和 10,358 個表現型之間, 已發現超過 210,498 個變異疾病之關聯(?) > over 210,498 variant-disease associations between 117,337 SNPs and 10,358 phenotypes have been discovered. ![](http://images2017.cnblogs.com/blog/499013/201708/499013-20170831212926437-756122301.png) ([圖片來源](https://www.itread01.com/content/1504193890.html)) <br> - ### [GWAS 與一般研究的差異](https://zh.wikipedia.org/wiki/%E5%85%A8%E5%9F%BA%E5%9B%A0%E7%BB%84%E5%85%B3%E8%81%94%E5%88%86%E6%9E%90) (wiki) - 傳統 - 假設「致病基因」的位置,做實驗檢驗 - GWAS - **方法** (**交叉比對法**) - <span style="background: yellow;">有嫌疑的,全部抓起來拷問</span> - 「**病例組(有致病的)**」和「**對照組(正常人)**」的全基因體之 SNP 差異點 - <span style="background: yellow;">在過濾比較可疑的</span> - 找出所有的變異等位基因頻率 - **缺點** - 僅限於單基因表現型(例如孟德爾疾病) - [孟德爾疾病,是指?](https://baike.baidu.com/item/%E5%AD%9F%E5%BE%B7%E5%B0%94%E9%81%97%E4%BC%A0%E7%97%85) - 由「一個等位基因」控制的疾病或病狀(疾病的一部分) - 單個基因突變,就會發病 - 示意圖 [![](https://i.imgur.com/zKv2EJt.jpg)](https://imgur.com/zKv2EJt) <br> - ### 傳統 GWAS 所面臨的問題 - 變異的相互作用(上位作用),對疾病形成的影響被低估 - 簡單講: - 只考慮「直接作用」 - 不考慮「間接作用」 - **為什麼?** - 主要限制 - 一次只考慮一種遺傳變異,忽略遺傳變異的上位作用 - 因為「上位作用」是導致「表現型」的重要因素 - 這樣的變異可能具有更強的關聯 ![](https://i.imgur.com/onJiqEV.png) ([圖片來源](https://www.yourgenome.org/stories/genome-wide-association-studies)) > some people who do not have heart disease carry the ‘C’ at this position. This suggests that there may be **other genetic variants** elsewhere in the genome or environmental factors that also play a role in the disease. - [薩路基獵犬的毛髮](https://slideplayer.com/slide/4973971/) ![](https://i.imgur.com/pJrfGSd.jpg) 雖然白色的(BBII)含有 B 的基因,卻不會產生色素 因為 I 抑制了這個 B 的基因 - **導致結果** - 無法有效找出「複雜疾病的關聯性」 - 複雜疾病,如 - 高血壓 - 糖尿病 - 肥胖 - 阿茲海默症 - **如何改善?** - 把「**上位作用**」納入考量 - 因為「上位作用」是導致「表現型」的重要因素 <br> - ### GWAS 考慮「上位作用」,所面臨的 2 個問題 - #### 「維數災難」的問題 - 意思 - 考慮更多變異時,相互作用的數量呈指數增加 - (假設)來源 - 96 個病例組 - 50 個對照組 - 差異性有 10.6 萬個 SNPs - 考慮 2 個變異 - (10.6x10<sup>4</sup>) x (10.6x10<sup>4</sup>) = 1.1x10<sup>10</sup> - 考慮 3 個變異 - (10.6x10<sup>4</sup>)<sup>3</sup> = 1.2x10<sup>15</sup> - 爆炸了... - #### 「統計檢定力」的問題 - 大量的統計檢定,在「有限的樣本量」和「高維度」相互作用下進行 - 隨機機會會產生許多偽陽性(FP) <br> - ### 用來檢測上位作用的 GWAS 相關工具 - 統計方法 - FastEpistasis - BOOST - 以上兩者,已含在 PLINK 裡(GWAS軟體) - 機器學習 - Multifactor Dimensionality Reduction - ReliefF - 隨機類森林演算法 - 其他方法也已經被開發用於檢測上位性 <br> - ### 失敗案例 - **失敗案例1** - 成人健康與老化的遺傳流行病學研究(GERA) Genetic Epidemiology Research on Adult Health and Aging - 龐大數據集 - 78,486 名受試者 - 表現型 - 10 種感興趣的複雜疾病 - 基因型 - 45x10<sup>9</sup> SNP-SNP - 換算:(212,132 SNP) x (212,132 SNP) - 使用工具 - 2016年,Murk 使用 FastEpistasis 和 BOOST - 結果 - 徹底地搜尋 沒有找到「重要的」且「可複製的」交互作用 - **失敗案例2** - Sage Bionetworks 為 AD (阿茲海默症) 舉辦了 "反向工程評估和方法挑戰對話"(DREAM Challenge)的競賽 - AD (阿茲海默症) - 具有遺傳因素,但不明確 - 結果 - 沒有任何競爭團隊有觀察到: 除了 APOE 單倍型之外的「遺傳特徵」對「預測效能」的重大貢獻 - i.e. 除了 APOE 遺傳特徵有找到關聯 並沒有發現其他遺傳特徵跟 AD 有關 - **本研究提出 GenEpi** - 利用機器學習,來揭示與表現型相關的上位作用 <br> <hr> <hr> ## GenEpi 的結果 ### 演算法比較 - **演算法** - 統計 - FastEpistasis [[18]](https://academic.oup.com/bioinformatics/article/26/11/1468/202882) - BOOST [[19]](https://www.sciencedirect.com/science/article/pii/S0002929710003782) - 機器學習 - GeneEpi - ReliefF [[23]](https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-12-S1-S10) [[29]](https://www.sciencedirect.com/science/article/pii/S1532046418301400) <br> - **Input (實驗數據)** - 第一部份:使用模擬數據 - 第二部份:使用 ADNI 資料集 - 樣本:對照組 & AD患者 - 透過 [Precision(精確度) & Recall(召回率) & F1](https://docs.google.com/presentation/d/15vnKWgOok00MfXm_QvD-1EWPUeb-MsVLG1m8IDYzb8I) 來評估 <br> - **Ouput (結果)** - **GeneEpi** - 表現優於其他方法 - 能將真正的上位作用排在最前面 - 對診斷 AD 具有最佳預測能力 <br> - **GeneEpi 找出的「AD 預測模型」** - 14 個遺傳特徵 - 位於 12 個基因的 24 個 SNP - 也包含:眾所周知的致病基因 **APOE** 在內 - [何謂 APOE?](http://www.ucl.com.tw/webshop/shop/ServiceQueryInfo.asp?GoodsID=D0114007&GoodstypeID=D0&MiddleID=D011) - 模型效能 [![](https://i.imgur.com/nGMkXwN.png)](https://i.imgur.com/nGMkXwN.png) <br> - [2-fold cross validation (CV)](https://hackmd.io/ylRQ1i6AQ_6Sq60uW8J_7g?view#2-fold-CV) - leave-one-out CV (LOO CV) - [GenEpi 測試資料](#實驗資料Materials) | 數量 | 參與者類別 | 中文 | | ---- | -------- | ---- | | 241 | cognitively normal (CN) | 認知正常 | | 123 | AD | 患有-阿滋海默症疾病 | 共 364 位 - [Precision(精確度) & Recall(召回率) & F1](https://docs.google.com/presentation/d/15vnKWgOok00MfXm_QvD-1EWPUeb-MsVLG1m8IDYzb8I) <br> - GeneEpis 能「有效率」且「有效果」地偵測出: 與表現型相關的上位作用 <br> ### 實驗數據 - 第一部份 (模擬資料) - #### 模擬資料的來源 - 模擬器 GAMETES [[30]](https://biodatamining.biomedcentral.com/articles/10.1186/1756-0381-5-16) 生成 - 網站:https://popmodels.cancercontrol.cancer.gov/gsr/packages/gametes/ - #### 模擬資料集(dataset) - 簡單模型 - 說明 - 只有一個 SNP 對組成的上位作用 - 分別有 - **模型1**:S1-S2 (第一個 SNP 和第二個 SNP 所組成的上位作用) - **模型2**:S3-S4 - **模型3**:S5-S6 - 複雜模型 - 說明 - 將簡單的模型組合 - 只有 - **模型1 + 模型2 + 模型3** - 有三個上位作用 - S1-S2, S3-S4, S5-S6 - #### 簡單模型生成參數 - #individuals = 2000 ... ... ... ...(2000人參與) - case / control ratio = 1 ... ... ... (病例組:1000人, 控制組:1000人) - #SNPs = 100 ... ... ... ... ... ... (如何控制只有一個上位作用?) - #replicates = 100 ... ... ... ... (反覆生成,共 100 次的實驗) - 目標 SNPs 的次要等位基因頻率 = 0.2 - 遺傳力= 0.2 - #### 演算法的表現結果 ![](https://i.imgur.com/79vM8Ds.jpg) <br> - GenEpi 在 3 個基本模型中 - 每一個模型的 100 次實驗,目標的 SNP 對(上位作用)皆排名在第一名 > the ranking of the target epistasis reported by GenEpi in the 100 replicates of each basic-model dataset are always ranked as the first. - FastEpistasis 和 BOOST - 目標 SNP 對的排名 - 中位數是 1 - 平均數不是 (i.e. avg > 1) - 失敗次數 (有無找到目標 SNP 對?) | | 模型1 | 模型2 | 模型3 | | ------------- | ---- | ----- | ----- | | FastEpistasis | 6 | 1 | 15 | | BOOST | 5 | 1 | 14 | <br> ![](https://i.imgur.com/79vM8Ds.jpg) - 關於複雜模型 - 每一個圖示都是箱型圖 ![](https://i.imgur.com/2ESPHbK.png) ([圖片來源](http://estat.ncku.edu.tw/nsc/flash/topic/graph_stat/base/BoxPlot.html)), ([離群值的檢測](http://highscope.ch.ntu.edu.tw/wordpress/?p=73655)) - GenEpi 真的很完美?破解了基因的上位作用? <br> - ReliefF 就不說明了 - 無法衡量 SNP 對的重要性 - #### GenEpi 為何優異? - 特徵: - 採用「雙元素」組合編碼 - 藉由多變量模型,考慮組合特徵之間的相互作用 - 模型: - 採用 [穩定性選擇 (Stability selection)](https://hackmd.io/ylRQ1i6AQ_6Sq60uW8J_7g?view#%E7%A9%A9%E5%AE%9A%E6%80%A7%E9%81%B8%E6%93%87-Stability-selection) 的 L1 正規化 - 操作: - 對資料集,進行數百次的重新取樣與重構 - 目的:濾掉上位作用的誤報(偽陽性) - 比較「套用」&「不套用」穩定性選擇 [![](https://i.imgur.com/F8fPFZE.jpg)](https://i.imgur.com/F8fPFZE.jpg) 穩定性選擇,可以有效降低平均偽陽性率,並最小化偽陽性率的方差 <br> ### 實驗數據 - 第二部份 (真實資料) - #### 分類 AD 患者 - 請參考[下一章節](#實驗資料Materials) - GenEpi 測試資料 | 數量 | 參與者類別 | 中文 | | ---- | -------- | ---- | | 241 | cognitively normal (CN) | 認知正常 | | 123 | AD | 患有-阿滋海默症疾病 | 共 364 位 <br> [![](https://i.imgur.com/VjLRT8k.png)](https://i.imgur.com/VjLRT8k.png) - **[Step1] 從 UCSC 上抓取基因資料** - 目的 - 為了獲取基因的起始&結束,來判斷是否在基因內 - 查詢次等位基因頻率,使用連鎖不平衡(LD)來降維 - 細節 - https://genome.ucsc.edu/cgi-bin/hgTables [![](https://i.imgur.com/dp7oDwy.png)](https://genome.ucsc.edu/cgi-bin/hgTables) - [基因體版本](https://hackmd.io/qmzwm4idRyWROeeboqpfSw#%E9%81%8E%E5%8E%BB%E8%A8%88%E7%95%AB%EF%BC%86%E8%A8%88%E7%95%AB%E4%B8%AD) - hg19 / GRCh37 (2009年2月人類基因體) <br> - **資料表(data table)** - <b style="background: yellow;">knownGene</b>:擷取基因座標 (genomic coordinate) [![](https://i.imgur.com/ZgkQRa3.png)](https://i.imgur.com/ZgkQRa3.png) - <b style="background: yellow;">kgXref</b>:擷取基因符號 (gene symbol) [![](https://i.imgur.com/1H2U2z1.png)](https://i.imgur.com/1H2U2z1.png) - **腳本(Script)** - 將 knownGene 和 kgXref 合併,生成本機資料庫(local database) - 可以自動更新此資料庫 - **補充說明** - RefSeq 資料表中有許多不同類別的基因。 - 在這項研究中,我們只關注 mRNA 和非編碼 RNA(總共22,376個基因)。 - 保留啟動子 - 長度可以是 100-1000 個鹼基對 - 在每個基因的起始位置的上游,提取 1000 個核苷酸 - knownGene(左) 和 RefSeq(右) 差異比對 - 即使同版本,資訊仍然有大大地不同 ![](https://i.imgur.com/cjsAToc.png)![](https://i.imgur.com/WjGGvP6.png) <br> ![](https://i.imgur.com/VjLRT8k.png) - **[Step2] [評估連鎖不平衡(Linkage Disequilibrium, LD)](https://hackmd.io/ylRQ1i6AQ_6Sq60uW8J_7g?view#%E9%80%A3%E9%8E%96%E4%B8%8D%E5%B9%B3%E8%A1%A1-Linkage-Disequilibrium-LD)** - **目的** - dimensionality reduction 降維 - **效果** - 將 SNP 數量,從 12,809,667 降為 12,102,888 - 只減少 5.5% 的 SNP (降維有限?) - **參數** - ```D' > 0.9``` - ```r<sup>2</sup> > 0.9``` - **細節** - 將高度依賴的 SNP 特徵,分類為一個區塊 - 選擇具有「**最大次要等位基因頻率**」的特徵 來表示一個區塊的主要特徵 - **問題** - 如果不套用 LD,效果影響如大? <br> ![](https://i.imgur.com/VjLRT8k.png) - **[Step3] 藉由基因,分割 SNP 的特徵** - 目的 - 只拿位於基因上的 SNP 來分析 - 不考慮基因外的 SNP (可能是用於調控基因) - 效果 - 將 SNP 數量,從 12,102,888 降為 4,916,249 (位於 20,206 基因內) > GenEpi only focuses on the SNPs in the gene regions. - 減少 59.4% 的 SNP - 評論:基因數量會減少,可能是因為 某些基因沒有 SNP (?) <br> ![](https://i.imgur.com/VjLRT8k.png) - **[Step4] 選擇單一基因的上位作用** - 目的 - 應該就是 GenEpi 核心 - 找出「單一基因的上位作用」與「AD」的關聯 - 效果 - 找出 34,689 個遺傳特徵 - 765 是單一 SNP - 34,689 是 SNP-SNP (SNP對,上位作用) - 比如 - rs3130614_BB, rs41276317_AB 是 SNP 對 - rs12095538_BB, rs2774308_AB 是 SNP 對 - rs12926153_AB, rs12922908_AA 是 SNP 對 - [rs429358](https://www.ncbi.nlm.nih.gov/snp/rs429358)_AA 是單一 SNP <br> ![](https://i.imgur.com/VjLRT8k.png) - **[Step5] 選擇跨基因的上位作用** - 目的 - 找出「跨基因的上位作用」與「AD」的關聯 - **效果** [![](https://i.imgur.com/eQLM7Vu.png)](https://i.imgur.com/eQLM7Vu.png) <br> - 找出 14 個遺傳特徵 - 只有一個是「跨基因的上位作用」:```MICB * TOB2``` - 位於 12 個基因 - 共有 24 個 SNP | 1-10 | 11-20 | 20-24 | | ------------- | -------- | -------- | | rs10831829_BB<br>rs11675339_AA<br>rs12095538_BB<br>rs12187423_BB<br>rs12189429_BB<br>rs12366151_AA<br>**[rs12922908](https://www.ncbi.nlm.nih.gov/snp/rs12922908)_AA** x 2<br>rs12926153_AB<br>rs200512701_AB <br>rs2052573_BB | <br>rs2421701_AB<br>rs2710687_AA<br>rs2774308_AB<br>rs3130614_BB<br>rs34580133_AB<br>rs3678_AB<br>rs41276317_AB<br>rs429358_AA<br>rs56148686_AB<br>rs56233035_AB | **rs6881360_AA** x 2<br>rs769449_AA<br>rs9344977_BB<br>rs9652600_AB | - 基因與 SNP 的關係圖 | 12 個基因 | SNP or SNP-SNP | | ----------- | ------------ | | ADAMTS12 | rs12189429_BB-<u>rs6881360_AA</u>,<br>rs12187423_BB-<u>rs6881360_AA</u> | | **[APOE](https://en.wikipedia.org/wiki/Apolipoprotein_E)** | **<span style="background: yellow;">[[rs429358](https://www.snpedia.com/index.php/Rs429358)_AA]</span>**, **<span style="background: yellow;">[[rs769449](https://www.snpedia.com/index.php/Rs769449)_AA]</span>** | | BACH2 | rs9344977_BB-rs56148686_AB | | CACNA1E | rs56233035_AB-rs3678_AB | | CLEC16A | <u>rs12922908_AA</u>-rs9652600_AB,<br>rs12926153_AB-<u>rs12922908_AA</u> | | LINC00299 | rs2052573_BB-rs34580133_AB | | MICB | **rs3130614_BB-???** | | PARVA | rs10831829_BB-rs12366151_AA | | SYT6 | rs12095538_BB-rs2774308_AB | | TNKS2 | rs2421701_AB-rs200512701_AB | | TOB2 | **???-rs41276317_AB** | | VSNL1 | rs11675339_AA-rs2710687_AA | - **模型效能** [![](https://i.imgur.com/nGMkXwN.png)](https://i.imgur.com/nGMkXwN.png) <br> [![](https://i.imgur.com/eQLM7Vu.png)](https://i.imgur.com/eQLM7Vu.png) - 權重(weight) - 從在 2.4 節(Section 2.4)中定義的線性模型中提取的(沒有看到???) - 權重的符號 - 遺傳特徵是否是「致病性」或「保護性」基因型 - APOE 的 rs429358_AA 和 rs769449_AA 是負的,是致病基因 - [勝算比(Odds Ratio)](https://hackmd.io/ylRQ1i6AQ_6Sq60uW8J_7g#%E5%8B%9D%E7%AE%97%E6%AF%94-odds-ratio-OR) - 勝算比與權重的正負號一致 - [χ<sup>2</sup> 檢定](https://hackmd.io/ylRQ1i6AQ_6Sq60uW8J_7g#%E5%8D%A1%E6%96%B9%E6%AA%A2%E5%AE%9A)的 p 值 - 表示這些特徵與表現型顯著相關 - p 值要小於 0.01 <br> ### 不同演算法的比較 ![](https://i.imgur.com/o9Yia4a.png) > - **'時間成本'** 是花在辨識上位作用的所需時間,其以單顆 CPU 時間來衡量(以天為單位)。 > - Top15, Top30, Top45, Top60 這四個欄位,是用來表示 2-fold CV 的效能。其值為 F1 分數。 - 執行環境 - Microsoft Azure E32 v3 - 32顆 CPU - 256GB RAM - 軟體套件 | 演算法 | 套件 | 可支援整套SNP計算 | 輸入的 SNP | | ----- | --- | --------------- | --------- | | FastEpistasis | PLINK v2.0 (GWAS軟體) | 支援 (輸入的 SNP 數量,是原始資料) | 12,809,667 | | BOOST | PLINK v2.0 (GWAS軟體) | X | 基因上的 SNP | | ReliefF | [Python] [scikit-rebate](https://www.sciencedirect.com/science/article/pii/S1532046418301400) | X | 基因上的 SNP (造成記憶體錯誤) | - 關於 ReliefF 的輸入SNP:33,868 - 使用 GenEpi 第1階段選擇出來的SNP,取其子集作為 ReliefF 的輸入 - **結論** - 儘管 GenEpi 僅使用最終模型中的 SNP 子集,但 GenEpi 具有最佳的預測效能。 > GenEpi had the best prediction performance despite the fact that GenEpi only uses the subset of SNPs from the final model. - GenEpi 表明,識別上位作用所需的時間可以大大減少,而不會影響性能。 > GenEpi shows that the time needed for identifying epistasis can be drastically reduced, without compromise to the performance. - 「最終模型中的SNP子集」又是如何得到的??? 不是透過訓練得到的嗎? <br> - 2-折交叉驗證(2-fold CV)的 [ROC 圖](https://hackmd.io/ylRQ1i6AQ_6Sq60uW8J_7g?both#ROC) ![](https://i.imgur.com/Eon84LQ.jpg) <br> <hr> <hr> ## 討論(Discuss) [![](https://i.imgur.com/Gm7MrNL.jpg)](https://i.imgur.com/Gm7MrNL.jpg) - 這張圖建構來源 - [Consortium GT: **The Genotype-Tissue Expression (GTEx) project**. Nat Genet 2013, 45(6):580-585.](https://www.nature.com/articles/ng.2653) - 下載了 GTEx 計畫的資料集,以檢查這些基因在不同組織中的基因表達 - 討論不同基因的生化作用 - 在 GenEpi 選擇的 12 個基因中,11個在腦組織中具有高度表現水準(expression level) - (略) - GenEpi 是一種很有前景的軟體套件 <br> <hr> <hr> ## 實驗資料(Materials) - ### AD - Alzheimer's disease - 阿滋海默症疾病 - 導致記憶力,思考和推理技能慢慢下降 - [10 個警訊](https://www.alz.org/asian/signs/10_warning_signs.asp?nL=ZH&dL=ZH) - ### ADNI - The Alzheimer's Disease Neuroimaging Initiative - 阿茲海默症腦造影計畫 <br> - ### ADNI 參與者 - 是 767 位健康老人 | 數量 | 參與者類別 | 中文 | | ---- | -------- | ---- | | 241 | cognitively normal (CN) | 認知正常 | | 130 | Early MCI (EMCI) | 早期-輕微認知障礙 | | 273 | Late MCI (LMCI) | 晚期-輕度認知障礙 | | 123 | AD | 患有-阿滋海默症疾病 | - MCI - mild cognitive impairment - 輕微認知障礙 - MCI 仍有可能轉回正常(normal cognition,NC) <br> - 資料前處理 > All the genetic data has been pre-processed by the organizers that held the challenge [28]. - 基因分型 - 使用 Illumina Human610-Quad BeadChip 和 Illumina HumanOmniExpress BeadChip 對遺傳資料進行基因分型 - 族群分析&插補基因資料 - PLINK 使用 HAPMAP3 來執行「多維標度分析」,以確保樣本位於歐洲人群中 - 根據 1,000 個基因體單倍型,將(基因)資料進行插補,總共有12,809,667個基因型特徵 - ### GenEpi 測試資料 | 數量 | 參與者類別 | 中文 | | ---- | -------- | ---- | | 241 | cognitively normal (CN) | 認知正常 | | 123 | AD | 患有-阿滋海默症疾病 | 共 364 位 <br> <hr> <hr> ## 方法(Methods) - ### 架構圖 ![](https://i.imgur.com/oAFExDH.jpg) - ### GenEpi 想法 / 點子 - 透過基因邊界,對 SNP 分群 - 將基因中的「遺傳變異」視為「遺傳特徵」 - 單一個 SNP - 基因內的上位作用 - 基因間的上位作用 - 搭配:跨基因分析的想法 - [[47] Ma L, Clark AG, Keinan A: **Gene-based testing of interactions in association studies of quantitative traits**. PLoS Genet 2013, 9(2):e1003321.](https://journals.plos.org/plosgenetics/article?id=10.1371/journal.pgen.1003321) - [[48] Oh S, Lee J, Kwon MS, Weir B, Ha K, Park T: **A novel method to identify high order gene-gene interactions in genome-wide association studies: gene-based MDR**. BMC Bioinformatics 2012, 13 Suppl 9:S5.](https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-13-S9-S5) - [[49] Li S, Cui Y: **Gene-centric gene–gene interaction: A model-based kernel machine method**. The Annals of Applied Statistics 2012, 6(3):1134-1161.](https://projecteuclid.org/euclid.aoas/1346418577) - [[50] Wu X, Dong H, Luo L, Zhu Y, Peng G, Reveille JD, Xiong M: **A novel statistic for 645 genome-wide interaction analysis**. PLoS Genet 2010, 6(9):e1001131. ](https://journals.plos.org/plosgenetics/article?id=10.1371/journal.pgen.1001131) - ### 建模方法 - 特徵:採用「雙元素」組合編碼 - 模型: - 採用「L1 正規化」 - 穩定性選擇 ![](https://i.imgur.com/3ImkNof.png) ![](https://i.imgur.com/USDvuGQ.png)