GenEpi / 整體概念
===
###### tags: `基因體/三級分析/GenEpi`
###### tags: `基因體`, `SNP`, `dbSNP`, `Variant`, `GenEpi`, `ML`, `生物資訊`
<br>
[返回 GenEpi 首頁](https://hackmd.io/1toBEWFgT06g74yub09BIg)
<br>
## 大綱分類
- **前半段**
- 摘要(成效說明)
- 簡介 → 結果
- **後半段**
- 討論
- 實驗的資料&方法
<br>
## 摘要
- ### 全基因體關聯研究(GWAS, Genome-wide association study)
- 識別「遺傳變異」和「表現型」之間的關聯
- 例如:
- 豬:[緊迫基因遺傳標記](http://www.biotaiwan.org.tw/mag/image_doc/19/08%E8%B1%AC%E7%B6%93%E6%BF%9F%E6%80%A7%E7%8B%80%E9%81%BA%E5%82%B3%E6%A8%99%E8%A8%98%E9%96%8B%E7%99%BC%E8%88%87%E6%87%89%E7%94%A8.pdf)
- 意義
- 抗壓性差
- 位置
- [染色體位置 1q42–q43](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2885589/)
- 第一對染色體,第 1843 鹼基產生突變 C → T
- 基因型
| 母 \ 父 | T | t |
| -------- | -------- | -------- |
| T | <b style="background: yellow; color: red;">```TT``` (純合子)</b> | ```tT``` |
| t | ```Tt``` | ```tt``` (純合子) |
- 表現型
| 母 \ 父 | T | t |
| -------- | -------- | -------- |
| T | <b style="background: yellow; color: red;">```BB``` (陽性反應)</b> | ```AB``` (正常) |
| t | ```AB``` (正常) | ```AA``` (正常) |
<br>
- 豬:[高肉質基因遺傳標記](http://www.biotaiwan.org.tw/mag/image_doc/19/08%E8%B1%AC%E7%B6%93%E6%BF%9F%E6%80%A7%E7%8B%80%E9%81%BA%E5%82%B3%E6%A8%99%E8%A8%98%E9%96%8B%E7%99%BC%E8%88%87%E6%87%89%E7%94%A8.pdf) (非病徵)
- 意義
- 豬肉具有「柔嫩度」、「多汁性」與「良好風味」
- 位於
- 第六對染色體
- 7 種表現型
- 最佳:HH6、
- 次佳:HL5、HL4、HL3
- 較差:LL2、LL1
- 最差:LL0
<br>
- ### GWAS 能帶給我們什麼?
- **找出疾病的基因源頭**
- 豬隻的「抗壓性差」的基因,位於何處?
- 人類的「阿茲海默症」的發病基因,位於何處?
- **困難點**
- 病症的基因,通常是「交互作用」(多個基因共同參與)
- 高血壓、糖尿病、肥胖
- 病症通常不會由「單一個鹼基」所影響
- 豬的緊迫基因 (一個鹼基突變所造成)
<br>
- ### 作者群的願景
- 開發一種「有效率」且「有效果」的 GWAS 方法
- 來找出「複雜疾病」的發病關鍵(基因源頭)
- ### 作者群的方法
- **名稱**
- GenEpi (Gene Epistasis,基因的上位作用)
- 是一種方法,也是一個[開源 python 套件]( https://github.com/Chester75321/GenEpi)
- **類別**
- 機器學習
- **功能**
- 揭示與表現型相關的上位作用之計算套件
- 識別「基因內」和「跨基因」的上位作用
- **特色**
- 特徵:採用「雙元素」組合編碼
- 模型:
- 採用「L1 正規化」
- 穩定性選擇
- **測試資料**
- 阿茲海默症疾病(Alzheimer’s disease, AD)
<br>
## 簡介
- ### [GWAS 的研究歷史](https://zh.wikipedia.org/wiki/%E5%85%A8%E5%9F%BA%E5%9B%A0%E7%BB%84%E5%85%B3%E8%81%94%E5%88%86%E6%9E%90)
- **2002 年**
- 提出 GWAS 方法
- **2005 年**
- 第一項「老年性黃斑部退化(AMD)」的 GWAS 研究
- 症狀
- 「視力模糊」或「中央視野視力障礙」
<br>
- **AMD 的實驗資料**
- 來源
- 96 個病例組
- 50 個對照組
- 差異性
- 10.6 萬個 SNPs (=105,980)
- 關聯
- 補體因子H(CFH)基因中的SNP,與 AMD 顯著相關
- 隨後有
- 冠心病
- 肥胖
- 第二型糖尿病
- 甘油三酯
- 精神分裂症
- 等等

([圖片來源](https://www.yourgenome.org/stories/genome-wide-association-studies))
<br>
- **到 2019 年為止**
- 在 117,398 個 SNP 和 10,358 個表現型之間,
已發現超過 210,498 個變異疾病之關聯(?)
> over 210,498 variant-disease associations between 117,337 SNPs and 10,358 phenotypes have been discovered.

([圖片來源](https://www.itread01.com/content/1504193890.html))
<br>
- ### [GWAS 與一般研究的差異](https://zh.wikipedia.org/wiki/%E5%85%A8%E5%9F%BA%E5%9B%A0%E7%BB%84%E5%85%B3%E8%81%94%E5%88%86%E6%9E%90) (wiki)
- 傳統
- 假設「致病基因」的位置,做實驗檢驗
- GWAS
- **方法** (**交叉比對法**)
- <span style="background: yellow;">有嫌疑的,全部抓起來拷問</span>
- 「**病例組(有致病的)**」和「**對照組(正常人)**」的全基因體之 SNP 差異點
- <span style="background: yellow;">在過濾比較可疑的</span>
- 找出所有的變異等位基因頻率
- **缺點**
- 僅限於單基因表現型(例如孟德爾疾病)
- [孟德爾疾病,是指?](https://baike.baidu.com/item/%E5%AD%9F%E5%BE%B7%E5%B0%94%E9%81%97%E4%BC%A0%E7%97%85)
- 由「一個等位基因」控制的疾病或病狀(疾病的一部分)
- 單個基因突變,就會發病
- 示意圖
[](https://imgur.com/zKv2EJt)
<br>
- ### 傳統 GWAS 所面臨的問題
- 變異的相互作用(上位作用),對疾病形成的影響被低估
- 簡單講:
- 只考慮「直接作用」
- 不考慮「間接作用」
- **為什麼?**
- 主要限制
- 一次只考慮一種遺傳變異,忽略遺傳變異的上位作用
- 因為「上位作用」是導致「表現型」的重要因素
- 這樣的變異可能具有更強的關聯

([圖片來源](https://www.yourgenome.org/stories/genome-wide-association-studies))
> some people who do not have heart disease carry the ‘C’ at this position. This suggests that there may be **other genetic variants** elsewhere in the genome or environmental factors that also play a role in the disease.
- [薩路基獵犬的毛髮](https://slideplayer.com/slide/4973971/)

雖然白色的(BBII)含有 B 的基因,卻不會產生色素
因為 I 抑制了這個 B 的基因
- **導致結果**
- 無法有效找出「複雜疾病的關聯性」
- 複雜疾病,如
- 高血壓
- 糖尿病
- 肥胖
- 阿茲海默症
- **如何改善?**
- 把「**上位作用**」納入考量
- 因為「上位作用」是導致「表現型」的重要因素
<br>
- ### GWAS 考慮「上位作用」,所面臨的 2 個問題
- #### 「維數災難」的問題
- 意思
- 考慮更多變異時,相互作用的數量呈指數增加
- (假設)來源
- 96 個病例組
- 50 個對照組
- 差異性有 10.6 萬個 SNPs
- 考慮 2 個變異
- (10.6x10<sup>4</sup>) x (10.6x10<sup>4</sup>) = 1.1x10<sup>10</sup>
- 考慮 3 個變異
- (10.6x10<sup>4</sup>)<sup>3</sup> = 1.2x10<sup>15</sup>
- 爆炸了...
- #### 「統計檢定力」的問題
- 大量的統計檢定,在「有限的樣本量」和「高維度」相互作用下進行
- 隨機機會會產生許多偽陽性(FP)
<br>
- ### 用來檢測上位作用的 GWAS 相關工具
- 統計方法
- FastEpistasis
- BOOST
- 以上兩者,已含在 PLINK 裡(GWAS軟體)
- 機器學習
- Multifactor Dimensionality Reduction
- ReliefF
- 隨機類森林演算法
- 其他方法也已經被開發用於檢測上位性
<br>
- ### 失敗案例
- **失敗案例1**
- 成人健康與老化的遺傳流行病學研究(GERA)
Genetic Epidemiology Research on Adult Health and Aging
- 龐大數據集
- 78,486 名受試者
- 表現型
- 10 種感興趣的複雜疾病
- 基因型
- 45x10<sup>9</sup> SNP-SNP
- 換算:(212,132 SNP) x (212,132 SNP)
- 使用工具
- 2016年,Murk 使用 FastEpistasis 和 BOOST
- 結果
- 徹底地搜尋
沒有找到「重要的」且「可複製的」交互作用
- **失敗案例2**
- Sage Bionetworks 為 AD (阿茲海默症)
舉辦了 "反向工程評估和方法挑戰對話"(DREAM Challenge)的競賽
- AD (阿茲海默症)
- 具有遺傳因素,但不明確
- 結果
- 沒有任何競爭團隊有觀察到:
除了 APOE 單倍型之外的「遺傳特徵」對「預測效能」的重大貢獻
- i.e.
除了 APOE 遺傳特徵有找到關聯
並沒有發現其他遺傳特徵跟 AD 有關
- **本研究提出 GenEpi**
- 利用機器學習,來揭示與表現型相關的上位作用
<br>
<hr>
<hr>
## GenEpi 的結果
### 演算法比較
- **演算法**
- 統計
- FastEpistasis [[18]](https://academic.oup.com/bioinformatics/article/26/11/1468/202882)
- BOOST [[19]](https://www.sciencedirect.com/science/article/pii/S0002929710003782)
- 機器學習
- GeneEpi
- ReliefF [[23]](https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-12-S1-S10) [[29]](https://www.sciencedirect.com/science/article/pii/S1532046418301400)
<br>
- **Input (實驗數據)**
- 第一部份:使用模擬數據
- 第二部份:使用 ADNI 資料集
- 樣本:對照組 & AD患者
- 透過 [Precision(精確度) & Recall(召回率) & F1](https://docs.google.com/presentation/d/15vnKWgOok00MfXm_QvD-1EWPUeb-MsVLG1m8IDYzb8I) 來評估
<br>
- **Ouput (結果)**
- **GeneEpi**
- 表現優於其他方法
- 能將真正的上位作用排在最前面
- 對診斷 AD 具有最佳預測能力
<br>
- **GeneEpi 找出的「AD 預測模型」**
- 14 個遺傳特徵
- 位於 12 個基因的 24 個 SNP
- 也包含:眾所周知的致病基因 **APOE** 在內
- [何謂 APOE?](http://www.ucl.com.tw/webshop/shop/ServiceQueryInfo.asp?GoodsID=D0114007&GoodstypeID=D0&MiddleID=D011)
- 模型效能
[](https://i.imgur.com/nGMkXwN.png)
<br>
- [2-fold cross validation (CV)](https://hackmd.io/ylRQ1i6AQ_6Sq60uW8J_7g?view#2-fold-CV)
- leave-one-out CV (LOO CV)
- [GenEpi 測試資料](#實驗資料Materials)
| 數量 | 參與者類別 | 中文 |
| ---- | -------- | ---- |
| 241 | cognitively normal (CN) | 認知正常 |
| 123 | AD | 患有-阿滋海默症疾病 |
共 364 位
- [Precision(精確度) & Recall(召回率) & F1](https://docs.google.com/presentation/d/15vnKWgOok00MfXm_QvD-1EWPUeb-MsVLG1m8IDYzb8I)
<br>
- GeneEpis 能「有效率」且「有效果」地偵測出:
與表現型相關的上位作用
<br>
### 實驗數據 - 第一部份 (模擬資料)
- #### 模擬資料的來源
- 模擬器 GAMETES [[30]](https://biodatamining.biomedcentral.com/articles/10.1186/1756-0381-5-16) 生成
- 網站:https://popmodels.cancercontrol.cancer.gov/gsr/packages/gametes/
- #### 模擬資料集(dataset)
- 簡單模型
- 說明
- 只有一個 SNP 對組成的上位作用
- 分別有
- **模型1**:S1-S2 (第一個 SNP 和第二個 SNP 所組成的上位作用)
- **模型2**:S3-S4
- **模型3**:S5-S6
- 複雜模型
- 說明
- 將簡單的模型組合
- 只有
- **模型1 + 模型2 + 模型3**
- 有三個上位作用
- S1-S2, S3-S4, S5-S6
- #### 簡單模型生成參數
- #individuals = 2000 ... ... ... ...(2000人參與)
- case / control ratio = 1 ... ... ... (病例組:1000人, 控制組:1000人)
- #SNPs = 100 ... ... ... ... ... ... (如何控制只有一個上位作用?)
- #replicates = 100 ... ... ... ... (反覆生成,共 100 次的實驗)
- 目標 SNPs 的次要等位基因頻率 = 0.2
- 遺傳力= 0.2
- #### 演算法的表現結果

<br>
- GenEpi 在 3 個基本模型中
- 每一個模型的 100 次實驗,目標的 SNP 對(上位作用)皆排名在第一名
> the ranking of the target epistasis reported by GenEpi in the 100 replicates of each basic-model dataset are always ranked as the first.
- FastEpistasis 和 BOOST
- 目標 SNP 對的排名
- 中位數是 1
- 平均數不是 (i.e. avg > 1)
- 失敗次數
(有無找到目標 SNP 對?)
| | 模型1 | 模型2 | 模型3 |
| ------------- | ---- | ----- | ----- |
| FastEpistasis | 6 | 1 | 15 |
| BOOST | 5 | 1 | 14 |
<br>

- 關於複雜模型
- 每一個圖示都是箱型圖

([圖片來源](http://estat.ncku.edu.tw/nsc/flash/topic/graph_stat/base/BoxPlot.html)), ([離群值的檢測](http://highscope.ch.ntu.edu.tw/wordpress/?p=73655))
- GenEpi 真的很完美?破解了基因的上位作用?
<br>
- ReliefF 就不說明了
- 無法衡量 SNP 對的重要性
- #### GenEpi 為何優異?
- 特徵:
- 採用「雙元素」組合編碼
- 藉由多變量模型,考慮組合特徵之間的相互作用
- 模型:
- 採用 [穩定性選擇 (Stability selection)](https://hackmd.io/ylRQ1i6AQ_6Sq60uW8J_7g?view#%E7%A9%A9%E5%AE%9A%E6%80%A7%E9%81%B8%E6%93%87-Stability-selection) 的 L1 正規化
- 操作:
- 對資料集,進行數百次的重新取樣與重構
- 目的:濾掉上位作用的誤報(偽陽性)
- 比較「套用」&「不套用」穩定性選擇
[](https://i.imgur.com/F8fPFZE.jpg)
穩定性選擇,可以有效降低平均偽陽性率,並最小化偽陽性率的方差
<br>
### 實驗數據 - 第二部份 (真實資料)
- #### 分類 AD 患者
- 請參考[下一章節](#實驗資料Materials)
- GenEpi 測試資料
| 數量 | 參與者類別 | 中文 |
| ---- | -------- | ---- |
| 241 | cognitively normal (CN) | 認知正常 |
| 123 | AD | 患有-阿滋海默症疾病 |
共 364 位
<br>
[](https://i.imgur.com/VjLRT8k.png)
- **[Step1] 從 UCSC 上抓取基因資料**
- 目的
- 為了獲取基因的起始&結束,來判斷是否在基因內
- 查詢次等位基因頻率,使用連鎖不平衡(LD)來降維
- 細節
- https://genome.ucsc.edu/cgi-bin/hgTables
[](https://genome.ucsc.edu/cgi-bin/hgTables)
- [基因體版本](https://hackmd.io/qmzwm4idRyWROeeboqpfSw#%E9%81%8E%E5%8E%BB%E8%A8%88%E7%95%AB%EF%BC%86%E8%A8%88%E7%95%AB%E4%B8%AD)
- hg19 / GRCh37 (2009年2月人類基因體)
<br>
- **資料表(data table)**
- <b style="background: yellow;">knownGene</b>:擷取基因座標 (genomic coordinate)
[](https://i.imgur.com/ZgkQRa3.png)
- <b style="background: yellow;">kgXref</b>:擷取基因符號 (gene symbol)
[](https://i.imgur.com/1H2U2z1.png)
- **腳本(Script)**
- 將 knownGene 和 kgXref 合併,生成本機資料庫(local database)
- 可以自動更新此資料庫
- **補充說明**
- RefSeq 資料表中有許多不同類別的基因。
- 在這項研究中,我們只關注 mRNA 和非編碼 RNA(總共22,376個基因)。
- 保留啟動子
- 長度可以是 100-1000 個鹼基對
- 在每個基因的起始位置的上游,提取 1000 個核苷酸
- knownGene(左) 和 RefSeq(右) 差異比對
- 即使同版本,資訊仍然有大大地不同

<br>

- **[Step2] [評估連鎖不平衡(Linkage Disequilibrium, LD)](https://hackmd.io/ylRQ1i6AQ_6Sq60uW8J_7g?view#%E9%80%A3%E9%8E%96%E4%B8%8D%E5%B9%B3%E8%A1%A1-Linkage-Disequilibrium-LD)**
- **目的**
- dimensionality reduction 降維
- **效果**
- 將 SNP 數量,從 12,809,667 降為 12,102,888
- 只減少 5.5% 的 SNP (降維有限?)
- **參數**
- ```D' > 0.9```
- ```r<sup>2</sup> > 0.9```
- **細節**
- 將高度依賴的 SNP 特徵,分類為一個區塊
- 選擇具有「**最大次要等位基因頻率**」的特徵
來表示一個區塊的主要特徵
- **問題**
- 如果不套用 LD,效果影響如大?
<br>

- **[Step3] 藉由基因,分割 SNP 的特徵**
- 目的
- 只拿位於基因上的 SNP 來分析
- 不考慮基因外的 SNP (可能是用於調控基因)
- 效果
- 將 SNP 數量,從 12,102,888 降為 4,916,249 (位於 20,206 基因內)
> GenEpi only focuses on the SNPs in the gene regions.
- 減少 59.4% 的 SNP
- 評論:基因數量會減少,可能是因為 某些基因沒有 SNP (?)
<br>

- **[Step4] 選擇單一基因的上位作用**
- 目的
- 應該就是 GenEpi 核心
- 找出「單一基因的上位作用」與「AD」的關聯
- 效果
- 找出 34,689 個遺傳特徵
- 765 是單一 SNP
- 34,689 是 SNP-SNP (SNP對,上位作用)
- 比如
- rs3130614_BB, rs41276317_AB 是 SNP 對
- rs12095538_BB, rs2774308_AB 是 SNP 對
- rs12926153_AB, rs12922908_AA 是 SNP 對
- [rs429358](https://www.ncbi.nlm.nih.gov/snp/rs429358)_AA 是單一 SNP
<br>

- **[Step5] 選擇跨基因的上位作用**
- 目的
- 找出「跨基因的上位作用」與「AD」的關聯
- **效果**
[](https://i.imgur.com/eQLM7Vu.png)
<br>
- 找出 14 個遺傳特徵
- 只有一個是「跨基因的上位作用」:```MICB * TOB2```
- 位於 12 個基因
- 共有 24 個 SNP
| 1-10 | 11-20 | 20-24 |
| ------------- | -------- | -------- |
| rs10831829_BB<br>rs11675339_AA<br>rs12095538_BB<br>rs12187423_BB<br>rs12189429_BB<br>rs12366151_AA<br>**[rs12922908](https://www.ncbi.nlm.nih.gov/snp/rs12922908)_AA** x 2<br>rs12926153_AB<br>rs200512701_AB <br>rs2052573_BB | <br>rs2421701_AB<br>rs2710687_AA<br>rs2774308_AB<br>rs3130614_BB<br>rs34580133_AB<br>rs3678_AB<br>rs41276317_AB<br>rs429358_AA<br>rs56148686_AB<br>rs56233035_AB | **rs6881360_AA** x 2<br>rs769449_AA<br>rs9344977_BB<br>rs9652600_AB |
- 基因與 SNP 的關係圖
| 12 個基因 | SNP or SNP-SNP |
| ----------- | ------------ |
| ADAMTS12 | rs12189429_BB-<u>rs6881360_AA</u>,<br>rs12187423_BB-<u>rs6881360_AA</u> |
| **[APOE](https://en.wikipedia.org/wiki/Apolipoprotein_E)** | **<span style="background: yellow;">[[rs429358](https://www.snpedia.com/index.php/Rs429358)_AA]</span>**, **<span style="background: yellow;">[[rs769449](https://www.snpedia.com/index.php/Rs769449)_AA]</span>** |
| BACH2 | rs9344977_BB-rs56148686_AB |
| CACNA1E | rs56233035_AB-rs3678_AB |
| CLEC16A | <u>rs12922908_AA</u>-rs9652600_AB,<br>rs12926153_AB-<u>rs12922908_AA</u> |
| LINC00299 | rs2052573_BB-rs34580133_AB |
| MICB | **rs3130614_BB-???** |
| PARVA | rs10831829_BB-rs12366151_AA |
| SYT6 | rs12095538_BB-rs2774308_AB |
| TNKS2 | rs2421701_AB-rs200512701_AB |
| TOB2 | **???-rs41276317_AB** |
| VSNL1 | rs11675339_AA-rs2710687_AA |
- **模型效能**
[](https://i.imgur.com/nGMkXwN.png)
<br>
[](https://i.imgur.com/eQLM7Vu.png)
- 權重(weight)
- 從在 2.4 節(Section 2.4)中定義的線性模型中提取的(沒有看到???)
- 權重的符號
- 遺傳特徵是否是「致病性」或「保護性」基因型
- APOE 的 rs429358_AA 和 rs769449_AA 是負的,是致病基因
- [勝算比(Odds Ratio)](https://hackmd.io/ylRQ1i6AQ_6Sq60uW8J_7g#%E5%8B%9D%E7%AE%97%E6%AF%94-odds-ratio-OR)
- 勝算比與權重的正負號一致
- [χ<sup>2</sup> 檢定](https://hackmd.io/ylRQ1i6AQ_6Sq60uW8J_7g#%E5%8D%A1%E6%96%B9%E6%AA%A2%E5%AE%9A)的 p 值
- 表示這些特徵與表現型顯著相關
- p 值要小於 0.01
<br>
### 不同演算法的比較

> - **'時間成本'** 是花在辨識上位作用的所需時間,其以單顆 CPU 時間來衡量(以天為單位)。
> - Top15, Top30, Top45, Top60 這四個欄位,是用來表示 2-fold CV 的效能。其值為 F1 分數。
- 執行環境
- Microsoft Azure E32 v3
- 32顆 CPU
- 256GB RAM
- 軟體套件
| 演算法 | 套件 | 可支援整套SNP計算 | 輸入的 SNP |
| ----- | --- | --------------- | --------- |
| FastEpistasis | PLINK v2.0 (GWAS軟體) | 支援 (輸入的 SNP 數量,是原始資料) | 12,809,667 |
| BOOST | PLINK v2.0 (GWAS軟體) | X | 基因上的 SNP |
| ReliefF | [Python] [scikit-rebate](https://www.sciencedirect.com/science/article/pii/S1532046418301400) | X | 基因上的 SNP (造成記憶體錯誤) |
- 關於 ReliefF 的輸入SNP:33,868
- 使用 GenEpi 第1階段選擇出來的SNP,取其子集作為 ReliefF 的輸入
- **結論**
- 儘管 GenEpi 僅使用最終模型中的 SNP 子集,但 GenEpi 具有最佳的預測效能。
> GenEpi had the best prediction performance despite the fact that GenEpi only uses the subset of SNPs from the final model.
- GenEpi 表明,識別上位作用所需的時間可以大大減少,而不會影響性能。
> GenEpi shows that the time needed for identifying epistasis can be drastically reduced, without compromise to the performance.
- 「最終模型中的SNP子集」又是如何得到的???
不是透過訓練得到的嗎?
<br>
- 2-折交叉驗證(2-fold CV)的 [ROC 圖](https://hackmd.io/ylRQ1i6AQ_6Sq60uW8J_7g?both#ROC)

<br>
<hr>
<hr>
## 討論(Discuss)
[](https://i.imgur.com/Gm7MrNL.jpg)
- 這張圖建構來源
- [Consortium GT: **The Genotype-Tissue Expression (GTEx) project**. Nat Genet 2013, 45(6):580-585.](https://www.nature.com/articles/ng.2653)
- 下載了 GTEx 計畫的資料集,以檢查這些基因在不同組織中的基因表達
- 討論不同基因的生化作用
- 在 GenEpi 選擇的 12 個基因中,11個在腦組織中具有高度表現水準(expression level)
- (略)
- GenEpi 是一種很有前景的軟體套件
<br>
<hr>
<hr>
## 實驗資料(Materials)
- ### AD
- Alzheimer's disease
- 阿滋海默症疾病
- 導致記憶力,思考和推理技能慢慢下降
- [10 個警訊](https://www.alz.org/asian/signs/10_warning_signs.asp?nL=ZH&dL=ZH)
- ### ADNI
- The Alzheimer's Disease Neuroimaging Initiative
- 阿茲海默症腦造影計畫
<br>
- ### ADNI 參與者
- 是 767 位健康老人
| 數量 | 參與者類別 | 中文 |
| ---- | -------- | ---- |
| 241 | cognitively normal (CN) | 認知正常 |
| 130 | Early MCI (EMCI) | 早期-輕微認知障礙 |
| 273 | Late MCI (LMCI) | 晚期-輕度認知障礙 |
| 123 | AD | 患有-阿滋海默症疾病 |
- MCI
- mild cognitive impairment
- 輕微認知障礙
- MCI 仍有可能轉回正常(normal cognition,NC)
<br>
- 資料前處理
> All the genetic data has been pre-processed by the organizers that held the challenge [28].
- 基因分型
- 使用 Illumina Human610-Quad BeadChip 和 Illumina HumanOmniExpress BeadChip 對遺傳資料進行基因分型
- 族群分析&插補基因資料
- PLINK 使用 HAPMAP3 來執行「多維標度分析」,以確保樣本位於歐洲人群中
- 根據 1,000 個基因體單倍型,將(基因)資料進行插補,總共有12,809,667個基因型特徵
- ### GenEpi 測試資料
| 數量 | 參與者類別 | 中文 |
| ---- | -------- | ---- |
| 241 | cognitively normal (CN) | 認知正常 |
| 123 | AD | 患有-阿滋海默症疾病 |
共 364 位
<br>
<hr>
<hr>
## 方法(Methods)
- ### 架構圖

- ### GenEpi 想法 / 點子
- 透過基因邊界,對 SNP 分群
- 將基因中的「遺傳變異」視為「遺傳特徵」
- 單一個 SNP
- 基因內的上位作用
- 基因間的上位作用
- 搭配:跨基因分析的想法
- [[47] Ma L, Clark AG, Keinan A: **Gene-based testing of interactions in association studies of quantitative traits**. PLoS Genet 2013, 9(2):e1003321.](https://journals.plos.org/plosgenetics/article?id=10.1371/journal.pgen.1003321)
- [[48] Oh S, Lee J, Kwon MS, Weir B, Ha K, Park T: **A novel method to identify high order gene-gene interactions in genome-wide association studies: gene-based MDR**. BMC Bioinformatics 2012, 13 Suppl 9:S5.](https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-13-S9-S5)
- [[49] Li S, Cui Y: **Gene-centric gene–gene interaction: A model-based kernel machine method**. The Annals of Applied Statistics 2012, 6(3):1134-1161.](https://projecteuclid.org/euclid.aoas/1346418577)
- [[50] Wu X, Dong H, Luo L, Zhu Y, Peng G, Reveille JD, Xiong M: **A novel statistic for 645 genome-wide interaction analysis**. PLoS Genet 2010, 6(9):e1001131. ](https://journals.plos.org/plosgenetics/article?id=10.1371/journal.pgen.1001131)
- ### 建模方法
- 特徵:採用「雙元素」組合編碼
- 模型:
- 採用「L1 正規化」
- 穩定性選擇

