三級分析 / 全基因體關聯研究(GWAS)
===
###### tags: `基因體/三級分析`
###### tags: `生物資訊`, `基因體`, `三級分析`, `全基因體關聯研究(GWAS)`
<br>
[TOC]
<br>
## 全基因體關聯研究
- 英文:Genome-Wide Association Study, GWAS
<br>
## 勝算比 Odd Ratio
- [為什麼都用「勝算比」odds ratio(OR) 而不是「相對風險」 (RR)呢?](https://medium.com/@chungyizhen/5c62fe84787c)

- VIP用戶,流失的機率為10%,未流失的機率為90%,
- VIP用戶流失的勝算odds,就是 10%/90%=1/9,約為 11.11%
- 一般用戶,流失的機率為30%,未流失的機率為70%,
- 一般用戶流失的勝算odds,就是 30%/70%=3/7,約為 42.86%
- 風險值:(10/90)/(30/70)=700/2700=7/27=25.9
- 不能直接代表風險的倍數 (不是倍數關係)
- VIP用戶的風險是一般用戶的25.9%,這是錯誤的解讀
<br>
## 相對風險 Relative Risk
- [為什麼都用「勝算比」odds ratio(OR) 而不是「相對風險」 (RR)呢?](https://medium.com/@chungyizhen/5c62fe84787c)

- VIP用戶流失比率 = 就是 20/110=2/11,約為 18.18%
- 一般用戶流失比率 = 就是 60/130=6/13,約為 46.15%
- 相對風險:18.18/46.15=39.39% (是倍數關係)
<br>
### 作法:

- X 軸,是把每條染色體攤開,MAF > 5% 的 SNP 列上去
- Y 軸,是 SNP 的 p-value
- 每個人跟群體的 SNP 差異,好像是 300 萬個(?)
http://bioinfo.cs.ccu.edu.tw/wiki/doku.php?id=single_nucleotide_polymorphism_snp
在人體中,SNP的發生機率大約是0.1%
SNP個數:30 億個 bp x 0.001 = 300 萬bp
- Y 軸的 p-value 求法
求 性狀組v.s.對照組的 odd ratio (勝算比)
再求 chi-squared test 獲得 P 值
- 高高的點,表示性狀組 v.s.對照組 差異性很大
從對應的 X 軸,可以找出有相關的 SNP
<br>
## 案例研究
- ### [外顯子定序確認CYP26B1及其他低頻率基因變異與食道麟狀上皮癌的發生有相關](http://www.tpms.org.tw/2018/02/12/cyp26b1/)
[](https://i.imgur.com/Nso8Wej.png)


- missing heritability
- polygenic risk score

<br>
<hr>
<br>
## 插補
- [插補(遺傳學)](https://en.wikipedia.org/wiki/Imputation_(genetics))
- 在研究中對每個個體的整個基因組進行測序通常成本太高,因此只能測量基因組的一個子集
- 只考慮單核苷酸多態性(SNP) 而忽略拷貝數變異(CNV)
- 僅測量已知在人群中足夠可變的 SNP,它們可能在所考慮的一組個體中也可能是可變的
<br>
<hr>
<br>
## 缺點|黑數
- ### [聽起來很厲害的「全基因組關聯分析」,能算命嗎?](https://kknews.cc/science/yarmxxa.html)
- 如果你了解統計的話,也可以算算 odd ratio 並通過 chi-squared test 獲得 P 值

- 基因晶片的問題是不能覆蓋到所有的 SNP,所以有可能真正起作用的 SNP 並沒有被檢測到。當然我們可以利用連鎖不平衡的原理來解決這個問題,但由於有重組的存在,這一解決方案並不完美。
- 想研究的性狀,然後找到兩群人,一群有這個性狀,另一組做對照。在考慮到可能的混淆因素的前提下,通過對比上百萬個 SNP 在這兩群人中的基因型頻率分布來找到與該性狀相關的遺傳位點。
- GWAS 黑點
- 實際情況是大部分通過 GWAS 找到的 SNP 位於非編碼區,至今功能不明
- 其次,很多找到的 SNP 對實際性狀的影響很微弱,平均 odd ratio 僅為 1.3
- 所謂的「消失的遺傳率」(missing heritability)問題。遺傳率是指表型方差中遺傳方差的比例。而 GWAS 研究得到的遺傳率不到流行病學調查得到的一半。
- ### [美麗而浪漫的分析法存在著缺陷?何為上位作用?](https://scitechvista.nat.gov.tw/Article/c000003/detail?ID=ce45d02a-caac-4314-9b7e-18e6456020fd)
> 但在這個美麗而浪漫的分析方法背後其實存在不足,因為上述的GWAS採用單變量分析,也就是一次只考慮一個SNP與表現型之間的關聯性,這樣的分析忽略了基因變異之間的交互作用可能與表現型產生關聯,使得GWAS的成果局限於單基因 (Monogenic) 決定的表現型上。
<br>
<hr>
<br>
## 參考資料-尚未消化
- [[Cynthia]【Survey】BLINK & PLINK](https://cynthiachuang.github.io/Survey-BLINK-and-PLINK/)
- [全基因組分析能讓我們知道多少事?
](https://pansci.asia/archives/141209)
- [統計告訴你致病基因在哪裡](http://www3.stat.sinica.edu.tw/summerschool2015/document/%E7%B5%B1%E8%A8%88%E7%A0%94%E7%BF%92%E7%87%9F_%E5%AE%8C%E6%95%B4slides_20150709%E6%A5%8A.pdf)
- [全基因组关联分析(GWAS)-统计方法与模型简介](https://www.jianshu.com/p/a83b372ddf7d)
- [●小知識分享●生資小白也能看懂的GWAS數據篩選重點教學](https://fcbiotech2.pixnet.net/blog/post/351849904)
- [●小知識分享● GWAS分析的下一步:如何分組驗證疾病關聯性?](https://fcbiotech2.pixnet.net/blog/post/351978073)
- [[陳倩瑜] 生技醫療系列1:AI做你的透視眼—破解人眼看不見的基因問題](https://scitechvista.nat.gov.tw/Article/C000003/detail?ID=ce45d02a-caac-4314-9b7e-18e6456020fd)
- [全基因组关联分析学习资料(GWAS tutorial)20210313更新版](https://www.cnblogs.com/chenwenyan/p/11803311.html)