三級分析 / 全基因體關聯研究(GWAS) === ###### tags: `基因體/三級分析` ###### tags: `生物資訊`, `基因體`, `三級分析`, `全基因體關聯研究(GWAS)` <br> [TOC] <br> ## 全基因體關聯研究 - 英文:Genome-Wide Association Study, GWAS <br> ## 勝算比 Odd Ratio - [為什麼都用「勝算比」odds ratio(OR) 而不是「相對風險」 (RR)呢?](https://medium.com/@chungyizhen/5c62fe84787c) ![](https://i.imgur.com/o2Ns8hM.png) - VIP用戶,流失的機率為10%,未流失的機率為90%, - VIP用戶流失的勝算odds,就是 10%/90%=1/9,約為 11.11% - 一般用戶,流失的機率為30%,未流失的機率為70%, - 一般用戶流失的勝算odds,就是 30%/70%=3/7,約為 42.86% - 風險值:(10/90)/(30/70)=700/2700=7/27=25.9 - 不能直接代表風險的倍數 (不是倍數關係) - VIP用戶的風險是一般用戶的25.9%,這是錯誤的解讀 <br> ## 相對風險 Relative Risk - [為什麼都用「勝算比」odds ratio(OR) 而不是「相對風險」 (RR)呢?](https://medium.com/@chungyizhen/5c62fe84787c) ![](https://i.imgur.com/sKt6gfj.png) - VIP用戶流失比率 = 就是 20/110=2/11,約為 18.18% - 一般用戶流失比率 = 就是 60/130=6/13,約為 46.15% - 相對風險:18.18/46.15=39.39% (是倍數關係) <br> ### 作法: ![](https://i.imgur.com/r4HgRYu.jpg) - X 軸,是把每條染色體攤開,MAF > 5% 的 SNP 列上去 - Y 軸,是 SNP 的 p-value - 每個人跟群體的 SNP 差異,好像是 300 萬個(?) http://bioinfo.cs.ccu.edu.tw/wiki/doku.php?id=single_nucleotide_polymorphism_snp 在人體中,SNP的發生機率大約是0.1% SNP個數:30 億個 bp x 0.001 = 300 萬bp - Y 軸的 p-value 求法 求 性狀組v.s.對照組的 odd ratio (勝算比) 再求 chi-squared test 獲得 P 值 - 高高的點,表示性狀組 v.s.對照組 差異性很大 從對應的 X 軸,可以找出有相關的 SNP <br> ## 案例研究 - ### [外顯子定序確認CYP26B1及其他低頻率基因變異與食道麟狀上皮癌的發生有相關](http://www.tpms.org.tw/2018/02/12/cyp26b1/) [![](https://i.imgur.com/Nso8Wej.png)](https://i.imgur.com/Nso8Wej.png) ![](https://i.imgur.com/IIY3whT.png) ![](https://i.imgur.com/Cu3TZWh.png) - missing heritability - polygenic risk score ![](https://i.imgur.com/GPuists.png) <br> <hr> <br> ## 插補 - [插補(遺傳學)](https://en.wikipedia.org/wiki/Imputation_(genetics)) - 在研究中對每個個體的整個基因組進行測序通常成本太高,因此只能測量基因組的一個子集 - 只考慮單核苷酸多態性(SNP) 而忽略拷貝數變異(CNV) - 僅測量已知在人群中足夠可變的 SNP,它們可能在所考慮的一組個體中也可能是可變的 <br> <hr> <br> ## 缺點|黑數 - ### [聽起來很厲害的「全基因組關聯分析」,能算命嗎?](https://kknews.cc/science/yarmxxa.html) - 如果你了解統計的話,也可以算算 odd ratio 並通過 chi-squared test 獲得 P 值 ![](https://i.imgur.com/LcjsE1K.png) - 基因晶片的問題是不能覆蓋到所有的 SNP,所以有可能真正起作用的 SNP 並沒有被檢測到。當然我們可以利用連鎖不平衡的原理來解決這個問題,但由於有重組的存在,這一解決方案並不完美。 - 想研究的性狀,然後找到兩群人,一群有這個性狀,另一組做對照。在考慮到可能的混淆因素的前提下,通過對比上百萬個 SNP 在這兩群人中的基因型頻率分布來找到與該性狀相關的遺傳位點。 - GWAS 黑點 - 實際情況是大部分通過 GWAS 找到的 SNP 位於非編碼區,至今功能不明 - 其次,很多找到的 SNP 對實際性狀的影響很微弱,平均 odd ratio 僅為 1.3 - 所謂的「消失的遺傳率」(missing heritability)問題。遺傳率是指表型方差中遺傳方差的比例。而 GWAS 研究得到的遺傳率不到流行病學調查得到的一半。 - ### [美麗而浪漫的分析法存在著缺陷?何為上位作用?](https://scitechvista.nat.gov.tw/Article/c000003/detail?ID=ce45d02a-caac-4314-9b7e-18e6456020fd) > 但在這個美麗而浪漫的分析方法背後其實存在不足,因為上述的GWAS採用單變量分析,也就是一次只考慮一個SNP與表現型之間的關聯性,這樣的分析忽略了基因變異之間的交互作用可能與表現型產生關聯,使得GWAS的成果局限於單基因 (Monogenic) 決定的表現型上。 <br> <hr> <br> ## 參考資料-尚未消化 - [[Cynthia]【Survey】BLINK & PLINK](https://cynthiachuang.github.io/Survey-BLINK-and-PLINK/) - [全基因組分析能讓我們知道多少事? ](https://pansci.asia/archives/141209) - [統計告訴你致病基因在哪裡](http://www3.stat.sinica.edu.tw/summerschool2015/document/%E7%B5%B1%E8%A8%88%E7%A0%94%E7%BF%92%E7%87%9F_%E5%AE%8C%E6%95%B4slides_20150709%E6%A5%8A.pdf) - [全基因组关联分析(GWAS)-统计方法与模型简介](https://www.jianshu.com/p/a83b372ddf7d) - [●小知識分享●生資小白也能看懂的GWAS數據篩選重點教學](https://fcbiotech2.pixnet.net/blog/post/351849904) - [●小知識分享● GWAS分析的下一步:如何分組驗證疾病關聯性?](https://fcbiotech2.pixnet.net/blog/post/351978073) - [[陳倩瑜] 生技醫療系列1:AI做你的透視眼—破解人眼看不見的基因問題](https://scitechvista.nat.gov.tw/Article/C000003/detail?ID=ce45d02a-caac-4314-9b7e-18e6456020fd) - [全基因组关联分析学习资料(GWAS tutorial)20210313更新版](https://www.cnblogs.com/chenwenyan/p/11803311.html)