Known Sites db === ###### tags: `基因體/三級分析/資料庫` ###### tags: `基因體`, `SNP`, `dbSNP`, `Variant`, `clinvar`, `1000genoms`, `gnomAD` <br> [TOC] <br> ## Overview | 資料庫名稱<br>(線上查詢) | 下載來源 | 檔案資訊 | 說明 | | -------------------- | ------- | --------|-----| | [dbSNP](https://www.ncbi.nlm.nih.gov/snp/) | [FTP](https://ftp.ncbi.nih.gov/snp/organisms/human_9606_b151_GRCh38p7/VCF/)(舊檔)<br>[FTP](https://ftp.ncbi.nlm.nih.gov/snp/latest_release/VCF/)(新檔) | [2018/04:00-All.vcf.gz](https://ftp.ncbi.nih.gov/snp/organisms/human_9606_b151_GRCh38p7/VCF/00-All.vcf.gz)(15G)<br>[2021/05:GCF_000001405.25.gz](https://ftp.ncbi.nlm.nih.gov/snp/latest_release/VCF/GCF_000001405.25.gz)(23G)<br>[2021/05:GCF_000001405.39.gz](https://ftp.ncbi.nlm.nih.gov/snp/latest_release/VCF/GCF_000001405.39.gz)(24G) | 短遺傳變異資料庫<br>[[hackMD]](https://hackmd.io/kN7MzZZjTsKlOXLYy3gV5Q) | [clinvar](https://www.ncbi.nlm.nih.gov/clinvar/) | [FTP](https://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh38/) | [2023/01:clinvar.vcf.gz](https://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh38/clinvar.vcf.gz)(60M) | 臨床相關變異資料庫<br>[[hackMD]](https://hackmd.io/zaZVe2tUTQaVvbLsHGqY8g) | | [1000genomes](https://www.internationalgenome.org/1000-genomes-browsers/index.html) | [FTP](https://ftp.1000genomes.ebi.ac.uk/vol1/ftp/data_collections/1000_genomes_project/release/20181203_biallelic_SNV/) | [2018/12:ALL.wgs.xxx.vcf.gz](https://ftp.1000genomes.ebi.ac.uk/vol1/ftp/data_collections/1000_genomes_project/release/20181203_biallelic_SNV/ALL.wgs.shapeit2_integrated_v1a.GRCh38.20181129.sites.vcf.gz)(846MB) | 族群頻率資料庫<br>[[hackMD]](https://hackmd.io/Ml1dFFT6Tv6oAjQDP0lRgw) | | [gnomAD](https://gnomad.broadinstitute.org/) | [link](https://gnomad.broadinstitute.org/downloads/)<br>- [Google](https://console.cloud.google.com/storage/browser/gcp-public-data--gnomad/release/3.1.2/vcf/genomes)<br>- Azure<br>- AWS | [exomes.r2.1.1](https://console.cloud.google.com/storage/browser/_details/gcp-public-data--gnomad/release/2.1.1/liftover_grch38/vcf/exomes/gnomad.exomes.r2.1.1.sites.liftover_grch38.vcf.bgz)(85.3GB) | 基因體彙總資料庫<br>[[hackMD]](https://hackmd.io/zaZVe2tUTQaVvbLsHGqY8g) | | Pubmed | | | 紀錄文獻 | <br> <hr> <br> ## 註釋方式 ### 前製作業 - 對 WES 或 WGS 資料,跑 germline pipeline,產生 output.vcf - 下載遺傳變異相關資料庫 <br> ### 1. 透過 vcfanno (CPU-based) > [[HackMD]](https://hackmd.io/zqmvrmJJT5qjckWYAg1p3w) - 準備 `conf.toml` (範例) ```toml [[annotation]] file="/workspace/datasets/variants/ncbi/clinvar/clinvar.vcf.gz" # ID and FILTER are special fields that pull the ID and FILTER columns from the VCF fields=["CLNHGVS", "GENEINFO", "MC"] ops=["self", "self", "self"] names=["clinvar_CLNHGVS", "clinvar_GENEINFO", "clinvar_MC"] [[annotation]] file="/workspace/datasets/variants/1000genomes/ALL.wgs.shapeit2_integrated_v1a.GRCh38.20181129.sites.vcf.gz" # ID and FILTER are special fields that pull the ID and FILTER columns from the VCF fields=["EAS_AF"] ops=["self"] ``` - 進行註釋 ``` $ vcfanno conf.toml output.vcf > annotated.vcf ``` - 備註 - 需要自行指定欄位 不確定是否有 select-all 用法,需要更深入研究 <br> ### 2. 透過 pbrun vcfanno (GPU-based) > [[HackMD]](https://hackmd.io/qzrJHT_4TJmzvfCk-NdA2g) - 進行註釋 ``` $ pbrun vcfanno \ --in-vcf input.vcf \ --out-vcf output.vcf \ --annotations mydb:database.vcf.gz \ --dbsnp dbsnp:dbsnp.vcf.gz ``` - 備註 - 僅限 v3.8(含) 以前的版本,在 v4.0 不支援 - 目前無 trial-license (不再發布免費授權) <br> <hr> <br> ## target fields ### dbsnp > [[HackMD]](https://hackmd.io/kN7MzZZjTsKlOXLYy3gV5Q#註釋欄位) <br> ### clinvar > [[HackMD]](https://hackmd.io/zaZVe2tUTQaVvbLsHGqY8g#註釋欄位) <br> ### 1000g > [[HackMD]](https://hackmd.io/Ml1dFFT6Tv6oAjQDP0lRgw) <br> ### gnomad > [[HackMD]](https://hackmd.io/NVFE7GxVScSGLOIYAVvkxw) ### 欄位規範 > 詳細說明:https://hackmd.io/6rATKTvURVSKia8K_9kBeQ#Header-Spec - 欄位值的個數: ![](https://i.imgur.com/rkEaNrF.png) - 欄位類型: `[Integer|Float|Flag|Character|String]` <br> <br> <hr> <br> ## 如何決策變異 1. 使用各種資料庫進行註釋 - annotated VCF 內容要有哪些欄位? 分別來自哪些 DB? - 挑選出最終報表要呈現的欄位 2. 所發現的變異,都需要進行致病性評估 - [[台基盟生技] Congenica基因解讀案例分享, p3](https://cghdpt.cgmh.org.tw/files/news/40d24ba6-ee49-4109-8aa0-c3c8d105d7ca.pdf) 3. 變異挑選 > - [[台基盟生技] Congenica基因解讀案例分享, p5](https://cghdpt.cgmh.org.tw/files/news/40d24ba6-ee49-4109-8aa0-c3c8d105d7ca.pdf) - clinvar - CLNSIG 欄位: - Likely pathogenic(可能是致病性) - pathogenic(致病性) - phenotype (表現型) - else 1. 選擇條件 - MAF < 0.05 or missing: TWBK_AF、1K_EAS_AF、GnomAD_EAS - EAS: ++E++ast ++As++ian population, 東亞族群 - [Exome Aggregation Consortium (ExAC): 鑑定致病基因的重要資料庫](http://www.tpms.org.tw/KSharing_detail.php?ID=17) > 然而,當我們有夠大的人類基因資料庫的時候,如果這些基因突變的發生率也很高,也可以減少它的致病嫌疑 > i.e. 族群中發生率高 -> 致病性低 (否則族群就會滅亡) 2. 捨棄條件 - CLNSIG 欄位: - Benign(良性) - likely benign(可能是良性) 3. 選擇條件 - 基因型(就是捨棄GT=0/0) - GT=0/1 - GT=1/1 4. 有致病性時,需同時評估多項證據 - 表現型、資料庫、ACMG 指南、計算預測因子、文獻... - 基因與疾病的臨床經驗 <br> <br> <hr> <br> ## 不錯的界面呈現 - ### [[瑞林生物科技股份有限公司] 3. 欄位介紹 I](https://hackmd.io/@jackC/SJfdTlXp_) - ### 基因位點的敘述 [![](https://i.imgur.com/H4pwA9J.png)](https://i.imgur.com/H4pwA9J.png) - ### 變異品質控制及文獻證據 [![](https://i.imgur.com/9gijbN3.png)](https://i.imgur.com/9gijbN3.png) - ### 族群頻率 [![](https://i.imgur.com/zwf4ZSV.png)](https://i.imgur.com/zwf4ZSV.png)