Known Sites db
===
###### tags: `基因體/三級分析/資料庫`
###### tags: `基因體`, `SNP`, `dbSNP`, `Variant`, `clinvar`, `1000genoms`, `gnomAD`
<br>
[TOC]
<br>
## Overview
| 資料庫名稱<br>(線上查詢) | 下載來源 | 檔案資訊 | 說明 |
| -------------------- | ------- | --------|-----|
| [dbSNP](https://www.ncbi.nlm.nih.gov/snp/) | [FTP](https://ftp.ncbi.nih.gov/snp/organisms/human_9606_b151_GRCh38p7/VCF/)(舊檔)<br>[FTP](https://ftp.ncbi.nlm.nih.gov/snp/latest_release/VCF/)(新檔) | [2018/04:00-All.vcf.gz](https://ftp.ncbi.nih.gov/snp/organisms/human_9606_b151_GRCh38p7/VCF/00-All.vcf.gz)(15G)<br>[2021/05:GCF_000001405.25.gz](https://ftp.ncbi.nlm.nih.gov/snp/latest_release/VCF/GCF_000001405.25.gz)(23G)<br>[2021/05:GCF_000001405.39.gz](https://ftp.ncbi.nlm.nih.gov/snp/latest_release/VCF/GCF_000001405.39.gz)(24G) | 短遺傳變異資料庫<br>[[hackMD]](https://hackmd.io/kN7MzZZjTsKlOXLYy3gV5Q)
| [clinvar](https://www.ncbi.nlm.nih.gov/clinvar/) | [FTP](https://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh38/) | [2023/01:clinvar.vcf.gz](https://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh38/clinvar.vcf.gz)(60M) | 臨床相關變異資料庫<br>[[hackMD]](https://hackmd.io/zaZVe2tUTQaVvbLsHGqY8g) |
| [1000genomes](https://www.internationalgenome.org/1000-genomes-browsers/index.html) | [FTP](https://ftp.1000genomes.ebi.ac.uk/vol1/ftp/data_collections/1000_genomes_project/release/20181203_biallelic_SNV/) | [2018/12:ALL.wgs.xxx.vcf.gz](https://ftp.1000genomes.ebi.ac.uk/vol1/ftp/data_collections/1000_genomes_project/release/20181203_biallelic_SNV/ALL.wgs.shapeit2_integrated_v1a.GRCh38.20181129.sites.vcf.gz)(846MB) | 族群頻率資料庫<br>[[hackMD]](https://hackmd.io/Ml1dFFT6Tv6oAjQDP0lRgw) |
| [gnomAD](https://gnomad.broadinstitute.org/) | [link](https://gnomad.broadinstitute.org/downloads/)<br>- [Google](https://console.cloud.google.com/storage/browser/gcp-public-data--gnomad/release/3.1.2/vcf/genomes)<br>- Azure<br>- AWS | [exomes.r2.1.1](https://console.cloud.google.com/storage/browser/_details/gcp-public-data--gnomad/release/2.1.1/liftover_grch38/vcf/exomes/gnomad.exomes.r2.1.1.sites.liftover_grch38.vcf.bgz)(85.3GB) | 基因體彙總資料庫<br>[[hackMD]](https://hackmd.io/zaZVe2tUTQaVvbLsHGqY8g) |
| Pubmed | | | 紀錄文獻 |
<br>
<hr>
<br>
## 註釋方式
### 前製作業
- 對 WES 或 WGS 資料,跑 germline pipeline,產生 output.vcf
- 下載遺傳變異相關資料庫
<br>
### 1. 透過 vcfanno (CPU-based)
> [[HackMD]](https://hackmd.io/zqmvrmJJT5qjckWYAg1p3w)
- 準備 `conf.toml` (範例)
```toml
[[annotation]]
file="/workspace/datasets/variants/ncbi/clinvar/clinvar.vcf.gz"
# ID and FILTER are special fields that pull the ID and FILTER columns from the VCF
fields=["CLNHGVS", "GENEINFO", "MC"]
ops=["self", "self", "self"]
names=["clinvar_CLNHGVS", "clinvar_GENEINFO", "clinvar_MC"]
[[annotation]]
file="/workspace/datasets/variants/1000genomes/ALL.wgs.shapeit2_integrated_v1a.GRCh38.20181129.sites.vcf.gz"
# ID and FILTER are special fields that pull the ID and FILTER columns from the VCF
fields=["EAS_AF"]
ops=["self"]
```
- 進行註釋
```
$ vcfanno conf.toml output.vcf > annotated.vcf
```
- 備註
- 需要自行指定欄位
不確定是否有 select-all 用法,需要更深入研究
<br>
### 2. 透過 pbrun vcfanno (GPU-based)
> [[HackMD]](https://hackmd.io/qzrJHT_4TJmzvfCk-NdA2g)
- 進行註釋
```
$ pbrun vcfanno \
--in-vcf input.vcf \
--out-vcf output.vcf \
--annotations mydb:database.vcf.gz \
--dbsnp dbsnp:dbsnp.vcf.gz
```
- 備註
- 僅限 v3.8(含) 以前的版本,在 v4.0 不支援
- 目前無 trial-license (不再發布免費授權)
<br>
<hr>
<br>
## target fields
### dbsnp
> [[HackMD]](https://hackmd.io/kN7MzZZjTsKlOXLYy3gV5Q#註釋欄位)
<br>
### clinvar
> [[HackMD]](https://hackmd.io/zaZVe2tUTQaVvbLsHGqY8g#註釋欄位)
<br>
### 1000g
> [[HackMD]](https://hackmd.io/Ml1dFFT6Tv6oAjQDP0lRgw)
<br>
### gnomad
> [[HackMD]](https://hackmd.io/NVFE7GxVScSGLOIYAVvkxw)
### 欄位規範
> 詳細說明:https://hackmd.io/6rATKTvURVSKia8K_9kBeQ#Header-Spec
- 欄位值的個數:

- 欄位類型:
`[Integer|Float|Flag|Character|String]`
<br>
<br>
<hr>
<br>
## 如何決策變異
1. 使用各種資料庫進行註釋
- annotated VCF 內容要有哪些欄位? 分別來自哪些 DB?
- 挑選出最終報表要呈現的欄位
2. 所發現的變異,都需要進行致病性評估
- [[台基盟生技] Congenica基因解讀案例分享, p3](https://cghdpt.cgmh.org.tw/files/news/40d24ba6-ee49-4109-8aa0-c3c8d105d7ca.pdf)
3. 變異挑選
> - [[台基盟生技] Congenica基因解讀案例分享, p5](https://cghdpt.cgmh.org.tw/files/news/40d24ba6-ee49-4109-8aa0-c3c8d105d7ca.pdf)
- clinvar
- CLNSIG 欄位:
- Likely pathogenic(可能是致病性)
- pathogenic(致病性)
- phenotype (表現型)
- else
1. 選擇條件
- MAF < 0.05 or missing:
TWBK_AF、1K_EAS_AF、GnomAD_EAS
- EAS: ++E++ast ++As++ian population, 東亞族群
- [Exome Aggregation Consortium (ExAC): 鑑定致病基因的重要資料庫](http://www.tpms.org.tw/KSharing_detail.php?ID=17)
> 然而,當我們有夠大的人類基因資料庫的時候,如果這些基因突變的發生率也很高,也可以減少它的致病嫌疑
> i.e. 族群中發生率高 -> 致病性低 (否則族群就會滅亡)
2. 捨棄條件
- CLNSIG 欄位:
- Benign(良性)
- likely benign(可能是良性)
3. 選擇條件
- 基因型(就是捨棄GT=0/0)
- GT=0/1
- GT=1/1
4. 有致病性時,需同時評估多項證據
- 表現型、資料庫、ACMG 指南、計算預測因子、文獻...
- 基因與疾病的臨床經驗
<br>
<br>
<hr>
<br>
## 不錯的界面呈現
- ### [[瑞林生物科技股份有限公司] 3. 欄位介紹 I](https://hackmd.io/@jackC/SJfdTlXp_)
- ### 基因位點的敘述
[](https://i.imgur.com/H4pwA9J.png)
- ### 變異品質控制及文獻證據
[](https://i.imgur.com/9gijbN3.png)
- ### 族群頻率
[](https://i.imgur.com/zwf4ZSV.png)