![image](https://hackmd.io/_uploads/B1PPL9dMR.png) (Image from [gnomAD](https://gnomad.broadinstitute.org/) website) 上一篇文章著重討論 The Genome Aggregation Database (gnomAD) v3 版內容介紹,本文將介紹去年11月更新之**gnomAD v4** (以及部分今年4月更新之 **v4.1**)。 ## 樣本收集 下表整理不同版本間使用的樣本數與參考序列,最大的更新為: **v4 增收 416,555 UK Biobank WES data** | version | reference | (type)sample size | |:--------------- |:--------- |:---------------------------- | | gnomAD v2.1 | GRCh37 | (WES) 125,748 ; (WGS) 15,708 | | gnomAD-SV v2.1 | GRCh37 | (WGS) 10,847 | | gnomAD v3.1 | GRCh38 | (WGS) 76,156 | | gnomAD v4.0 | GRCh38 | (WES) 730,947 ; (WGS) 76,215 | | gnomAD-SV v4.0 | GRCh38 | (WGS) 63,046 | | gnomAD-CNV v4.0 | GRCh38 | (WES) 464,297 | 從官網的統計圖表可清楚了解族群數量分布,由於UK Biobank 樣本以 European 為大宗,合併至 v4 使 European Ancestry比例偏高接近80% 另外值得注意的是 EAS 樣本數有大進展,從前幾版的不到萬人增至2萬初,能協助修正 allele frequency 的預估結果 ![image](https://hackmd.io/_uploads/BJKuSodfR.png) ## v4 與 v3 差異 ### 取消 subset 釋出 過去v3樣本來自多種cohort,為提供研究者作為疾病研究的control,gnomAD v3 有釋出多種subsets,如: non-cancer subset 為排除罹患癌症或從相關 cohort study收集來的樣本群(更多介紹可參考前篇文章)。 **在v4版本僅有釋出non-UKBB subset**,且僅提供allele frequency資訊給研究者做累加使用。下面文字截自gnomAD v4 SNV chrY VCF檔的INFO field,可以看到**每個population都有拆分另外一組non-UKB的(prefix: non_ukb) 數據:** ``` AC_afr_XY=0;AN_afr_XY=0;nhomalt_afr_XY=0;AC_afr=0;AN_afr=0;nhomalt_afr=0;... AC_eas_XY=0;AN_eas_XY=0;nhomalt_eas_XY=0;... AC_non_ukb_afr_XY=0;AN_non_ukb_afr_XY=0;nhomalt_non_ukb_afr_XY=0;AC_non_ukb_afr=0;AN_non_ukb_afr=0;nhomalt_non_ukb_afr=0;... AC_non_ukb_eas_XY=0;AN_non_ukb_eas_XY=0;nhomalt_non_ukb_eas_XY=0;AC_non_ukb_eas=0;AN_non_ukb_eas=0;nhomalt_non_ukb_eas=0;... ``` 此外若有使用註解 gnomAD 資料庫的工具如 dbnsfp,則可以明顯看到在資料庫版本更新後,就不會有 `gnomAD_exomes_non_cancer` 類似欄位產生,只會剩下 `gnomAD_exomes_non_ukb` 等欄位 而v4取消製作subset原因包含: - 研究特定疾病如cancer、neuro-disease等,這些疾病的盛行率並不會過高到需要透過(乾淨的?) subsets 來做比對與分析,建議直接使用 gnomAD metadata 來協助研究 - 新加入的 UK Biobank 或是部分 cohort samples 並沒有完整 phenotype 資料,無法明確的區分樣本的疾病狀態 ### filtering allele frequency (FAF) 將 WES 和 WGS 的 allele count 合併計算之 allele frequency,稱作 filtering allele frequency ## v4 exome 分析流程 (WGS 流程可參照 gnomAD v3版作法) 由於 v4 最大進展在於 exome callset 樣本數的提升,因此後續分析流程也有些更新: - joint callset 由原本的 gVCF 格式轉為 VariantDataset (VDS) 格式儲存 - 增加 **interval QC** 以確保目標區段擁有足夠的**深度**判別變異: 官網提供一組 [interval list](https://gnomad.broadinstitute.org/help/what-are-your-calling-intervals-what-intervals-are-used-for-the-genomes-coding-only-files),左右延伸(padding) 50bp 後計算每個樣本在這些區段的平均深度。最後將 >85% 樣本擁有 >20X 深度的區段定義為 high coverage intervals - 為 sample QC 定義 **high qulaity site**:為判斷樣本族群來源、親緣關係或定序品質,gnomAD v4從幾個資料集挑選 high quality sites (n = 175,043) 協助樣本QC: - 屬於 autosomal, biallelic, single nucleotide variants (SNVs) - 位於 gnomAD v3, CCDG, 以及 UK Biobank dataset 的位點紀錄 - sample QC: 使用上面這些high quality site進行以下幾個重點QC - hard filters: 使用新工具從 genotype data 預估 contamination 而非重新拿raw read 分析。其他也用DP, Het/Hom ratio 等數值去篩 - PCA clustering for exome capture platform: 由於樣本來源多樣,使用PCA區分出20種定序平台,label上潛在差異 - sex karyotypes - relatedness between v4 exomes and genomes, and identified pairs of first and second degree relatives - genetic ancestry groups - QC metrics - variant QC by VQSR (和 v3 一樣拿大型計劃的位點做模型訓練並應用類似的篩選條件) --- ## v4 SV 和前版 v2.1相比,除了**樣本數**從一萬初**增加至超過六萬**、偵測位點數增加,參考序列也從 hg19/GRCh37 改成擁有 alternative contigs 的 **GRCh38做為參考序列**。 偵測流程使用相同的 GATK-SV pipeline,並增進變異註解(annotation)的結果。gnomAD-SV v4 從63,046個WGS樣本中找到超過一百萬個 high-quality SVs,SV特徵的趨勢與前版本相同,多為短片段(median size 360bp)的罕見位點(96% SVs AF < 1%)。 gnomAD-SV v4 的結果已公開至網站,可先行查詢利用;至於技術細節等內容,等研究論文發表後再來更新,根據之前使用v2.1版資料的經驗,可以再拿新的East Asian AF 來做 correlation plot,不過中間需要針對變異座標進行liftover轉換,等有空再來嘗試看看。 ## v4 CNV **gnomAD v4第一次釋出 CNV callset**。也代表未來關於致病位點的研究,可往大片段缺失的偵測目標前進,並擁有 general population 資訊可參考。目前收錄從 464,297 WES data 找到之 rare ( AF <1% ) autosomal coding copy number variants (CNVs),使用 GATK-gCNV (Babadi et al. Nat Genet, 2023) 流程偵測變異。 簡單順一下分析流程,主要利用比對至參考序列的BAM/CRAM作為input,並計算每個 protein-coding region (target interval) 的 read count (CNV 主要以深度差異來判斷) 接著使用這些數值做 clustering ,將特徵接近的樣本歸類至同一批次(batch)做後續分析。 CNV流程需要baseline來比較深度差異,通常來自 panel of normal (PoN,在somatic偵測代表tumor相對應的正常樣本) 的結果,而gnomAD 無針對特殊疾病,所以採隨機挑選200樣本作為Pon,之後經由QC篩選,normalization等等,最終以read depth, read count 等特徵判定基因體內的CNV events。 CNV偵測流程的可信度,透過一組同時具有WES(default input), WGS (IGV validation) 和 microarray 的樣本來驗證,透過和不同開源工具比較,詳細工具的演算法與使用差異,有機會再細看比較。 ### CNV 註釋 在變異註釋方面,現今工具主要在短片段如SNV/indel方面詮釋較佳,如ensembl VEP, AnnotSv等,而CNV宜由於變異跨度大,對於現行臨床ACMG準則來說難以完整判定,且多以基因為單位個別做註釋,整體影響預測尚未完全,而gnomAD作為可能的reference dataset,也針對變異作了以下註釋: - 基本的GENCODE 註釋,並以overlap的比例判斷是否給註釋 - 長度與exon, interval範圍跨度 - 集合與分族群統計的AF: site count (SC), site number (SN), and site frequency (SF) ### CNV subsets 和 gnomADv4 不同,由於大片段的罕見CNV位點與精神疾病有關連性,**gnomAD CNV 有釋出兩組subsets**: > Due to the known enrichment of large, rare CNVs that confer substantial relative risk in neuropsychiatric phenotype > neuropsychiatric conditions: bipolar, epilepsy, schizophrenia, psychosis, and general psychiatric conditions - non-neuro (n = 418,924): 非精神疾病相關cohort樣本(neuropsychiatric conditions),以及 biobank 樣本 - non-neuro-control(n = 269,919): 不同cohort內標示為control的樣本,或是biobank樣本 ## References https://gnomad.broadinstitute.org/news/2023-11-gnomad-v4-0/ https://gnomad.broadinstitute.org/news/2023-11-v4-structural-variants/ https://gnomad.broadinstitute.org/news/2023-11-v4-copy-number-variants/ https://gnomad.broadinstitute.org/news/2019-10-gnomad-v3-0/