# Human genome study series: gnomAD database ![](https://i.imgur.com/145Bux6.png) (Image from [gnomAD](https://gnomad.broadinstitute.org/) website) ## gnomAD history Genome Aggregation Database (gnomAD)的前身為2014年發起的Exome Aggregation Consortium (ExAC)研究計畫,主要收集外顯子定序資料(WES)進行大規模樣本分析;而gnomAD的資料型態不僅涵蓋外顯子資料(WES)、也收集全基因定序(WGS)進行分析。 ## gnomAD release version and sample collection 目前gnomAD釋出的兩種版本資料庫: **Most of the genomes from v2 are included in v3.1.** | version | reference | (type)sample size | |:-------------- |:--------- |:---------------------------- | | gnomAD v2.1 | GRCh37 | (WES) 125,748 ; (WGS) 15,708 | | gnomAD-SV v2.1 | GRCh37 | (WGS) 10,847 | | gnomAD v3.1 | GRCh38 | (WGS) 76,156 | 資料庫的樣本由不同cohort study、以及大規模基因體計畫組成,像官網提到gnomAD有部分樣本來自1000 Genome Project: > The majority of samples from the 1000 Genomes Project for which exome sequencing is available were included in v2. Whole genome sequencing from 3,202 subjects from the 1000 Genomes Project was included in gnomAD v3.1, though some were filtered out by our QC pipeline. 且樣本包含以下特性: * 近親樣本可同時被收錄:像是在後面討論的gnomAD-SV文章中,就有使用970個**family trio**(父母加一位小孩的族譜) [1] 來驗證do novo mutation的比例。但在大部分研究,為減少某allele因親緣關係干擾表現頻率,分析前會先做樣本品質校正(sample QC)來排除二等親內的樣本共同被納入分析。 * 統計樣本的族群來源:先前大規模基因定序計畫常有族群偏頗(population bias)的情況,甚至參考序列的建立也僅缺乏多元 [2] gnomAD致力於擴充非歐裔族群的樣本。 * 樣本的健康狀況:資料庫的價值之一是作為不同研究的control,而control的特性就是相對於case(有特殊疾病或性狀者)必須是沒有罹病或表現性狀的群體,gnomAD進行樣本收集時,會先將罹患罕病(variant AF < 1% )或單基因造成的嚴重遺傳疾病者排除;但樣本收集當下的狀態,不代表未來的健康狀態,因此部分樣本可能帶有晚發性疾病(age onset disease, mostly relate to me)或常見疾病(common disease, associated with multi-variant loci)的變異 [1] **因此gnomAD較適合作為罕病的control,但不適合作為常見疾病的control使用**。 目前兩版本的樣本統計如下表,樣本會依據以下條件分類: * 族群來源 * 族群可分成super population和sub-population(只有v2版有)兩種 * 族群定義的方式是使用 [hwe_normalized_pca function in Hail](https://) principal component analysis (PCA) on the Hardy-Weinberg-normalized genotype call * we computed the 10 first principal components (PCs) on well-behaved bi-allelic autosomal QC SNVs on all unrelated samples. * 性別(XX, XY) * 資料型態(WES, WGS) * 特性篩選 * non-cancer:排除罹患癌症或從相關cohort study收集來的樣本群 * non-neuro:排除罹患精神性疾病、或從相關cohort study收集來的樣本群 * no-TOPMed:沒有出現在TOPMed/BRAVO資料庫的樣本群,好處是計算出的allele count可直接和TOPMed合併而不用做樣本對照 * control(v2.1):排除掉曾經出現在常見疾病研究中、被歸類為case的樣本 * controls/biobanks(v3.1):在不同研究中屬於control sample、或是收錄在biobank、大規模基因體計畫(1000 Genome, HGDP, PAGE)等的樣本 * non-v2(v3.1):排除曾收錄在v2.1版的樣本 ![](https://i.imgur.com/osgTbgk.png) ![](https://i.imgur.com/7wmLMNY.png) ## general gnomAD sequencing & quality control (QC) process gnomAD的主要利用雲端平台[Terra](https://support.terra.bio/hc/en-us/sections/360007274612)進行分析,前部分的處理依照[GATK best practice](https://gatk.broadinstitute.org/hc/en-us/sections/360007226651-Best-Practices-Workflows) 處理;分析的最小單位是per sample,還包含將幾百個樣本合併為一批次per batch進行分析。 在分析步驟之間,最重要的是針對樣本本身及偵測到的變異進行品質校正,由於資料量龐大,為確保最終釋出的變異集有高特異性(specificity,即記載的都為真)嚴謹的校正勢必要的步驟,首先針對變異的校正有(variant QC): ### gnomAD v2.1 variant QC: 進行variant QC的變異是從141,456個通過sample QC的樣本所偵測到的,WES和WGS的校正會使用相同pipeline分別進行,校正最重要的部分是使用隨機森林(Random Forest model) [3] 選擇allele-specific annotations作為特徵值(feature)進行模型訓練,此外也會特別排除以下條件的變異: * InbreedingCoeff: Excess heterozygotes defined by an inbreeding coefficient < -0.3 觀測變異的異型合子比例是否正常,若同型合子(homozygote)比例過高,則可能是近親種族多造成的,需要等樣本增加或排除更多sample後再被列入資料庫。 * AC0: No sample had a high quality genotype (depth >= 10, genotype quality >= 20 and minor allele balance > 0.2 for heterozygous genotypes) 變異位點的品質本身較差,因此大部分樣本在此位置的品質都不好,須用更嚴謹的分析技術後,才能得到品質較高較可信的變異回報。 * random forest selected feature: ![](https://i.imgur.com/o54ZlYb.png) * 進行模型訓練的資料集來自過往的大規模計畫如1000 Genome Project,或是其他資料庫如Omni, Mills等,再來應用至gnomAD資料庫。 ## gnomAD-SV(2.1 version) ### sample size and population Total 14,891 (14,237 are high QC). This cohort included 46.1% European, 34.9% African or African American, **9.2% East Asian**, and 8.7% Latino samples, as well as 1.2% samples from admixed or other populations ### SV discovery and genotyping gnomAD-SV從14,891個WGS樣本中找到433,371 SVs,其中335,470 SVs是高品質的變異位點;如下圖所示,相比於過去針對SVs定序分析的計畫,其所使用的樣本數、樣本族群豐富度及偵測的變異總數都有所突破。 首先是研究的族群來源 ![](https://hackmd.io/_uploads/HkNoiX84h.png) 可以看到仍以歐洲、非裔每週或非洲族群佔大宗,亞洲樣本數約一千多人 ![](https://i.imgur.com/cL03CtS.png) 偵測與過濾變異的流程圖如下,左上角簡介分析的所有大流程,共有8大步驟,右下角顯示每個工具分析所使用的樣本大小,包含每個人都會跑的Picard QC, variant caller外,也有整合300-400人左右的批次樣本(batch),進行joint-calling的步驟,最後將所有batch利用clustering聚集後,將會形成龐大的cohort-wide sample set;接著簡介以下流程: * preprocessing:針對樣本的品質校正,利用Picard可以計算平均深度、高品質的數量等,而ploidy estimation利用序列計算基因倍體是否正常(diploid, triploid...)完成刪減樣本和組成批次樣本後,便會進行variant calling,使用的工具包含偵測SV的manta, DELLY、偵測跳躍分子(mobile element)的MELT和偵測大片段CNV的cnMOPS。 * clustering:將每個sample vcf將不同的algorithm偵測到的變異分開,並各自使用svtk vcfcluster(https://github.com/talkowski-lab/svtk)進行合併 * evidence collection: 針對不同algorithm所進行的驗證也不一樣 * PETest & SRTest: 若使用split-read或pair-end偵測,將會測試number of discordant來確認變異的存在 * RDTest: 會計算帶有變異和沒帶有變異之兩樣本、在某區域所具有的平均深度,已確認變異真實存在(顯著性差異以two-sample t test /one sample Z-test計算) * BAFTest: 主要是計算變異的來源,一般人有兩條序列,通常將其中一條命名為A、另一條為B,BAF即是計算序列來自兩allele的比例,以確保序列是heterozygous (A/B =0 )或是有一條特別多(CNV)。 * variant filtering: 利用random forest test(在前面variant QC提到過)來篩選出變異品質不好的outlier * genotyping * batch integration: 前幾個步驟是以幾百個人的批次為單位進行,為了聚集成cohort 大小,會再將批次的結果合併,主要也是使用svtk工具進行合併和過濾品質。 * VCF refinement * annotation:從其他database或預測變異會對下游蛋白造成的影響,雖沒有像SNV系統完善的ACMG guideline,目前有針對CNV提出的分類指南。 ![](https://i.imgur.com/nMhGgn7.png) 為了確認此分析流程的可信度,gnomAD使用一些方法來benchmark,主要分為兩大類: * technology quality: allele frequency of heterozygous rate, hardyy-weingerg equilibrium, LD with neighbor SNV events and AF concordance with 1KGP AF * consistency in long-read data: using PacBio long read data to sequence same sample (NA12878, CHM1/13 cell line ) and calculate the SV confirmation rate ### population genetics and genome biology 經由完整的單一樣本定序、批次整合、過濾SV位點和修正gneotype一致性的處理後,定義出這些人身上的SV總數,接著進行了以族群為單位SV總數差異、median SV size、SV AF、SV distribution in genome 和以演化角度的分析(mutation rate prediction) ### dosage sensivity on coding and non-coding loci SV變化對於蛋白質表現也會有影響,作者將這些SV依據對蛋白質的功能改變類型分成:Loss of function / copy gain / exon dupliation 以及inversion這四大類 為了預測SV發生對於序列的影響是否存在演化上的意義,因此使用和gnomAD SNV database中pLOF定義相似的LOEUF來註解SV ### remark * 使用的樣本數多,和CCDG以及HGSVC(做1KGP的分析)等團隊相比、樣本數最多 * 使用的pipeline雖然沒有使用GIAB SV truth set進行表現衡量(2020同年發表)但在有家族關係的資料應用和分析上、可以確保不違背遺傳的genotype annotation,並預測這些SV的新發生率等 * 雖說樣本數增加可以找到更多SV,但偵測效率也可能取決於以下幾個因素:sequencing data type, coverage, SV detection pipeline, 以及適合的QC control等 * 像是1KGP收錄的樣本其深度最低有< 10x,而本篇樣本WGS的平均深度32x還算深 * 另外一個點在於gnomAD收錄的樣本多為health cohort,因此較適合用來評估common population SV allele frequency,對於rare disease-causing SV的應用方式,可能就是幫助他們過濾掉不太可能致病的位點,或是針對某個AR疾病計算其carrier rate ## annotation [1] gnomAD收錄的家族trio中,有近100個是台灣收集之罹患失覺失調症(Schizophrenia)的家族 [2] 當初建立參考序列時,也僅參考非裔美洲及美州人的樣本。因此在GRCh38版本更新,除了修正main contig的序列錯誤外,也會透過增加alternative contig的方式來擴充族群適用性 [3] random forest 是一種非監督式的機器學習法,最主要用來分群和排除極值(outlier) ## reference > https://gnomad.broadinstitute.org > https://www.nature.com/articles/s41586-020-2287-8 > https://macarthurlab.org/2019/03/20/structural-variants-in-gnomad/