# NGS data analysis & file format 定序資料分析與檔案類型(2) ###### tags: `NGS課程筆記` ## Variant Calling and VCF format 變異偵測(variant calling)不僅是做定序分析的重要目的之一,也是影響臨床決策如:偵測致病位點、精準畫醫療的分析方法,依據變異種類、定序資料類型以及,來選擇適合的變異偵測工具,如最常使用的GATK best practice就是用來偵測DNA-sequence中SNV/INDEL的方法,另外像長片段的結構性變異,可以使用如manta, lumpy等工具,在癌症變異偵測上,可使用GATK開發的Mutect2,利用正常組織樣本及腫瘤樣本,來找出體細胞的變異;由於工具選擇豐富,不少review paper以協助整理個工具特性,評估要點包含: > Zhao, S., Agafonov, O., Azab, A. et al. Accuracy and efficiency of germline variant calling pipelines for human genome data. Sci Rep 10, 20222 (2020). https://doi.org/10.1038/s41598-020-77218-4 > > Mahmoud, M., Gobet, N., Cruz-Dávalos, D.I. et al. Structural variant calling: the long and the short of it. Genome Biol 20, 246 (2019). https://doi.org/10.1186/s13059-019-1828-7 * 執行時間(run time)、硬體性質(CPU, RAM)、環境要求(docker, terminal) * 偵測變異種類(SNV/INDEL, SV, CNV) * 樣本類型(germline or somatic)(DNA, RNA or cDNA) * 偵測準確率(accuracy): 透過[GIAB](https://www.nist.gov/programs-projects/genome-bottle)釋出的truth set來做benchmark & validation 紀錄變異位置及內容的檔案為variant calling format (VCF),他的格式固定,包含: * information description(contain ##) * CHROM / POS * REF/ALT * QUALITY / FILTER * INFO * FORMAT / genotype 若想針對VCF進行變異篩選,可透過以下幾種工具:[bcftools](https://samtools.github.io/bcftools/bcftools.html)或[vcftools](http://vcftools.sourceforge.net)來進行;若想根據位置名單篩選,也可使用[bedtools](https://bedtools.readthedocs.io/en/latest/)來分析 ## Quality Control for VCF: * Variant Quality Score Recalibration (VQSR) 不僅定序深度品質可以校正,變異的品質也可以根據常見的變異進行校正和篩選,這個步驟稱為VQSR,同樣以機器學習的方法,拿具有公信力的變異記載資料庫如:Hapmap、1000 Genome Project、HapMap或dbSNP等當作標準 > 挑出和已知的變異集合Overlap的位點(通常是HapMap資料集)——並分配相應的可信度權重來進行訓練,來區分變異的好壞 * sample quality control 偵測變異的存在不僅受到深度影響,在一群cohort sample中變異出現的頻率也相當重要,甚至影響資料解讀,因此針對樣本的差異性,也有品質校正的方法:性別是否平均、樣本是否具有親緣關係、或是樣本族群來源等,族群一般可透過PCA進行降維分群。 ## Annotation 找到變異後,該如何衡量變異對下游及生理表現的影響?或是針對某種遺傳疾病,挑選出符合模式假設的變異呢?以上的操作都屬於annotation(註解)的範疇,可以分成兩類: * genotype annotation:主要利用vcf檔記載的資訊進行變異篩選與註解,像是針對變異genotype的**FORMAT annotation**和變異深度、頻率、正負股來源的**INFO annotation** * variant annotation:主要是資料庫對照,將過去針對同變異位點做過的研究結果,整合進vcf當中,以成為我們篩選的標準。舉例來說:在臨床上找尋致病位點時,常會將病人樣本找到的變異做annotation,並利用ACMG class或Varsome等評分,當作變異是否為治病位點的依據;一般位點篩選還會搭配深度、資料庫記錄的 population allele frequency(若要找罕病位點、卻發現變異在population freq很高就有矛盾)等層層條件,來過濾並縮小目標範圍;目前兩大annotation工具包含: * Annovar * AnnotSV 基本上NGS分析做到annotation就完成了,若有找到感興趣的變異位點,會透過dry lab等分子實驗進行驗證,或是利用其他軟體模擬、預測變異的影響,最後補充幾個annotation可以參照的資料庫。 * Genome inforamtion (refGene/knownGene/ensGene) * Minor allele frequency (ExAC/gnomad/TWB/others) * Functional annotation (ClinVar/OMIM/others) * Variant effect prediction (SpliceAI/PrimateAI/others) ## Other data format ### BED format 紀錄**位置資訊**的檔案類型,一般會有三行:chromosome/start position/end position,BED format可作為篩選VCF的條件,像是confident region的過濾等。而利用變異位置作為篩選資訊的工具為bedtools,可針對不同樣本在同一區域下的變異交集、聯集或是出現次數進行統計。 ### PED format 在cohort study或是pedigree分析時常用到的檔案類型,PED主要記載的是樣本的家庭資訊,包含family ID / individual ID / paternal ID / maternal ID / sex / phenotype / genotype 幾種資訊 ![](https://i.imgur.com/RsX5M2V.png) ## Reference > vcf format > https://samtools.github.io/hts-specs/VCFv4.2.pdf > > VQSR > https://gatk.broadinstitute.org/hc/en-us/articles/360035531612-Variant-Quality-Score-Recalibration-VQSR- > > PED format > https://www.researchgate.net/figure/Overview-of-various-commonly-used-PLINK-files-SNP-single-nucleotide-polymorphism_fig3_323424714