NGS data analysis & file format 定序資料分析與檔案類型(1)

# NGS data analysis & file format 定序資料分析與檔案類型(1) ###### tags: `NGS課程筆記` ## 如何分析定序資料上機定序的檔案下機後，便會利用多種工具來分析處理，工具的發行來源不僅有商業套件（如illumina系列的分析處理）、也具有開源係性質的（如GATK等）可供使用，這些工具的使用平台包含雲端資源（把檔案上傳後可任意使用平台工具，目前收費標準多依照運算時間及儲存空間來計費），或是存放在另一台主機、透過遠端連線進行運算（碩士專題主要透過建立國網中心的主機帳號，並透過計畫綁定使用運算與儲存資源），此外檔案傳輸也是一大學問，畢竟一個WGS 30x的fasta檔，在後續分析所產生的檔案林林總總加起來也可能有100G這麼大（直接吃掉我的Mac 256G的一半，汗）那其他檔案又包含什麼呢？產生的目的和內容又是什麼？以下依照檔案類型來做介紹。 ## Fasta > FASTA可以是由核苷酸(Nucleotide)、胜肽(Peptides)或胺基酸(Amino Acid)所組成的序列，通常第一行皆由＂>＂做為開頭，用來區分每條序列的啟始位置，後面則接上代表這序列的訊息，通常會標示基因或蛋白質的名稱，也會註明是什麼物種或是否為全長，每行約只有80個字元，超過便向下延伸 > https://welgene.pixnet.net/blog/post/25949365 ## Fastq NGS下機後最一開始的檔案為fastq檔，是儲存每條read序列資訊（許多的ATCG組成）的檔案。一般NGS上機並不會一次處理一個樣本，常以**一批次**為單位，因此定序時通常會有一份送檢實驗室提供的samplesheet、相對的其產生之fastq在命名上具有規則性： ``` SampleName_S1_L001_R1_001.fastq.gz ``` * sample name: 樣本名稱、和samplesheet記載一致 * S1=sample number: 指同一批次下檢體的排序，數字需和samplesheet記載一致 * L001=Lane number: 定序時樣本放的位置 * R1=The read: pair-end具有R1、R2兩份定序檔 * 001—The last segment is always 001 了解命名規則後，接者檢視fastq檔的記載格式，每個read有四行： ![](https://i.imgur.com/lZSVR9R.png) 圖片來源：台大次世代定序、生物資訊學與基因體醫學課程講義 * Sequence identifier: 紀錄了這條read是在哪台定序儀器、甚至是哪個位置產出的資訊 * Sequence: real sequence * Quality score identifier line (consisting only of a +) * Quality score: 通常採用[Phred quality score(Q)](https://gatk.broadinstitute.org/hc/en-us/articles/360035531872-Phred-scaled-quality-scores)進行換算，並用[ASCII](https://zh.wikipedia.org/wiki/ASCII)轉換編碼後紀錄 ## FastQC 這是一個確認定序品質的步驟，可將fastq檔內的品質資訊，以視覺化的方式統計呈現，[FastQC](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/)為開源軟體，下載並放入fastq檔即可生成一份html結果檔，不僅可呈現read內每個位置的品質分佈(box-plot)及平均品質，更統計了每個品質的檢基數量、GC content等。做FastQC不僅可幫助控管定序品質，以減少對後續分析的影響，也可以針對品質不好的區域先行修剪(trim)後在做分析。哪些分析做修剪序列會比較好？如果序列僅用來做計數相關的分析（CHIP-seq, DGE RNA-seq, ATAC-seq等）則不需要做修剪，而需要考慮深度得分析（variant calling, annotation, transcriptome assembly）則需要，因為修剪會影響定序深度，並影響到變異訊號是否存在的問題。 ## Alignment and BAM/SAM format 因為NGS是將整條序列打成片段以快速定序，產生之fastq檔也是一堆碎碎的序列組成，下一步驟便是拼湊出短序列的排列順序與位置，通常會使用參考序列（reference genome）當作模板，並依照序列和模板上某區域的相似度來進行比對（alignment）。比對演算法有不同種，目前最常使用的包含bwa-men等，而儲存序列位置資訊的檔案有許多種，包含SAM, BAM 以及CRAM檔。 * Sequencing Alignment Map [(SAM)](https://samtools.github.io/hts-specs/SAMv1.pdf) 　　*　為三者中檔案最大的類型，詳細記錄每個序列的狀況　　*　是可以閱讀的txt format，每個序列至少有11種資訊紀錄　　*　包含flag資訊，透過一連串有無的問題來呈現序列資訊，並以二進位法記錄　　*　若想知道flag含義可在[此網站](https://broadinstitute.github.io/picard/explain-flags.html)輸入數字來解讀　　*　另一部分是CIGAR資訊，專門記載和參考序列比對的結果 * Binary Alignment Map (BAM) * 三者大小適中的檔案，主要紀錄能比對回參考序列的序列資訊 * binary format 可透過IGV瀏覽 * 通常會使用bam檔接續其他分析流程 * Reference Alignment Map (CRAM) * 為三者中檔案最小的類型， * 經壓縮過、佔空間小方便保存檔案，可透過cram to bam轉換並拿來使用 * 利用每個序列的相對位置來紀錄 ![](https://i.imgur.com/qIEnKyX.png) 圖片來源：台大次世代定序、生物資訊學與基因體醫學課程講義 ## Markduplicate 完成序列比對後，相對位置已鑑定完畢，但其內部品質參差不齊，因此正式進入變異偵測前，可使用以下兩種方法進行品質校正(參考GATK best practice的處理方式)。第一個是mark duplicate: 上機定序前，序列會透過PCR放大以增強偵測訊號，但可能導致序列具有PCR bias，也就是真實樣本內某序列數量沒有這麼多，但透過PCR存在感被放大。mark duplicate以序列上機時、曾被加上的隨機序列作為依據，判斷同一條序列的數量是否正常，若是PCR放大的序列則會被標記並移除，以控制並序品質。 ## Base Quality Score Recalibration (BQSR) 第二個品質校正的方法為BQSR，是從序列品質下手的校正方式。定序過程可能存在某條序列被訂到多次(not PCR bias)，而某些序列較少被定序到的先天深度差異，又或是定序過程中、某部分很難被定序的系統性錯誤，偏偏變異偵測很倚賴深度作為變異存在的依據；因此BQSR透過機器學習的方式，以已知變異資料庫(如dbSNP)作為標準，對樣本所有序列的品質進行校正，讓大家的品質接近完美的情況。 ## reference >NUT NGS class, Pr.Jacob Hsu >fastq >https://support.illumina.com/help/BaseSpace_OLH_009008/Content/Source/Informatics/BS/FileFormat_FASTQ-files_swBS.htm >https://gatk.broadinstitute.org/hc/en-us/articles/360035531872-Phred-scaled-quality-scores > >alignment >https://gatk.broadinstitute.org/hc/en-us/articles/360035890791-SAM-or-BAM-or-CRAM-Mapped-sequence-data-formats > >mark duplicate >https://gatk.broadinstitute.org/hc/en-us/articles/360037052812-MarkDuplicates-Picard- >https://www.biostars.org/p/18784/ > >BQSR >https://cloud.tencent.com/developer/article/1626269 >