# NGS data analysis & file format 定序資料分析與檔案類型(1) ###### tags: `NGS課程筆記` ## 如何分析定序資料 上機定序的檔案下機後,便會利用多種工具來分析處理,工具的發行來源不僅有商業套件(如illumina系列的分析處理)、也具有開源係性質的(如GATK等)可供使用,這些工具的使用平台包含雲端資源(把檔案上傳後可任意使用平台工具,目前收費標準多依照運算時間及儲存空間來計費),或是存放在另一台主機、透過遠端連線進行運算(碩士專題主要透過建立國網中心的主機帳號,並透過計畫綁定使用運算與儲存資源),此外檔案傳輸也是一大學問,畢竟一個WGS 30x的fasta檔,在後續分析所產生的檔案林林總總加起來也可能有100G這麼大(直接吃掉我的Mac 256G的一半,汗) 那其他檔案又包含什麼呢?產生的目的和內容又是什麼?以下依照檔案類型來做介紹。 ## Fasta > FASTA可以是由核苷酸(Nucleotide)、胜肽(Peptides)或胺基酸(Amino Acid)所組成的序列,通常第一行皆由">"做為開頭,用來區分每條序列的啟始位置,後面則接上代表這序列的訊息,通常會標示基因或蛋白質的名稱,也會註明是什麼物種或是否為全長,每行約只有80個字元,超過便向下延伸 > https://welgene.pixnet.net/blog/post/25949365 ## Fastq NGS下機後最一開始的檔案為fastq檔,是儲存每條read序列資訊(許多的ATCG組成)的檔案。一般NGS上機並不會一次處理一個樣本,常以**一批次**為單位,因此定序時通常會有一份送檢實驗室提供的samplesheet、相對的其產生之fastq在命名上具有規則性: ``` SampleName_S1_L001_R1_001.fastq.gz ``` * sample name: 樣本名稱、和samplesheet記載一致 * S1=sample number: 指同一批次下檢體的排序,數字需和samplesheet記載一致 * L001=Lane number: 定序時樣本放的位置 * R1=The read: pair-end具有R1、R2兩份定序檔 * 001—The last segment is always 001 了解命名規則後,接者檢視fastq檔的記載格式,每個read有四行:  圖片來源:台大次世代定序、生物資訊學與基因體醫學課程講義 * Sequence identifier: 紀錄了這條read是在哪台定序儀器、甚至是哪個位置產出的資訊 * Sequence: real sequence * Quality score identifier line (consisting only of a +) * Quality score: 通常採用[Phred quality score(Q)](https://gatk.broadinstitute.org/hc/en-us/articles/360035531872-Phred-scaled-quality-scores)進行換算,並用[ASCII](https://zh.wikipedia.org/wiki/ASCII)轉換編碼後紀錄 ## FastQC 這是一個確認定序品質的步驟,可將fastq檔內的品質資訊,以視覺化的方式統計呈現,[FastQC](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/)為開源軟體,下載並放入fastq檔即可生成一份html結果檔,不僅可呈現read內每個位置的品質分佈(box-plot)及平均品質,更統計了每個品質的檢基數量、GC content等。做FastQC不僅可幫助控管定序品質,以減少對後續分析的影響,也可以針對品質不好的區域先行修剪(trim)後在做分析。 哪些分析做修剪序列會比較好?如果序列僅用來做計數相關的分析(CHIP-seq, DGE RNA-seq, ATAC-seq等)則不需要做修剪,而需要考慮深度得分析(variant calling, annotation, transcriptome assembly)則需要,因為修剪會影響定序深度,並影響到變異訊號是否存在的問題。 ## Alignment and BAM/SAM format 因為NGS是將整條序列打成片段以快速定序,產生之fastq檔也是一堆碎碎的序列組成,下一步驟便是拼湊出短序列的排列順序與位置,通常會使用參考序列(reference genome)當作模板,並依照序列和模板上某區域的相似度來進行比對(alignment)。比對演算法有不同種,目前最常使用的包含bwa-men等,而儲存序列位置資訊的檔案有許多種,包含SAM, BAM 以及CRAM檔。 * Sequencing Alignment Map [(SAM)](https://samtools.github.io/hts-specs/SAMv1.pdf) * 為三者中檔案最大的類型,詳細記錄每個序列的狀況 * 是可以閱讀的txt format,每個序列至少有11種資訊紀錄 * 包含flag資訊,透過一連串有無的問題來呈現序列資訊,並以二進位法記錄 * 若想知道flag含義可在[此網站](https://broadinstitute.github.io/picard/explain-flags.html)輸入數字來解讀 * 另一部分是CIGAR資訊,專門記載和參考序列比對的結果 * Binary Alignment Map (BAM) * 三者大小適中的檔案,主要紀錄能比對回參考序列的序列資訊 * binary format 可透過IGV瀏覽 * 通常會使用bam檔接續其他分析流程 * Reference Alignment Map (CRAM) * 為三者中檔案最小的類型, * 經壓縮過、佔空間小方便保存檔案,可透過cram to bam轉換並拿來使用 * 利用每個序列的相對位置來紀錄  圖片來源:台大次世代定序、生物資訊學與基因體醫學課程講義 ## Markduplicate 完成序列比對後,相對位置已鑑定完畢,但其內部品質參差不齊,因此正式進入變異偵測前,可使用以下兩種方法進行品質校正(參考GATK best practice的處理方式)。 第一個是mark duplicate: 上機定序前,序列會透過PCR放大以增強偵測訊號,但可能導致序列具有PCR bias,也就是真實樣本內某序列數量沒有這麼多,但透過PCR存在感被放大。mark duplicate以序列上機時、曾被加上的隨機序列作為依據,判斷同一條序列的數量是否正常,若是PCR放大的序列則會被標記並移除,以控制並序品質。 ## Base Quality Score Recalibration (BQSR) 第二個品質校正的方法為BQSR,是從序列品質下手的校正方式。定序過程可能存在某條序列被訂到多次(not PCR bias),而某些序列較少被定序到的先天深度差異,又或是定序過程中、某部分很難被定序的系統性錯誤,偏偏變異偵測很倚賴深度作為變異存在的依據;因此BQSR透過機器學習的方式,以已知變異資料庫(如dbSNP)作為標準,對樣本所有序列的品質進行校正,讓大家的品質接近完美的情況。 ## reference >NUT NGS class, Pr.Jacob Hsu >fastq >https://support.illumina.com/help/BaseSpace_OLH_009008/Content/Source/Informatics/BS/FileFormat_FASTQ-files_swBS.htm >https://gatk.broadinstitute.org/hc/en-us/articles/360035531872-Phred-scaled-quality-scores > >alignment >https://gatk.broadinstitute.org/hc/en-us/articles/360035890791-SAM-or-BAM-or-CRAM-Mapped-sequence-data-formats > >mark duplicate >https://gatk.broadinstitute.org/hc/en-us/articles/360037052812-MarkDuplicates-Picard- >https://www.biostars.org/p/18784/ > >BQSR >https://cloud.tencent.com/developer/article/1626269 >
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up