# NGS data analysis & file format 定序資料分析與檔案類型(1) ###### tags: `NGS課程筆記` ## 如何分析定序資料 上機定序的檔案下機後,便會利用多種工具來分析處理,工具的發行來源不僅有商業套件(如illumina系列的分析處理)、也具有開源係性質的(如GATK等)可供使用,這些工具的使用平台包含雲端資源(把檔案上傳後可任意使用平台工具,目前收費標準多依照運算時間及儲存空間來計費),或是存放在另一台主機、透過遠端連線進行運算(碩士專題主要透過建立國網中心的主機帳號,並透過計畫綁定使用運算與儲存資源),此外檔案傳輸也是一大學問,畢竟一個WGS 30x的fasta檔,在後續分析所產生的檔案林林總總加起來也可能有100G這麼大(直接吃掉我的Mac 256G的一半,汗) 那其他檔案又包含什麼呢?產生的目的和內容又是什麼?以下依照檔案類型來做介紹。 ## Fasta > FASTA可以是由核苷酸(Nucleotide)、胜肽(Peptides)或胺基酸(Amino Acid)所組成的序列,通常第一行皆由">"做為開頭,用來區分每條序列的啟始位置,後面則接上代表這序列的訊息,通常會標示基因或蛋白質的名稱,也會註明是什麼物種或是否為全長,每行約只有80個字元,超過便向下延伸 > https://welgene.pixnet.net/blog/post/25949365 ## Fastq NGS下機後最一開始的檔案為fastq檔,是儲存每條read序列資訊(許多的ATCG組成)的檔案。一般NGS上機並不會一次處理一個樣本,常以**一批次**為單位,因此定序時通常會有一份送檢實驗室提供的samplesheet、相對的其產生之fastq在命名上具有規則性: ``` SampleName_S1_L001_R1_001.fastq.gz ``` * sample name: 樣本名稱、和samplesheet記載一致 * S1=sample number: 指同一批次下檢體的排序,數字需和samplesheet記載一致 * L001=Lane number: 定序時樣本放的位置 * R1=The read: pair-end具有R1、R2兩份定序檔 * 001—The last segment is always 001 了解命名規則後,接者檢視fastq檔的記載格式,每個read有四行:  圖片來源:台大次世代定序、生物資訊學與基因體醫學課程講義 * Sequence identifier: 紀錄了這條read是在哪台定序儀器、甚至是哪個位置產出的資訊 * Sequence: real sequence * Quality score identifier line (consisting only of a +) * Quality score: 通常採用[Phred quality score(Q)](https://gatk.broadinstitute.org/hc/en-us/articles/360035531872-Phred-scaled-quality-scores)進行換算,並用[ASCII](https://zh.wikipedia.org/wiki/ASCII)轉換編碼後紀錄 ## FastQC 這是一個確認定序品質的步驟,可將fastq檔內的品質資訊,以視覺化的方式統計呈現,[FastQC](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/)為開源軟體,下載並放入fastq檔即可生成一份html結果檔,不僅可呈現read內每個位置的品質分佈(box-plot)及平均品質,更統計了每個品質的檢基數量、GC content等。做FastQC不僅可幫助控管定序品質,以減少對後續分析的影響,也可以針對品質不好的區域先行修剪(trim)後在做分析。 哪些分析做修剪序列會比較好?如果序列僅用來做計數相關的分析(CHIP-seq, DGE RNA-seq, ATAC-seq等)則不需要做修剪,而需要考慮深度得分析(variant calling, annotation, transcriptome assembly)則需要,因為修剪會影響定序深度,並影響到變異訊號是否存在的問題。 ## Alignment and BAM/SAM format 因為NGS是將整條序列打成片段以快速定序,產生之fastq檔也是一堆碎碎的序列組成,下一步驟便是拼湊出短序列的排列順序與位置,通常會使用參考序列(reference genome)當作模板,並依照序列和模板上某區域的相似度來進行比對(alignment)。比對演算法有不同種,目前最常使用的包含bwa-men等,而儲存序列位置資訊的檔案有許多種,包含SAM, BAM 以及CRAM檔。 * Sequencing Alignment Map [(SAM)](https://samtools.github.io/hts-specs/SAMv1.pdf) * 為三者中檔案最大的類型,詳細記錄每個序列的狀況 * 是可以閱讀的txt format,每個序列至少有11種資訊紀錄 * 包含flag資訊,透過一連串有無的問題來呈現序列資訊,並以二進位法記錄 * 若想知道flag含義可在[此網站](https://broadinstitute.github.io/picard/explain-flags.html)輸入數字來解讀 * 另一部分是CIGAR資訊,專門記載和參考序列比對的結果 * Binary Alignment Map (BAM) * 三者大小適中的檔案,主要紀錄能比對回參考序列的序列資訊 * binary format 可透過IGV瀏覽 * 通常會使用bam檔接續其他分析流程 * Reference Alignment Map (CRAM) * 為三者中檔案最小的類型, * 經壓縮過、佔空間小方便保存檔案,可透過cram to bam轉換並拿來使用 * 利用每個序列的相對位置來紀錄  圖片來源:台大次世代定序、生物資訊學與基因體醫學課程講義 ## Markduplicate 完成序列比對後,相對位置已鑑定完畢,但其內部品質參差不齊,因此正式進入變異偵測前,可使用以下兩種方法進行品質校正(參考GATK best practice的處理方式)。 第一個是mark duplicate: 上機定序前,序列會透過PCR放大以增強偵測訊號,但可能導致序列具有PCR bias,也就是真實樣本內某序列數量沒有這麼多,但透過PCR存在感被放大。mark duplicate以序列上機時、曾被加上的隨機序列作為依據,判斷同一條序列的數量是否正常,若是PCR放大的序列則會被標記並移除,以控制並序品質。 ## Base Quality Score Recalibration (BQSR) 第二個品質校正的方法為BQSR,是從序列品質下手的校正方式。定序過程可能存在某條序列被訂到多次(not PCR bias),而某些序列較少被定序到的先天深度差異,又或是定序過程中、某部分很難被定序的系統性錯誤,偏偏變異偵測很倚賴深度作為變異存在的依據;因此BQSR透過機器學習的方式,以已知變異資料庫(如dbSNP)作為標準,對樣本所有序列的品質進行校正,讓大家的品質接近完美的情況。 ## reference >NUT NGS class, Pr.Jacob Hsu >fastq >https://support.illumina.com/help/BaseSpace_OLH_009008/Content/Source/Informatics/BS/FileFormat_FASTQ-files_swBS.htm >https://gatk.broadinstitute.org/hc/en-us/articles/360035531872-Phred-scaled-quality-scores > >alignment >https://gatk.broadinstitute.org/hc/en-us/articles/360035890791-SAM-or-BAM-or-CRAM-Mapped-sequence-data-formats > >mark duplicate >https://gatk.broadinstitute.org/hc/en-us/articles/360037052812-MarkDuplicates-Picard- >https://www.biostars.org/p/18784/ > >BQSR >https://cloud.tencent.com/developer/article/1626269 >
×
Sign in
Email
Password
Forgot password
or
Sign in via Google
Sign in via Facebook
Sign in via X(Twitter)
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
Continue with a different method
New to HackMD?
Sign up
By signing in, you agree to our
terms of service
.