2021 總體基因體學介紹

# 2021 總體基因體學介紹 ###### tags: `人體微生物相資料平台教學` https://atlasbiomed.com/blog/whats-the-difference-between-microbiome-and-microbiota/ # 總體基因體學 (Metagenomics) * 總體基因體學(Metagenomics)的研究方向主要為微生物，由於有99%以上的微生物是無法仰賴人工培養的，因此，如果想要描繪真實環境的生化代謝圖譜，最有效的方式就是直接萃取環境中的遺傳物質 (包含DNA與RNA) 加以分析，藉由這些基因體資訊，對環境代謝路徑有通盤了解 * 目前總體基因體學主要用於研究環境中、人體內等的微生物多樣性和其功能分析，特別是來自於土壤、海洋、空氣、植物和動物腸胃道共生菌等樣 * 次世代定序(Next Generation Sequencing; NGS) 是總體基因體學的工具，透過次世代定序可以研究特定環境下微生物的組成與相對數量的多寡 ## 總體基因體學的定序策略分成兩大類： 1. **16S目標區間定序 (16S targeted sequencing)** 是針對特定高變區(Highly Variable Region)的序列進行定序，執行上相對較容易、快速；但由於只有拿目標區段去做定序，物種分類的解析度也會因此受到限制 (圖a) > 適用研究目的: 想要了解物種的分布與多樣性 2. **全基因體霰彈槍法(whole genome shotgun sequencing)** 可對特定環境中存在的微生物種類進行全面性分析，但由於目前可用的參考數據庫還很有限，想要分析讀取序列通常仍有困難。 (圖b) > 適用研究目的: 研究環境微生物之代謝特性與路徑與其種類 ![](https://i.imgur.com/2YNRMHw.png) ### 1. 16S目標區間定序 (16S targeted sequencing) 16S rRNA位在原核細胞的核醣體小次單元(Ribosomal Small Subunit; SSU)上，其序列包含9個高變區(V1~V9)及10個保守區(Conserved Regions)，如圖一所示1。利用上述16S rRNA的這些高變區去做定序，可以鑑定微生物的種類，因此目前16S rRNA序列經常被拿來當作鑑定微生物種類的指標序列(marker)。目前主要是定序V3-V4這個區段。定序所使用的引子(primer)為341F/805R，採用的儀器是illumina的Miseq機型，定序類型為paired-end300；並分別從正向與反向進行雙端測序，讀數長度則剛好跨過V3-V4區段(長度約為428bp)。 ![](https://i.imgur.com/zb3NRg7.png) > 16S rRNA序列上有10個保守區(以藍色標示)；相較於古菌(Archaea)的菌種，細菌(Bacteria)菌種在保守區上的序列差異並不明顯。而9個高變區(紅色標示的V1~V9區段)則可用來鑑定分類。(圖片來源：EZBioCloud Help center. (2019, Feb. 20). 16S rRNA and 16S rRNA Gene.) ![](https://i.imgur.com/OqNryIp.png) > 進行菌相分析時，只讀取16S rRNA部分區域的序列，可能會使得細菌在分類上效果不好。如上左表顯示，當只定序V1-V2區域時，對於變形菌門(Proteobacteria)的辨識度是差的，只定序V3-V5區域時，對於放線菌門(Actinobacteria)的辨識度也不好。根據右上圖物種階層熱樹圖，僅定序V4區域時，樹狀圖呈現深紅色分枝，表示未被分類到的細菌百分比很高。當V1-V9全部定序時，其樹狀圖顏色接近白色，表示大部分的菌都是有被分類到的。另一方面，只定序部分區域，在細菌分類學分析時，並不是一直都不適用的。例如，大腸桿菌和志賀氏菌的辨別度在只定序V1-V3區域時，也有良好的分辨度。總結來說，若需要做菌相分析時，進行V1到V9全區域的定序，對於微生物菌相分析時，可以提供更良好的分類結果。 **菌相分類鑑定資料庫** 想要分類鑑定，當然就要用到資料庫囉，目前最常用的資料庫有RDP、SILVA、Greengenes，如表一所示 ![](https://i.imgur.com/Akl3nDe.png) > SILVA最搶眼的表現在其可處理的序列量最龐大、且資料庫更新的頻率比其他資料庫快。相對的，Greengenes資料，雖然僅更新到2013年5月，但是它有機會鑑別到「種」的演化層級 * RDP(全名為Ribosomal Database Project)可用來註釋比對細菌和古菌的16S rRNA序列、以及真菌的28S rRNA序列，共計3,356,809條序列。目前最新版本為2016/09更新的Release 11。 * SILVA為提供三大界微生物(細菌、古細菌、真核）rRNA基因序列的綜合資料庫；其資料庫涵蓋了原核和真核微生物的核糖體小次單元(即16S rRNA和18S rRNA)以及核糖體大次單元(Ribosomal Large Subunit; LSU，即23S rRNA和28S rRNA)，共計9,469,656條序列。目前最新版本為SILVA138.1 * Greengenes則是提供細菌、古菌16S rRNA基因序列分析參考的資料庫。目前最新版本為2013/05更新的gg_13_5，共計1,262,986條序列。 https://greengenes.secondgenome.com/?prefix=downloads/greengenes_database/gg_13_5/ ### 2. 全基因體霰彈槍法根據「是否有參考序列作為組序原則」可分為下面兩種： 1、參考序列比對組裝(Reference Mapping)：在有參考序列的情況下，依據參考序列將定序片段進行比對組裝，如圖二所示。 * 第一步：把DNA隨機切割成短到可做定序的重疊片段。 * 第二步：產生隨機打斷的片段。 * 第三步：定序各個片段。 * 第四步：利用電腦軟體將序列片段與參考序列比對組成一個完整、連續的序列。 ![](https://i.imgur.com/lIRHW4T.png) 2、De novo組裝(De novo assembly)：在無參考序列的情況下，僅使用定序片段所提供的資訊去組裝拼湊出原始樣貌，如圖三所示。 * 第一步：把DNA隨機切割成短到可做定序的重疊片段。 * 第二步：產生隨機打斷的片段。 * 第三步：定序各個片段。 * 第四、五步：利用電腦軟體將序列片段根據部分重複的區塊拼湊還原出序列的原始樣貌。 ![](https://i.imgur.com/iseWusT.png) ## 定序結果格式 ### FASTQ Illumina MiSeq平台測序原始數據以FASTQ格式保存（R1.fastq和R2.fastq，Read1和Read2序列一一配對。即雙向測序，從序列兩端同時進行測序forward-reverse） FASTQ是一種存儲序列的特定文本格式，每四行對應一條測序Read： > * 第一行讀段識別碼read ID > * 第二行鹼基read序列 > * 第三行讀段識別碼省略的read ID > * 第四行測序質量分數Phredscore+33，是按ASCII格式編碼對應第二行的每個鹼基的測序質量分數，是通過該鹼基對應的Ascii對應的分值-Phred值而得以下為一個包含單個序列的FASTQ檔案範例： ``` @SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT + !''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65 ``` 其中!為最低品質、~則為最高品質。以下字元從左到右代表從低到高的品質得分的： ``` !"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~ ``` ![](https://i.imgur.com/EdP3HXO.png) ### 格式變體 FastQ數據有四種常用格式變體： > * SingleEndFastqManifestPhred33V2 > * SingleEndFastqManifestPhred64V2 > * PairedEndFastqManifestPhred33V2 > * PairedEndFastqManifestPhred64V2 一般Phred33比較常見，只有非常老的數據才有Phred64格式或測序公司非正常設置的結果，建議轉換成了這個主流格式。 > Reference: 1. http://www.yourgene.com.tw/content/messagess/contents/655412454415503242/ 2. http://www.yourgene.com.tw/content/messagess/contents/655643254701452640/