# Sequencing universe 定序的世界 ###### tags: `NGS課程筆記` ## 基因定序的發展流變 自2003 [Human Genome Project](https://en.wikipedia.org/wiki/Human_Genome_Project) 完成首個人類全基因體定序後,便打開了基因體學及定序研究的大門,而其中一門重要學問,便是定序技術的研發;前面所提到的第一組全基因體定序,是由多個實驗室共同參與、花費近13年完成,但現在只需單一實驗室進行樣本前處理、利用一台定序儀器,花費不到一天就可完成;不僅是定序效率的精進,就連定序價格也以違反摩爾定律的速度逐年降價,不僅讓定序變得更平易近人(相較於2003年),更使基因體資訊成為熱門的研究材料。 ![](https://i.imgur.com/RpC5gGM.jpg) 上圖為基因定序價格隨時間的改變,可發現在2008年左右定序價格驟降,其中一個原因是第二代定序儀器的上市與應用,目前(2021年)做一次全基因體定序的價格約為1,000美金,未來仍有持續降價的可能。 圖片來源:https://www.genome.gov/about-genomics/fact-sheets/DNA-Sequencing-Costs-Data 本篇文章將介紹定序的發展,包含定序原理、(過去及現在)代表公司,讓大家鑑往知來,並持續投入定序的世界。 ## 四大定序原理 定序究竟怎麼做?需要的材料是什麼?可分成四大原理 * chemical degradation * sequencing by synthesis * 利用template, primer, DNA polymerse 及鹼基等基本材料,在鹼基與目標序列互補後生成另一股的同時、一邊收集鹼基結合所釋放的訊號來完成定序。 * 例子:Sanger sequencing, Illumina, Ion Proton, PacBio * sequencing by ligation * 利用帶有訊號的probe與目標序列進行互補結合,一次定序大於一個以上的序列位置。 * nanopore * 利用特殊的孔洞設計,在序列通過孔洞的時,透過鹼基所帶有的特殊訊號(如電流等)來完成定序。 * 例子:Illumina, Oxford Nanopore, Roche ## 第一代定序: Sanger sequencing Sanger 最精巧的設計便是使用兩種不同的鹼基:dNTP以及ddNTP來進行定序,下圖是兩者的差異,可發現ddNTP因為3號碳缺少-OH,在其5號碳與上個鹼基結合後,無法再接上下一個鹼基,並終止整條序列的合成。 ![](https://i.imgur.com/UK9pGo2.png) 圖片來源:https://geneticeducation.co.in/what-is-the-role-of-ddntps/ 因此他設計了4個定序槽,每個槽分別加入一種ddNTP配上其他三種鹼基的dNTP,如ddATP+dCTP+dGTP+dTTP,當目標序列投入此定序槽後,若序列是T則ddATP會和其互補,並生成大小不一的定序片段,最後將這四個定序槽收集到的序列拿去跑毛細管電泳,可以依照不同序列大小進行排序,拼湊出每個位置的互補鹼基。 ![](https://i.imgur.com/A3FM94E.png) 圖片來源:https://www.sigmaaldrich.com/TW/en/technical-documents/protocol/genomics/sequencing/sanger-sequencing Sanger 面臨的問題之一為相當耗時,因此目前會將螢光標記在鹼基上面,透過激發螢光的方式,加快定序效率;另外則是讀長問題,目前Sanger主要的應用是幫助驗證第二代定序的結果,如想確認某變異是否真實存在,可透過Sanger sequencing抓取特定片段的資訊來驗證。 ## 第二代定序: Next generation sequencing(NGS) 因為全基因體的長度約有3100Mb,若使用Sanger sequencing將會定序到天荒地老;第二代定序的最大特色,便是將序列打成片段(genomic shotgun/fragmentation)、將序列PCR放大後同時定序多個小片段,最後再拼湊回整條序列,主要流程如下圖所示: ![](https://i.imgur.com/2gBtdwv.png) 圖片來源:Loman et al, *Nat Rev Microbiol* (2012) 10:59 * fragmentation:利用不同物理方法打成片段 * tagging:利用一組barecode標記不同來源的序列,可以應用於一次定很多sample的時候 * amplification:PCR放大是二代定序最重要的夥伴,有了PCR放大,每個片段可加深定序次數,並有助於修正定序錯誤(訊號較強)其放大方法又可分成以下幾種: ![](https://i.imgur.com/lmDRWYF.jpg) 圖片來源:Goodwin, S., et al, *Nat Rev Genet* 17, 333–351 (2016) * sequencing: 不同公司所使用的定序技術不大相同,以下介紹幾家著名的定序公司。 ### Illumina 次世代定序的霸主,為目前的主流定序方法,目前市佔率 >80%,應用範圍相當廣泛,舉凡臨床基因體定序、族群基因體定序都可使用。定序過程的特點包含: * bridge amplification * 具有不同讀長的定序機型可選擇,如Hiseq, Novaseq等 * 準確率 >99% ### Ion Torrent/Proton 特點為利用鹼基互補結合時,所釋放出的氫離子會改變PH值來定序。 ## 第三代定序: long read sequencing 第二代定序雖是目前主流,但仍有無法達成的極限,如受讀限制而無法定序出高度重複的區域,或是處理大片段結構變異的表現不如預期等;第三代定序的其中一個特色,便是增加序列讀長,保留更完整的序列資訊,另外一點便是不用PCR放大,減少樣本前處理,目前以PacBio及Oxford Nanopore兩公司為三代定序開發的大宗。 ### Pacific Bioscience (PacBio) PacBio 定序方式又稱作single-molecule real-time (SMRT),其特點主要分成兩部分: * primer design:為了克服不經PCR放大及定序長片段的目標,PacBio在primer設計下了功夫,分別為circular consesus sequence (CCS) 以及continuous long read (CLR),如下圖所示,CCS所使用的primer可以將序列環化,而CLR則將primer皆在兩股read前後,形成一啞鈴型結構;環化的優點包含可以一次抓住整段序列,使polymerase binding後,不停的在read上進行定序,並多次定序同個片段,以降低定序錯誤率。 ![](https://i.imgur.com/UjjjfPQ.png) 圖片來源:https://www.ndsu.edu/pubweb/~mcclean/plsc411/Pacific%20Biosciencs%20CCS%20vs%20CLR%20modes.pdf * Zero Mode Waveguide(ZMW): 晶片上特殊的孔洞設計,使每個孔洞中街具有一個polymerase,當序列進入孔洞,將會通過polymerase不停合成序列,並回報因互補接上的鹼基所帶有的螢光訊號,具有real time sequencing的能力。 PacBio在長序列的場合獲得好評,但仍無法達到如Illumina的定序準確度,未來將以降低定序錯誤率為主要目標。 ### Oxford Nanopore Technology(ONT) Nanopore指的是一個類似生物魔上的穿膜蛋白,當序列通過時,將會辨識不同鹼基所產生的微量電流訊號,來完成不用精PCR放大的即時定序。 如同三代定序的缺點,準確度仍然是一大門檻,且孔洞對於序列中有多個重複鹼基(homo-polymer)的辨識有待加強(好像二代定序也常出錯)。 ## 相關文獻 > Goodwin, S., McPherson, J. & McCombie, W. Coming of age: ten years of next-generation sequencing technologies. Nat Rev Genet 17, 333–351 (2016). https://doi.org/10.1038/nrg.2016.49 >