1. 程式人生 > >四十而不惑——DNA測序技術的前世今生和未來

四十而不惑——DNA測序技術的前世今生和未來

生信技能樹

自上1953年DNA分子雙螺旋結構被髮表以來,生物學研究進入到了一個更精細化的分子時代,越來越多的科學家開始投入分子生物學研究,尤其是對DNA序列的研究,從而DNA測序技術應勢而生。從1977年Sanger牛刀小試的雙脫氧終止法到近十年如日中天的高通量測序技術,再到目前蓄勢待發的三代單分子測序技術,這跨越近40年的風雨歷程,

DNA測序是指測定和分析特定DNA片段中,鹼基序列的排列情況。被廣泛應用於生命科學和臨床醫學等領域的研究,如分子生物學,遺傳學以及臨床診斷,法醫生物學等。而DNA測序技術自1977年sanger等人的雙脫氧終止法到今天的單分子納米孔測序法,已有40年的歷史了。

這篇2017年10月發表在nature上的綜述,回顧了DNA測序技術發明40年來的發展歷程,並對DNA測序技術的現狀及未來做了總結和展望。從最初幾個鹼基對到第一個人類基因組,這中間經歷了多個技術革命和增長,如現在獲得的百萬人和無數其他多種的基因組等。我們預測,從長遠來看,DNA測序創新將與顯微鏡的發明一樣,影響深遠。 在這裡插入圖片描述

DNA測序技術的歷史 在這裡插入圖片描述

  • 早期測序: 早在DNA測序技術被髮明之前的1953年,就有胰島素蛋白(insulin protein)被測序了;而後的1965年,tRNA(alanine tRNA:丙氨酸tRNA )也已經完成了測序,其中,第一個RNA測序用了140kg的酵母測出了76個核苷酸;在1968年,噬菌體λDNA的結合末端 (cohesive ends of phage lambda DNA)被測序完成。

在早期測序中,被測序的序列大多采用了類似的思路:將序列分離(色譜或電泳),分解成小片段(RNases或蛋白酶),然後破譯每個小片段,並將片段重疊,最優由重疊部分推匯出序列。

  • DNA測序技術的發明:

1973年,Gibert和Maxam使用引物延伸法測定了24個乳糖抑制因子結合位點的鹼基(先將其複製成RNA,再測序),整個工作進行了兩年時間,相當於每個核苷酸需要耗時一個月。

1976年,Sanger和Coulson開發的雙脫氧鏈終止法;Gibert和Maxam發明的化學裂解法。這兩種方法都是通過產生不同長度的片段(鏈終止合成或化學切割),然後都用聚丙烯醯胺凝膠電泳法測定了每個鹼基反應中存在的片段的大小,並通過單鹼基解析度分離出DNA片段,將每個鹼基一條標記的凝膠放置在X射線膠片上,產生一個梯形影象,從中即可讀取該片段的序列,按照大小上升四條標記,推測鹼基的順序。

1979年,鳥槍法測序:是指將基因組按染色體分開後,將它全部打亂,切成碎片,然後進行隨機測序,測序後再將其拼接起來。在HGP專案中,鳥槍法就被作為主要的測序技術起到作用,人類基因組的大片段被克隆成細菌人工染色體(BACs),每個BAC的DNA都是片段化的、被篩選的、被克隆的。單個克隆被選中並擴增生長,獲得無性繁殖的基因文庫,再篩選分離,從眾多轉化子菌株中選出含有目標序列的菌株,從中分離DNA,再將純化的DNA作為sanger測序的模板,從凝膠掃描影象中提取訊號,並呼叫鹼基最終生成序列。

1987年,Smith、Hood和Applied Biosystems開發了桑格熒光測序儀,1000base/d

1982年,Genbank上儲存了500 000bases

1986年,Genbank上儲存了10 000 000bp

  • 擴大到人類基因組:

1.技術進步: 1.從染料標記的引物到染料標記的末端; 2.突變的T7DNA聚合酶,更容易合併有染料標記的末端; 3.線性擴增反應,大大降低了模板要求; 4.基於磁珠的DNA純化和提取,簡化了測序前準備的自動化操作; 5.可以雙鏈測序;可以使用利用質粒克隆,因此可以進行雙末端測序; 6.毛細管電泳,消除了凝膠的澆注和負荷,也簡化了熒光訊號的提取和解釋; 7.工業標準的加入,最大限度地提高了效率,減少了錯誤;

2.軟體的開發: phred,質量度量Q值,phrap,the TIGR assembler and the Celera assembler

3.測序成本的下降: 2001年,一個測序中心可測10 000 000bp/d 2004年 , ¥1/(600-700bP)

4.其他: 和HGP計劃平行進行的私人基因組測序Craig Venter and Celera (2001)

大規模平行DNA測序:

1.核心是體外擴增產生每個模板拷貝被測序,而不是細菌克隆

2.幾種擴增方式有polonies(polymerase colony ),橋式PCR或者滾環擴增(納米球)

3.邊合成邊測序的3種方式:1)焦磷酸測序;2)使用DNA連線酶的特異性熒光寡核苷酸附在順序的方式;3)聚合酶介導下逐步加入熒游標記的脫氧核苷酸

4.第一個NGS測序平臺454(2005);Solexa(35bp 雙端PE)

5.NGS測序平臺:454(Roche公司),Solexa(illumina公司),Agencourt(Applied Biosystems),Helicos(founded by Quake),Complate Genomics(founded by Drmanac,華大收購 ),Ion Torrent(founded by Rothberg)

6.2012年illumina成為主流(454,Solid和Helicos停止開發);

準確度99.9%,Novaseq可以兩天內產生1百億reads,是HGP計劃的40倍

單分子實時測序:

1.PacBio:

實時觀察聚合酶介導的合成,是一種零模波導孔,即不到一半波長的光,將熒光激發到一個微小的體積內,其中一個聚合酶和它的模板存在,在不斷增長的DNA鏈中加入了熒游標記的核苷酸,會發出足夠持續時間的訊號。

PacBio的通量比NGS平臺(如illumina)要低很多,原始錯誤率也達到10%,但其讀長長(大於10k)、GC偏好性低,並且PacBio的最小偏差、隨機誤差、長read和冗餘覆蓋率的組合可以致使從準確性和連續性方面進行重新組裝的高質量。

2.納米孔測序:

納米孔測序(Oxford Nanopore Technologies,ONT)最早是在20世紀80年代提出的,它是基於一個單鏈DNA分子通過一個狹窄的通道時,離子流動的模式將揭示出鏈的主要序列,納米孔測序 最長讀長可達900k,行動式,電訊號檢測,但錯誤可能不是隨機的,因為通過納米級孔隙的電場驅動的DNA傳輸速度非常快,每個核苷酸的離子數量不足以產生足夠的訊號。

3.兩者均可用於檢測鹼基修飾,如甲基化等 在這裡插入圖片描述 DNA測序的應用

DNA測序技術被廣泛地應用於包括基因組從頭組裝、個體基因組重測序、臨床測序和分子計數器等。 在這裡插入圖片描述 1.基因組的de novo(從頭組裝)

在早期的DNA測序工作中,對物種基因組進行部分或者完全測序是主要的內容,如1977年sanger測序的第一個基因組(phiX174;5kb),並且早期的這種DNA從頭測序基本上是手工組裝的。

隨著NGS的到來,從頭組裝的數量急速增大,這時候基於de Bruijn圖形的新組裝演算法(如EULER和Velvet)被開發出來了,這類演算法克服了read和重複基因組的混亂的組合方式,但用於較大基因組時,尤其與HGP的基因組相比,其質量平均較差。較短的read可能是其中一個原因,但主要是因為缺乏補充NGS的鄰接方法,NGS的文庫方法在跨越距離方面很受限制,同時,也缺乏遺傳和物理對映的“大規模平行”等價物。

另外,如HiC(全基因組的染色體構象捕獲)和光學圖譜,可以提供可伸縮的、可行性高的方法,在基因組框架下進行染色體規模的組裝。

(1)遺傳圖譜;(2)物理圖譜;(3)雙端測序,8-10冗餘,十萬分之一的錯誤率;(4)Celera,從貪婪演算法(phrap and the TIGR assembler,區域性最優)到基於圖的方法(重疊-佈局-共識);(5)de Bruijn graphs(如 Euler and Velet);(6)高分子量high molecular weight(HMW);(7)HiC

2.基因組重測序:

基因組重測序正在被用於處理和探測遺傳變異的篩查,如“1000美元人類基因組”等。與基因組組裝不同,基因組重測序是指對映read到一個參考基因組來識別遺傳變異,這其中就包括使用新的演算法如bowtie and burrows-wheeler aligner(BWA)等,這類演算法借鑑了資料壓縮的思路,使得數百萬的read能夠有效地對映到參考基因組上,其中samtools和GATK是一個重要的應用。

由於測序成本的迅速降低,全基因組測序(WGS)的成本接近1000美元,而針對編碼蛋白基因的選擇性測序的全外顯子測序(WES)的成本更是接近數百美元,從而會大大促進個人基因組重測序,如1000 genomes project,以及最近釋出的基因組聚合資料庫(http://gnomad.broadinstitute.org/)、Genomics England (https://www.genomicsengland.co.uk/)、NHLBI TOPMed (TransOmics for Precision Medicine, [https://www.nhlbiwgs.org/])等

測序的臨床應用

1.無創產前診斷是一種非浸入性產前檢測(non-invasion prenatal testing,NIPT),母體在懷孕期間,由胎兒釋放到母體迴圈中的DNA片段的簡單計數可以檢測染色體非整倍體,基於該策略的篩查檢測方法比之前任何一種分子檢測速度都更快。

2.全外顯子測序(WES),是快速發現新的基因,並用於診斷受孟德爾遺傳疾病影響的患者,另外,由於很大比例的神經發育障礙都是由編碼序列的從頭突變所引起的,所以WES也被越來越多地用於診斷神經發育障礙的一個工具。

3.癌症診斷,癌症在根本上來說,也是一種基因突變引起的疾病,大規模的基因組重測序有助於揭示癌症的多重複雜的遺傳異質性,因此,DNA測序在癌症的臨床診斷中也起到了重要的作用,如:1)通過對腫瘤釋放的迴圈細胞或無細胞DNA(ctDNA,cfDNA)的測序進行非侵入性診斷和監測;2)鑑定新的突變位點等

測序儀作為分子計數裝置

在最早的時候,”表達序列標籤(微陣列晶片分析)“是作為一種發現基因的方法被廣泛應用,它通過基因表達的連續分析(SAGE),將基因表達變得可以“數字量化”。而隨著NGS而來的RNA-Seq相對微陣列來說更具優勢,比如2008年開發的RNA-Seq是通過新的軟體包(tophat、cufflinks等)來對轉錄本進行計數的,這比原來基於雜交和模擬訊號的統計方法來說,更加便捷高效。

在接下里的近十年時間裡,又有數百種方案被開發出來,這極大地促進了DNA測序作為“分子計數器”而被廣泛應用。DNA測序之於分子生物學,就如同顯微鏡之於細胞生物學一樣,是基本的、必不可少的工具。 在這裡插入圖片描述 展望DNA測序

1.物種基因組的多樣性 地球上有數百萬的物種,至今已完成測序的物質只佔有相當小的比例,所以,更全面、更廣闊的基因組多樣性正在等待被測序,被證明。

2.大規模人口的基因組重測序 隨著DNA測序成本的降低,會有越來越多的人類選擇將其基因組進行重測序,這可以發現突變位點(疾病);也可通過比較我們的基因組和祖先或者其他人類的基因組,可以更好地理解人類發展(進化)的歷史。

3.DNA測序可作為新的顯微鏡 DNA測序發明至今只有40年,而顯微鏡已有近400年的時間,人們預測,DNA測序的壽命和影響,將與顯微鏡相提並論,甚至超過顯微鏡。

4.實時、便攜的感測器 第三代納米孔測序儀只用約70g重,並且其在30分鐘內就可以獲得樣本的測序資料,所以,便攜和快速可以使其成為一個感測器,實時地檢測日常不同環境下的核酸資料。