1. 程式人生 > >三代組裝小基因組研究綜述

三代組裝小基因組研究綜述

三代組裝小基因組研究綜述

三代組裝各種原理和方法都有。

近日illumina釋出了新的測序儀NovaSeq系列,這個測序是相當的便宜,這個可能對於開啟100美元人類基因組時代的大門有巨大的幫助。不過本篇文章小編不講NovaSeq,感興趣的自行百度就可以了。

 

小編目前主要是三代動植物基因組方向,今天高鐵上跨了個界讀了14年的一篇三代在小基因中的應用的綜述文章。今天看來這篇文章確實分析的對,可以認為是所謂的領路人吧。

 

今天分享給大家我的閱讀理解,希望大家能有所收穫。

 

One chromosome, one contig: complete microbial genomes from long-read sequencing and assembly

 

眾所周知基因組組裝類似將一幅畫撕碎,然後再拼接起來,所以很容易理解這樣一個道理--撕碎的片段越大越容易拼接起來。雖然現在二代測序價格越來越便宜,但是二代的短片段對於拼接可以說作用非常有限,尤其是對GC富集區、重複區等。相反,長片段測序可以產生Kb以上的片段這些對於小基因組的組裝意義巨大。對於研究來說首先可以得到高質量的參考基因組,另外還可以做精度較高的變異檢測。接下來我們簡單介紹下所謂的長片段測序。

 

一、背景介紹

 

根據07年到11年的基因組資料表明0gap和每個鹼基準確性都在99.99%以上的基因組所佔比例不到35%,這樣看來整體的基因組的質量都比較低。這種現狀的出現更多的原因在於曾經我們利用的測序手段,短片段組裝。另外短片段組裝用來研究結構變異作用也很受限,尤其是對大尺度的結構變異。當然這裡也不是否認小片段的作用,小片段在於菌株分型、疫情追蹤、泛基因組研究上還是有很明顯的精度和價格的優勢。

針對短片段基因組組裝而言,最大的障礙和挑戰就是重複序列。重複序列在基因組上有兩種型別,第一種就是全基因組分佈的序列,另一種就是串聯重複序列,這兩種重複序列在利用傳統圖論方法組裝的時候會引起較大的問題,很容易導致最後什麼都沒有組裝出來。但是長的read可以簡化組裝,解決好這些重複區域,甚至直接跨過這些重複區域,因此這樣就不存在重複序列干擾組裝的問題。

biocc_5f83ce1a_5db2_4d72_9dd5_04371f5425

如果這個重複序列太長超過了長片段read的長度,同樣還是解決不了基因組中高重複的問題,同樣組裝還是會有問題,這裡大家不用擔心,對於微生物的重複序列中rDNA operon 佔比最高,大概在77%左右,但是其長度在5-7Kb。以pacbio測序片段為例其平均讀長在10kb以上,解決這些重複沒有任何壓力。資料表明利用三代可以解決80%的微生物基因組。

 

二、現有的三代測序平臺介紹

 

(1)PacBio

14年還沒有sequel,重點介紹RS,RS和sequel除了通量上不一樣,其他的小編認為都差不多。

RS測序的準確性平均在82%左右(2011年資料)剛開始RS由於其錯誤率較高,不能單獨使用,只能和其他的資料結合相互補充進行使用。後來經過化學工藝和文庫製備的提升,目前準確性在87%左右。另外由於其沒有GC偏好,因此利用較高的深度通過統計學模型來提升測序深度是非常有效的,糾正之後準確性在99.99%以上。這些進步使得利用RS直接組裝一個小基因組成為可能。

(2)IIumina synthetic long reads ,Moleculo

這個小編不是很瞭解,雖然其測序片段較長,但是其存在和二代測序同樣的的問題------嚴重的GC偏好,所以基本不用於denovo assembly。

(3)Oxford Nanopore MinION

如果說傳統的測序儀類似傳統網際網路,那麼Nanopore就是今天的移動網際網路。他開發的行動式的便宜的小測序儀真正的開啟了移動測序、行動式測序的時代。雖然目前它的準確性較低,沒有普及開。小編認為以後走進千家萬戶的測序儀就應該是這個樣子的。到那個時候,測序就是很大眾的事情啦。

biocc_0127e61a_4db8_4e7f_a3a5_1b274957dd

三、組裝演算法

 

組裝這裡其實有很多種方法,整體來說有如下幾種情況。

 

biocc_dfe7de2d_453f_4090_89ec_fb1ad3d25d1、直接利用OLG(重疊法)通過overlap進行組裝的,代表軟體是Celera Assembler,這種方法對原始的read的質量要求較高。

2、混合拼接,基本思路是利用二代資料對質量不是很高的read進行糾錯提升其質量,然後再利用OLG進行組裝。代表軟體PBcR、LSC、ECTools等。

3、不借助其他資料進行糾錯,通過三代自身進行糾錯,然後再利用OLG進行組裝。代表軟體HGAP、Sprai等。

4、組裝提升,組裝提升部分分為補洞和重新對scaffold進行連線,排序等。

這裡軟體前者主要是PBjelly 後者主要是AHA。還有就是利用長片段對二代組裝的de Bruijn graph的優化,主要的代表就是二代組裝神器Allpaths-LG。

當然以上的方法和軟體都有其好的一面和不好的一面,最重要的是要理解什麼時候利用哪一個軟體。

biocc_2a3b6104_649a_422f_b012_576de80a00

biocc_88114b02_e334_41c1_b63a_836a8d0933

biocc_eb770b46_6773_4540_ad18_25958d74dd

 

四、討論

 

建議在小基因組測序的時候三代測100x以上,這樣對於得到一個高質量的小基因組最為保險,當然如果想利用RS進行甲基化檢測另說。還有就是對於三代而言DNA提取和文庫製備超級超級重要,一定要多加註意。最後不想說,但是文獻中提及到了,資料的分析問題可以利用線上的一些商用的雲系統,比如Amazon Web Service,價格5美元以下,WHY??

 

五、參考文獻

 

One chromosome, one contig: complete microbial genomes from long-read sequencing and assembly.