1. 程式人生 > >評估轉錄組從頭組裝準確度的新方法

評估轉錄組從頭組裝準確度的新方法

[轉載]評估轉錄組從頭組裝準確度的新方法

已有 2304 次閱讀 2014-12-30 11:47 |個人分類:轉錄組測序|系統分類:科研筆記|關鍵詞:轉錄組denovo測序,轉錄組denovo組裝,裝錄組denovo組裝結果評估新方法轉錄組denovo測序轉錄組denovo組裝 |文章來源:轉載

   RNA-Seq技術,能夠進行大規模的轉錄組分析,從而徹底改變了基因組未測序物種的研究。為了研究這些轉錄組,首先我們要通過從頭轉錄組組裝確定一組轉錄本序列,利用RNA-Seq讀取資料重建轉錄本序列,無需基因組序列資訊的幫助。目前,一些可用的從頭轉錄組組裝軟體,許多是為Illumina平臺數據設計,而其他一些則針對Roche 454 Life Science平臺數據。這些組裝軟體,與它們相當大的使用者可調引數集相結合,可為一個單一資料集生成大空間的候選組裝件。然而,如何在這一空間中選出最準確的組裝——特別是當真實值(ground truth)是未知時,仍然是具有挑戰性的。

   最近的許多研究已經致力於評估轉錄組的從頭組裝。在這些研究中使用的組裝評估方法可被分為兩大類:基於參考序列和無參考序列。基於參考序列的評估方法,使用先前已知的序列進行計算。例如,在組裝元件和參考轉錄本序列之間建立一種對應關係之後,我們就可以計算出與參考轉錄本精確匹配的一部分組裝元件,和組裝元件相匹配的一部分參考轉錄本,或者這兩者的組合(例如F1測度)。除了轉錄組,基因組和蛋白質序列也被用作組裝評估的參考序列。

   然而,在大多數從頭組裝的情況下,參考序列是不可用的或不完整的,或者相當偏離目的樣本的真實性,這使得組裝評估任務更加的困難。在這種情況下,必須藉助於無參考序列評估測度。常用的無參考序列評估測度包括,中值重疊群長度、重疊群數量和N50。不幸的是,這些測度都很簡單,往往會產生誤導性。例如,N50,最流行的一種無參考序列評估測度,可以通過小元件而最大化。

這種測度的動機是,更好的組裝應該來自於較大的輸入讀取之間重疊數,因此將有更多的讀取被組裝為更長的重疊群。然而,我們很容易看出,通過將所有輸入讀長連線成一個單一重疊群而構建的一種小組裝,將取這種測度的最大值。總之,N50測量的是重疊群的連續性,而不是它們的準確性。其他過分簡單的無參考序列測度,對於組裝的精確度可能同樣有誤導性,但是有研究證明,當組裝包括“singletons”(即來自單個讀取的重疊群)時,一些測度可能提供一定的資訊。

   最近在《Genome Biology》發表的一項研究中,來自加州大學伯克利分校、威斯康星大學、印第安大州立大學等處的研究人員,通過提出DETONATE(DE novo TranscriptOme rNa-seq Assembly with or without the Truth Evaluation)方法和軟體包,改進了最先進的轉錄組組裝評估測度。DETONATE由兩部分組成:RSEM-EVAL和REF-EVAL。RSEM-EVAL,DETONATE的主要元件,是一種基於新型概率模型的無參考序列評估方法,只依賴於一個元件和用來構建它的RNA-Seq讀長。

RSEM-EVAL與最近的方法相似,使用統計模型來評估或構建基因組和巨集基因組組裝,但是,正如本文將要討論的,由於轉錄本和可變剪接的不同丰度,它必然更加複雜。不同於簡單的無參考序列測度(如N50),RSEM-EVAL可結合多種因素。這個值可以用來選擇一個最佳的組裝軟體,優化一個組裝軟體的引數,引導新的組裝軟體設計為一個目標函式。此外,對於組裝中的每個重疊群,RSEM-EVAL提供一個值,可評估該重疊群如何由RNASeq資料支援,並可以用來過濾不必要的重疊群。

   REF-EVAL——DETONATE的第二元件,是基於參考序列測度的一種工具。與現有參考序列為基礎的測度相比,它為組裝精確性提供了一種更為精細的檢視。

研究人員已經對真實和模擬資料進行了大量實驗,來證明RSEM-EVAL值的價值。首先,他們圍繞著一個單         一“真正”組裝,產生了一系列擾動元件,並且表明,RSEM-EVAL在最高得分的組裝中最接近於真實值。第二,他們對多個數據集超過200個組裝計算了RSEM-EVAL值和REF-EVAL基於參考序列測度,他們發現,RSEM-EVAL值一般與基於參考的測度有很好的相關性。這兩個最初實驗的結果表明,RSEM-EVAL評分可準確地評估從頭轉錄組組裝,儘管不知道真實值。第三,與幾種可供選擇的無參考和比較參考為基礎的測度相比,這項研究展示了RSEM-EVAL在準確性、適用性和執行要求方面的優勢。

   最後,作為使用RSEM-EVAL值的一個演示,研究人員根據這一指南,組裝了再生蠑螈肢體的轉錄組。與先前研究中組裝方法所發現的基因相比,這次新進行的組裝,讓研究人員發現了參與蠑螈肢體再生過程的更多基因。

 

轉自生物通