1. 程式人生 > >巨集基因組-擴增子分析流程:中文首發,史上最詳系,零基礎自學

巨集基因組-擴增子分析流程:中文首發,史上最詳系,零基礎自學

本網對Markdown排版支援較差,請跳轉“巨集基因組”公眾號閱讀;

image

寫在前面

之前釋出的《擴增子圖表解讀》系列,相信關注過我的朋友大部分都看過了(連結直達7月文章目錄)。這些內容的最初是寫本實驗室的學生們學習的材料,加速大家對同行文章的解讀能力。

《擴增子分析解讀》系列文章介紹

擴增子分析是目前巨集基因組研究中最常用的技術,由於微生物組受環境影響大,實驗間重複較差,更需要更多的實驗重複和分析技術來保證結果的準確性、可重複性。

本系統文章叫分析解讀,即有詳細的擴增子分析流程程式碼,又有本人對使用引數、備選引數意義的解讀,可以讓大部分人零基礎學習並理解資料分析過程,並可親自實踐在自己的課題上,獲得更好、更合理的實驗結果。

本文采用目前最主流的擴增子測序資料型別HiSeq2500 PE250型別資料為例,結合目前主流方法QIIME+USearch優點組合定製的分析流程。本課程中所需的測序資料、實驗設計和課程分析生成的中間檔案,均可以直去百度雲下載。
連結:http://pan.baidu.com/s/1hs1PXcw 密碼:y33d。

學習前必讀

  • 測序資料:百度雲原始連結的資料是隨時更新的,請儘量使用前下載連結裡的檔案。轉存入自己的帳號內檔案將不再更新,無法修正讀者指出的錯誤反饋。
  • 本課程程式碼的執行,至少需要Linux平臺+安裝QIIME1.9.1,我之前釋出過QIIME1.9.1安裝的三種方法如下:
    1. 虛擬機器安裝
      :適合在Windows上學習,但分析效率低。
    2. Docker安裝:Linux上最簡單的安裝方法,需要管理員幫忙併給你開通部分許可權。
    3. 管理員直接安裝:直接安裝QIIME1.9.1相關的上百個程式和包,不同環境依賴關係不同,需要極豐富經驗,建議管理員安裝。
      以上三種方法均可點選連結有詳細教程,總有一款適合你。
  • 本套流程主要依賴QIIME1.9.1。之前釋出的QIIME2不是QIIME的升級版,而是完全獨立的分析系統,兩者沒有任何通用的地方,而且現在還不成熟,明年才有穩定版。請讀者千萬別混淆。不要再犯用QIIME2系統執行本教程擴增子分析流程解讀,無法找到相關程式的錯誤。
  • 其它不在QIIME流程中的相關軟體,我在教程裡提供簡單的安裝方法,使用前仔細閱讀教程操作即可。

擴增子分析流程目錄

先看一下擴增子分析的整體流程,從下向上逐層分析。
image

擴增子分析流程,主要包手下面7部分,共21小節。

  • 1質控,實驗設計,雙端序列合併
    檢視原始資料的質量,編寫合格的實驗設計用於分析,雙端序列合併為單端的擴增子序列;
  • 2提取barcode,質控及樣品拆分,切除擴增引物
    將Barcode序列從序列中拆除,篩選高質量的測序結果並標記文庫中每條序列中的樣品來源,最後切除擴增時使用的引物;
  • 3格式轉換,去冗餘,聚類
    轉換QIIME生成fasta格式為Usearch要求格式;使用Usearch對序列去冗餘並篩選高丰度,極大降低下游計算量和去除噪音;最後使用用Usearch聚類生成OTU,預設會組內自動去除大量嵌合體;
  • 4去嵌合體,非細菌序列,生成代表性序列和OTU表
    本講詳細講了嵌合體的概念,並使用參考資料庫去除嵌合體;學習基於引數資料庫篩選細菌序列,這些都是可選的操作,根據實際情況決定是否需要,最終生成高質量的OTU序列作為參考序列;
  • 5物種註釋,OTU表操作
    這部分採於不同資料庫進行細菌或真菌註釋;同時根據實際情況,對OTU表進一步按樣品、丰度、物種等條件篩選;
  • 6進化樹,Alpha,Beta多樣性
    將OTU多序列比對生成進化樹,為依賴進化關係的計算方法提供輸入檔案;再進行多種Alpha和Beta多樣性的計算;
  • 7物種分類統計,篩選進化樹和其它
    對物種進行分類統計,篩選高丰度結果用於進化樹展示,和其它用於R統計分析的結果生成。

寫在後面

以上流程,是本人基於多篇高水平文章的解讀、類流程分析流程幫助的閱讀和自己理解的產物,不足之處,還請大家多留言討論或指正。

具體的分析步驟的使用,最重要的是相關專案經驗,其次是對課題科學問題的深入理解。自己能想清楚,自然知道如何分析更合理。

大家不要迷信流程一次可以分析出想要的結果,好的結果一般都是經過不斷思考,不斷優化和改進分析引數和方法得出的。發表前修改流程重新計算30次不算多。

這部分大家學會了,可以基於以上流程生成的文字資訊。採用R語言進一步統計分析,並繪圖各種出版級的圖片。我將會從下週起開始釋出,第一季擴增子繪圖有8種常用圖型的繪圖,及相關的統計方法,與擴增子圖表解讀的順序相對應哦!

希望本課程對大家有幫助!!!

想了解更多16S/ITS/18S擴增子、巨集基因組、巨集轉錄組文獻閱讀和分析相關文章,快關注“巨集基因組”公眾號,乾貨第一時間推送。
image

系統學習生物資訊,快關注“生信寶典”,那裡有幾千志同道合的小夥伴一起學習。
image