1. 程式人生 > >NAR:MicrobiomeAnalyst微生物組分析師——統計、視覺化和元分析微生物組資料的網頁工具

NAR:MicrobiomeAnalyst微生物組分析師——統計、視覺化和元分析微生物組資料的網頁工具

文章目錄


image

微生物組分析師:統計、可視和元分析微生物組資料的網頁工具

MicrobiomeAnalyst – comprehensive statistical, visual and meta-analysis of microbiome data

第一作者:Achal Dhariwal

通訊作者:夏建國 Jianguo Xia

主要單位:加拿大魁北克,麥吉爾大學,動物科學系,寄生蟲研究所,微生物與免疫系,微生物組與疾病耐受中心

能掛三個及三個以上單位的都是大佬

文章從投稿,到接受,只用了一個月。

其它作者:Jasmine Chong2, Salam Habib3, Irah L. King4,5, Luis B. Agellon3 and

關於此網頁工具的使用,請閱讀

本文旨在對原文解讀,幫助大家理解平臺的優缺點,同時學習自己搭建分析平臺應該注意的地方,對下一階段分析平臺開發展望的提出建設性意見。

巨集基因組相關分析工具:

同時本文也是一篇微生物組入門分析的超好綜述,不同層次人群會有不同收穫,推薦同行必讀。

導讀

微生物組研究重點從上游標準化定量和組裝,轉移至下游資料個體化的挖掘和比較階段,但相關工具甚少;

微生物組分析師(MicrobiomeAnalyst)是一款使用者介面友好,整合了最新統計和視覺化方法的免費分析雲平臺;

可提供擴增子、巨集基因組和巨集轉錄組丰度矩陣對應的下游資料分析、功能組成和代謝網路視覺化;

例如基於OTU表、物種註釋和分組資訊,可實現Alpha、Beta多樣性、物種組成、組間差異比較、機器學習等20餘種常用分析和繪圖;

同時結合文獻挖掘和公共資料建立了物種富含分析方法;

可一鍵下載分析報告,助力生物學家輕鬆開展巨集組學資料探勘和探索。

本文全文推薦閱讀,不僅是整體微生物組分析方法系統的比較和總結,也是對文章寫方法部分最好的參考資料。

摘要

廣泛的新一代測序技術,在揭示微生物群體和基因組成上的巨大優勢,帶來了微生物組研究的革命。如何去分析龐大複雜的資料集,對當前微生物組研究充滿挑戰。過去的十幾年裡,強大的計算流程,和穩健的工具已經可以有效的處理原始序列和註釋。目前重點已經轉換至下游統計分析和功能解析。

因此,我們開發了微生物組分析師(MicrobiomeAnalyst),一款使用者介面友好的工具,整合了最進的統計和視覺化技術,並結合廣泛的分析微生物組的輸出資料。它包括四個模組:Marker Data Profiling模組可以完成各種群體組成分析,基於16S的比較分析和功能預測;Shotgun Data Profiling模組支援巨集基因組、巨集轉錄組資料探索資料分析、功能組成和代謝網路視覺化;Taxon Set Enrichment Analysis模組通過文獻和公共資料中物種集,來分析富集物種;Projection with Public Data允許使用者視覺化探索公共資料庫,去發現生物學特徵。

網址:http://www.microbiomeanalyst.ca

背景

本領域目前三個最常用的測序策略,即擴增子(如16S)分析標記基因獲得物種組成、巨集基因組研究功能潛能和巨集轉錄組鑑定活性表達基因;這些研究產生大資料結果,對下游分析具有挑戰性。

早期的分析關注原始資料處理,聚類和註釋,開發了很多強大的工具,如MEGAN, MG-RAST, mothur and QIIME(1–4)。這些軟體可產生BIOM格式的特徵(包括OTU、物種分類和基因)在各樣品丰度資訊,註釋和元資料(如分組資訊)。最近開發的BIOM格式開發儲存這些型別的資訊,幫助現有生信工具分析和進一步元分析(5)。對大多數研究人員,資料分析的主要挑戰是在不同實驗因子或研究條件下,丰度表或BIOM檔案在上下文中有合理的意義。

微生物組資料分析分為四大類:1. 物種組成taxonomic profiling - 群體組成特徵,基於生態的方法有Alpha多樣性(樣本內多樣性),Beta多樣性(樣本間多樣性);2. 功能組成functional profiling - 分配基因為不同的功能組(如代謝通路或生物過程),以理解功能潛能;3. 比較分析comparative analysis - 鑑定不同條件間差異特徵;4. 元分析 - 整合現有資料與公共資料,或積累的知識,改進統計功效或生物學理解。前兩類目前很成熟,後兩類仍充滿挑戰,成為研究努力的主要方向。

微生物組資料呈現幾大挑戰:鬆散,包括許多零;樣品間測序深度差異大;分佈變異較大,離散。這些特徵使組學中其它分析方法不太適合微生物組資料。因此,無參的置換類方法經常用於微生物組資料中顯著特徵的鑑定。儘管此類方法穩健,但缺少統計功效,不支援新增混雜因子等複雜實驗。處理不均勻的測序深度,主要兩種方法:重新標準化序列為一個恆量,即比例proportions;或重取樣各樣本為相等數量,即抽樣rarefying。前者會出現組成型資料的問題,而後者會損失一些重要的資訊。一般來說,最好的方法是開發適合鬆散資料結構和不同測序深度的統計模型,或者開發合適的資料轉換方法,使現用資料適合其它演算法的資料分佈模型。近年來在這些方面有一些重大進展。例如,metagenomeSeq演算法整合了累計求合標準化(cumulative-sum scaling, CSS)方法,統計模型為高斯零膨脹(zeroinflated
Gaussian, ZIG)分佈,進改善微生物組資料差異丰度分析中的統計功效。有研究表明,在合適的資料標準化下,為RNA-Seq開發的edgeR、DESeq2演算法會比專門為微生物組資料開發的方法表現更好。對於組成型資料,提出了不同的資料轉換方法,如中心對數比(centered log-ratio, CLR)轉換。

近期的主要方法都採用R包釋出。phyloseq是一個平臺,方便使用者探索微生物組資料不同統計方法。儘管R語言靈活、易學且強大,但對於臨床醫生、溼實驗人員還是有一定的門檻。這就急需更方便的工具給大家使用。而且隨著研究結果和知識的積累,可以開展不僅侷限於單個專案的元分析;如將新樣本置於公共資料中、對現在佇列增加樣本提高統計功效、與己知研究比較差異。

微生物組分析師,基於網頁開發的程式,允許臨床和科學家輕鬆進行資料分析,包括如下特徵:

  • 支援多種主流物種多樣性、功能組成視覺化和統計檢驗;
  • 廣泛支援各種過濾和資料轉換方法用於差異丰度分析;
  • 對功能組成代謝網路視覺化;
  • 可結合公共資料進行元分析,並3D展示;

網站也包括大量的文件,教程幫助研究人員學習差異分析

。網址:http://www.microbiomeanalyst.ca

專案描述和方法

包括四個模組:擴增子分析MDP、巨集基因組分析SDP、物種富集分析TSEA和公開專案資料PPD。建議使用者按教程,使用測試資料熟悉分析流程,再使用自己的資料開展分析。

圖1. 平臺流程圖

image

MicrobiomeAnalyst支援物種和基因列表,OTU或基因丰度表,或BIOM檔案。三個連續的過程:資料處理、資料分析和結果探索。相關網頁提供豐富的選項,產生各種表格和圖形,允許使用者自發的探索資料分析。

資料上傳和處理

輸入資料

MDP和PPD分析16S擴增子。使用者需要提供OTU表、樣本分組資訊,採用製表符或分號分隔。也接受BIOM格式。SDP模組需要提供KEGG、EC或COG的ID。

資料過濾

基於技術、統計和生物學的考慮,預設全零和只出現1次的將會剔除(個人建議差異比較時總量小於個位數的都可以去除)。特殊情況下,特徵在一些樣本中低頻次出現不能確定是否為測序錯誤,統計上也很難解釋它們的重要性。最小的乾淨資料儲存用於alpha多樣性分析,用於理解單個樣本的多樣性。對於其它的分析,進一步的過濾是必須的。預設的特徵進一步按丰度水平、樣本中出現頻率進行過濾。使用者也可以按均值、或中位數進一步過濾OTU(建議更可結合實驗設計按組篩選OTU的丰度均值和中位數篩選)。如果主要的目地是差異分析,變異IQR、標準變異、或變異係數較低的特徵可以排除在分析之外。這些特徵在比較分析時不太可能顯著。過濾這些無資訊的特徵,可以有效緩解資料鬆散的問題,在下游分析中減少多重檢驗,提高統計功效。

資料標準化

資料過濾後,資料標準化可以使比較更有意義。本系統提供多種標準化方法,標準化、轉換和抽樣,由phyloseq實現。標準化的資料進行beta多樣性和聚類分析。LEfSe分析對標準化方法沒有要求。其它比較分析對自己的標準化分析方法有特殊要求。如metagenome-Seq要求CSS標準化,edgeR要求M值的修剪均值(trimmed mean of M-values, TMM),當然也允許使用者進行重取樣至相同資料量(rarefying,抽平)。最近的研究表明,如果樣本大小差異較大,如10倍,抽平是必要的。抽平曲線分析允許使用者視覺化觀察測試深度與OTU資料的關係。

群體組成

物種組成多樣性

群體組成主要採用R的phyloseq和vegan包。分析可以在不同分類級進行。alpha多樣性功能目前支援6種多樣性指數。樣本的結果可用箱線圖展示(圖2A)。組間的統計顯著性,使用者可選有參、無參方法計算。使用者也可以採用堆疊面積圖或堆疊柱狀圖展示不同分類級別。Beta多樣性支援5種常用距離。結果可採用2D或3D方式展示PCoA或NMDS結果,並預設採用PERMANOVA統計。為輔助鑑定生物學意義,可按元資料metadata分組或樣本屬性、alpha指數和特徵的丰度著色。此方法可以觀察到分組、梯度變化等樣式。

預測代謝潛能和組成

基於16S與己知基因組微生物的進化距離和序列相似來估計代謝潛能。PICRUSt採用Greengenes註釋資料,Tax4Fun採用SILVA資料庫註釋資料。結果包括KO相對丰度。來自16S預測、巨集基因組或巨集轉錄組的KO(通路、模組和EC分類)或COG組成可用於功能分析。一個KO或COG可能歸為多個功能組,本軟體提供多種方式處理些問題,如簡單加和、標準化加和,或權重加和。結果可用堆疊柱狀圖展示,並結合不同條件。對應的丰度表可下載。

比較分析

差異丰度分析

本部分方便使用者鑑定差異丰度的特徵。標記基因可根據其分類學分析高級別的分類。高階分類合併可以降低資料鬆散,但也會將很多OTU歸類為末分類,影響生物學解釋。本系統支援有參、無參分析,如metagenomeSeq, edgeR和DESeq2。結果為一個數值表,可檢視細節的箱線圖。不同統計方法的P值差別很大,建議多看幾種方法和視覺化特徵觀察資料分佈。預設系統顯示最多500個差異最顯著(P值越小)的特徵。顯示差異的行自動橙色高亮。方便關注重點,防止丟失重要資訊。巨集基因組資料,顯著的KO也被對映至代謝網路,可用於富集分析和視覺化。

生物標記鑑定和分類

此部分提供了兩種成熟的分析方法LEfSe和隨機森林。LEfSe是專門針對微生物 組資料開發的,用於鑑定穩定的生物學相關的標誌物。隨機森林是一種無參的機器學習演算法,在微生物組資料分析和分類中表現良好。LEfSe採用KW秩和檢驗檢測不同組間丰度顯著差異的特徵,然後採用線性分歧分析估計這些顯著差異的效應量。使用者可以使用結合顯著性P和效應量的組合值來篩選顯著的特徵。隨機森林演算法採用組合的分類樹,基於主要的投票結果進行分類和預測。當建立起了森林,可以用分類錯誤率進行無偏的估計。此外,演算法也可以基於置換檢驗來獲得每個特徵在分類上的重要性(錯誤率的增長)。網站可以產生圖形結果來展示不同數量下分類表現。

其它特徵

本平臺提供其它的方法視覺化差異比較和聚類分析。使用者可以用堆疊柱狀圖,或面積圖展示各組各級別的丰度。互動的餅形圖,可以展示物種組成,並選擇組。使用者可以選擇感興趣的分類,並進一步探索其更低階的分類。也當然支援層級聚類和熱圖。圖2F、G展示樣本聚類和熱圖。所有的圖片輸出,可以下載PDF或SVG檔案用於發表。

圖2. MicrobiomeAnalyst輸出結果展示

image

A. 箱線圖展示不同組間的夏農指數;B. 堆疊柱狀圖展示門水平物種;C. PCoA圖展示樣本顏色;D. 按科Bacteroidaceae水平丰度著色;E. 隨機森林分類結果展示;F. 樹狀圖展示樣本聚類,樣本名按飲食和性別著色;G. 物種丰度的聚類熱圖;H. TSEA互動網路;I. 3D PCoA圖;J. 全域性代謝網路視覺化功能富集結果

物種集富集分析(TSEA)

物種資料收集

採用文字挖掘和人工校正的方法,在發表文章和資料集進行整理。來自GOLD基因組資料庫和PATRIC的150株,主要按表型進行組織。在60篇文獻中整理了174個物種,按宿主的生理、疾病狀態和生活樣式分類。最終從MicroPattern網站獲得40個更高級別的物種分類。這些物種集進行手動註釋,以改進名稱的可讀性,並連結至原始的資料庫和發表文獻。

富集分析和解析

分析的目標是發現特異的物種在己發表結果資料中是否顯著富集。差異分析在聚類中也顯示為同樣的結果。富集分析採用超幾何檢驗。結果採用互動網路呈現(圖2H),並提供相關詳細結果。高級別的富集網路提供全域性檢視物種重要性和關係的可能。每個結點用P值著色,大小為可比對的結果數量。連線為大於20%的資訊支援。使用者可隨意修改點的佈局。雙擊結點顯示成員,並用紅色高亮。

表1. 比較微生物組分析網站

image

工具 Microbiome-Analyst METAGEN-assist EBI-Metagenomics MG-RAST VAMPS
註冊
輸入 Count表,BIOM,mother輸出 Count表,BIOM,4種工具輸出 序列 序列 序列
過濾 丰度,變異,手動 丰度,變異 - 丰度 丰度
標準化 標準化、變換、抽樣 標準化、變換 - 標準化、變換 標準化
物種Alpha/Beta多樣性 多種PCoA、NMDS(2/3D) PCA, PLS-DA PCA 夏農,PCoA 多種PCoA、NMDS(2D)
功能預測 PICRUSt & Tax4Fun - - - -
功能註釋 COG、KEGG - GO SEED, KEGG COG, eggNOG -
通路視覺化 Yes (JavaScript) Yes (SVG) -
差異分析 Univariate methods,DESeq2, edgeR,metagenomeSeq Univariate methods -
生物標記挖掘和分類 LEfSe, Random, Forests SVM, Random Forests
物種富集分析 105株、174種和42個其它
整合公共資料 3D PCoA

共公資料計劃PPD

此模組允許使用者整合公共資料來視覺化自己的資料。這種比較可以增加不同的發育階段或群體數量以進一步挖掘資訊。公共資料集來自QIITA的人、小鼠和牛資料。樣本的測序平臺、引物區域和相關文章方便讀者選擇合適的資料。為方便獲得有意義的比較,軟體要求使用者和公共資料間至少20%共有OTU才可以進行比較。

結果採用3D PCoA視覺化,結果顏色同實驗因素,結點形狀代表不同資料集。使用者可以旋轉、縮放和點選檢視樣本的物種組成。檢視歷史顯示在右邊。比較不同結點的組成,使用者可以很容易的鑑定核心物種。不像Alpha和Beta多樣性只受高丰度各樣本間共有物種影響。由最近的大規模測試表明,標準化對聚類結果影響不大。因此該方法應用於計算PCoA中高丰度的20%以便節約時間。使用者可以選擇探索完整的資料集。

代謝網路視覺化

巨集基因組資料可以進行富集分析和視覺化代謝網路。此框架開發基於KEGG資料庫的KEGGscape,並結合人工修正。截圖見圖2J。主要包括三部分:中心網路視覺化區域,頂部工具欄和右側通路表。網路顯示在中心區域,結點和邊代表代謝物和酶反應。在一些地方,反應被使用多次用於減少簇。一個KO編碼的酶可能被分配至多個邊。雙擊邊會顯示KO資訊。滑鼠滾輪可以縮放網路。頂部工具換背景色、樣本、高亮、圖片下載等。左側顯示的通路模組按P值排序。單擊可以高亮選擇KO,線的粗細代表其丰度水平。

使用例項

為了更好演示本軟體的有效性,我們使用此平臺分析一套小鼠腸道資料。分為低脂(LFD)和高脂(WSD)飲食組。10周後收集糞便和盲腸內容物,DNA 16S測序。原始資料處理使用MG-RAST,獲得BIOM結果上傳至MDP模組分析。首先比較糞便和盲腸內容物。盲腸比糞便有更高的多樣性(圖2A);結果高脂飲食多樣性明顯減少。使用糞便分析顯示,高脂飲食的擬桿菌門下降,厚壁菌和變形菌門上升(圖2B)。此外,PCoA圖顯示兩類飲食群落結構顯著不同(圖2C/D, P < 0.01),其中擬桿菌的丰度變化與飲食分開顯著相關。隨機森林也可以較好分開兩類飲食(圖2E)。從聚類角度觀察性別影響,發現飲食是主要差異(圖2F)。當比較高脂對低脂飲食時,性別中也有特異豐富的類群(圖2G)。在不同級別和OTU進行edgeR / DESeq2差異丰度分析。結果表明兩種方法一致性較好。

設計與實施

MicrobiomeAnalyst基於Java、R和JavaScript。R包phyloseq用於資料格式化、統計分析和視覺化,和進一步優化計算效率和視覺化效果。Java伺服器介面(JSF)搭建的高效能網頁框架。系統佈置於Google雲伺服器,32G記憶體,8核2.6G CPU。可處理100個使用者的日常分析。對主流瀏覽器均支援。

與其它工具的比較

現有許多傑出的網頁分析工具(見表末)。一些工具是開發為了原始資料處理、註釋和儲存,只對高階統計和視覺化非常有限的支援。本工具是對資料儲存和分析工具的補充,重點是統計和視覺化丰度表或BIOM格式輸出結果。STAMP和Shiny-phyloseq是本地圖形介面分析的兩種選擇。在表1中列出了與現有網頁工具的比較,本平臺提供了獨特的統計和視覺化、代謝網路視覺化與分析、物種富集分析和整合分析。

侷限性和未來的發展方向

MDP和SDP模組分析人類和環境微生物組資料。TSEA和PPD模組開發基於人和小鼠的研究,不適合環境樣本分析。本系統不支援相關,或關聯分析;本領域相關分析不同方法結果差異較大,可能誤導經驗不足的使用者。大多數些類方法需要大樣本量,需要計算資源密集,並不適合實時互動網頁分析。當前為元分析提供公共資料和富集分析功能。我們將來提供可多可能的元分析。

結論

作為生物醫學研究前沿,當前的資料分析主要研究自然樣本。儘管近年來開發了很多統計演算法,但研究表明沒有一種方法是通用的因此在微生物組研究中探索資料在實時互動的平臺上使用多種演算法是必須的,幫助我們理解資料和產生假設。它實現了多樣性分析、比較分析、代謝網路視覺化探索**。提供了新穎的與公共資料比較功能**。是對當前微生物研究填補了空白。微生物組資料是複雜和動態的,末來將結合宿主及多組學從整體上進一步認識規律。本平臺將來的趨勢是關注主流趨勢,如整合代謝組資料和系統生物學。

還可進一步開發的功能

  • 可供遊客非註冊使用者使用很方便,但需要iTOL類似帳號儲存分析檔案多次檢視
  • 結果程式碼共享方便發表和進一步修改和共享
  • 機器學習時間序列迴歸及視覺化
  • 機器學習分類及視覺化
  • 網格按物種或模組兩著著色方案與網路比較

Reference

  1. Huson,D.H., Auch,A.F., Qi,J. and Schuster,S.C. (2007) MEGAN analysis of metagenomic data. Genome Res., 17, 377–386.
  2. Meyer,F., Paarmann,D., D’Souza,M., Olson,R., Glass,E.M., Kubal,M., Paczian,T., Rodriguez,A., Stevens,R., Wilke,A. et al. (2008) The metagenomics RAST server––a public resource for the automatic phylogenetic and functional analysis of metagenomes. BMC Bioinformatics, 9, 386.
  3. Schloss,P.D., Westcott,S.L., Ryabin,T., Hall,J.R., Hartmann,M., Hollister,E.B., Lesniewski,R.A., Oakley,B.B., Parks,D.H.,Robinson,C.J. et al. (2009) Introducing mothur: open-source, platform-independent, community-supported software for describing and comparing microbial communities. Appl. Environ. Microbiol., 75, 7537–7541.
  4. Caporaso,J.G., Kuczynski,J., Stombaugh,J., Bittinger,K., Bushman,F.D., Costello,E.K., Fierer,N., Pena,A.G., Goodrich,J.K., Gordon,J.I. et al. (2010) QIIME allows analysis of high-throughput community sequencing data. Nat. Methods, 7, 335–336
  5. McDonald,D., Clemente,J.C., Kuczynski,J., Rideout,J.R., Stombaugh,J., Wendel,D., Wilke,A., Huse,S., Hufnagle,J., Meyer,F. et al. (2012) The Biological Observation Matrix (BIOM) format or: how I learned to stop worrying and love the ome-ome. Gigascience, 1, 7.
  6. Dhariwal, A., Chong, J., Habib, S., King, I., Agellon, LB., and Xia. J. (2017) “MicrobiomeAnalyst - a web-based tool for comprehensive statistical, visual and meta-analysis of microbiome data” Nucleic Acids Research 45 W180-188 (doi: 10.1093/nar/gkx295)
  7. Wilke,A., Bischof,J., Gerlach,W., Glass,E., Harrison,T., Keegan,K.P.,Paczian,T., Trimble,W.L., Bagchi,S., Grama,A. et al. (2016) The MG-RAST metagenomics database and portal in 2015. Nucleic Acids Res., 44, D590–D594
  8. Huse,S.M., Mark Welch,D.B., Voorhis,A., Shipunova,A.,Morrison,H.G., Eren,A.M. and Sogin,M.L. (2014) VAMPS: a website for visualization and analysis of microbial population structures. BMC Bioinformatics, 15, 41.
  9. Mitchell,A., Bucchini,F., Cochrane,G., Denise,H., ten Hoopen,P., Fraser,M., Pesseat,S., Potter,S., Scheremetjew,M., Sterk,P. et al. (2016) EBI metagenomics in 2016–an expanding and evolving resource for the analysis and archiving of metagenomic data. Nucleic Acids Res., 44, D595–D603.
  10. Chen,I.A., Markowitz,V.M., Chu,K., Palaniappan,K., Szeto,E., Pillay,M., Ratner,A., Huang,J., Andersen,E., Huntemann,M. et al. (2017) IMG/M: integrated genome and metagenome comparative data analysis system. Nucleic Acids Res., 45, D507–D516.
  11. Arndt,D., Xia,J., Liu,Y., Zhou,Y., Guo,A.C., Cruz,J.A., Sinelnikov,I., Budwill,K., Nesbo,C.L. and Wishart,D.S. (2012) METAGENassist: a comprehensive web server for comparative metagenomics. Nucleic Acids Res., 40, W88–W95.
  12. Parks,D.H., Tyson,G.W., Hugenholtz,P. and Beiko,R.G. (2014) STAMP: statistical analysis of taxonomic and functional profiles. Bioinformatics, 30, 3123–3124.
  13. McMurdie,P.J. and Holmes,S. (2015) Shiny-phyloseq: Web application for interactive microbiome analysis with provenance tracking. Bioinformatics, 31, 282–283.
  14. https://academic.oup.com/nar/article/45/W1/W180/3760191 文章主頁旁邊還會推薦相關文章

猜你喜歡

寫在後面

為鼓勵讀者交流、快速解決科研困難,我們建立了“巨集基因組”專業討論群,目前己有國內外2400+ 一線科研人員加入。參與討論,獲得專業解答,歡迎分享此文至朋友圈,並掃碼加主編好友帶你入群,務必備註“姓名-單位-研究方向-職稱/年級”。技術問題尋求幫助,首先閱讀《如何優雅的提問》學習解決問題思路,仍末解決群內討論,問題不私聊,幫助同行。
image

學習擴增子、巨集基因組科研思路和分析實戰,關注“巨集基因組”
image

image

點選閱讀原文,跳轉最新文章目錄閱讀
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA