1. 程式人生 > >擴增子圖表解讀1箱線圖:Alpha多樣性

擴增子圖表解讀1箱線圖:Alpha多樣性

nova 核心 變化 宏基 ova 中位數 ring sphere gen

箱線圖 箱形圖(Box-plot)又稱為盒須圖、盒式圖或箱線圖,是一種用作顯示一組數據分散情況資料的統計圖。因形狀如箱子而得名。在宏基因組領域,常用於展示樣品組中各樣品Alpha多樣性的分布 技術分享 第一種情況,最大或最小值沒有超過1.5倍箱體範圍 技術分享 第二種情況,最大或最小值超過1.5倍箱體範圍,外位延長線外,即異常值(outliers) Alpha多樣性 知識背景:Alpha多樣性計算方法 常見的豐度估計方法有Shannon, Chao1和Observed OTU和PD whole tree等。我最喜歡用Observed OTU結果為整數,但只有物種種類信息,沒有豐度信息,數值範圍一般為幾百至幾千不等,範圍很大,與研究對象有關;大家最常用的Shannon index 數值為1-10左右的小數,是綜合物種數量和豐度兩個層面的結果;Chao1是根據出現1/2次的OTU來估算總體;還有PD whole tree是考慮物種進化關系權重,認為分類學上非常上近的物種存在一定相關性;詳細計算方法見:Alpha diversity measures 示例1 http://www.pnas.org/content/112/8/E911.short 這篇文章分析了水稻根不同區域的細菌組成,16S分析文章較系統的作品,兩年被引用147次,推薦閱讀 技術分享
圖1.B 箱線圖展示樣品內的多樣性(Alpha diversity) - 圖中元素解釋
Y軸標簽Estimaated species Richness代表估計的物種豐富度信息,刻度範圍從0-2000可能代物OTU數量,高低對應物種豐富度即數量的高低;根據我的理解Y軸的刻度應為Observed OTU(即直接統計測序樣品中按97%聚類16S的種類,雖然作者説是Shannon);
X軸將標簽放在了上方(更常見位於下方),分別代表三個地區,作者采用按地區先分組,因為不同地區環境差異較大,一般先把主要差異因素分開;其次,這篇文章更關註的是水稻不同部分的微生物組,不是部分要在同一地點下進行比較才是單因素變化的分析;
右側圖例表示不同取樣位置:從上到下分為土(Bulk Soil)、根際(Rhizosphere)、根表(Rhizoplane)和根內(Endosphere)四類,對應圖中每個地區中箱體的不同顏色;
圖中顏色箱體代表該組數據中間50%的分布區間,中間線為中位數,上下延長線端點分兩種情況:如果範圍小於1.5倍箱體則為最大或最小值;否則最遠為1.5倍箱體長度的線。
圖表意義:從不同地區看,可以看到多樣性差別,代表土壤和環境條件可以影響微生物組;從取樣的不同部分看,發現多樣性差別極大,且不同地區有相同趨勢;
圖觀察規律或結論:從根際-根表-根內,細菌的多樣性逐漸下降的。不同地區的差別小於不同部分的差別。
示例2 Beckers, B., et al. (2017). Microbiome 5(1): 25. 這篇文章分析了白楊樹不同區域的細菌組成和差異,16S分析中非常中規中矩,而且沒有任何後續實驗,但在今年還能發這麽好的雜誌,大家可以分析一下原因 技術分享 圖2. 箱線圖展示細菌群體的Alpha多樣性。四個箱體分別代表根際土(Rhizosphere soil)、根內生菌(Root endosphere)、莖內生菌(Stem endosphere)、葉內生菌(Leaf endosphere)。 - (A) 采用Observed OTUs方法估計OTU豐富度(richess),即有多少物種; - (B) 采用Pielou方法估算OTU的均勻度(evenness),即各OTU相對豐度間關系;是一種常見enenness指數算法,計算方法是將Shannon-Wiener熵除以OTU數量的自然對數;一般生態學領域比較關註,功能研究者更關註最終的差異OTU; - (C) 使用反向Simpson指數計算多樣性(diversity),是mothor中的方法,來自dominance指數的變形,而dominance計算為每個OTU比例平方再求合,與shannon的方法類似,原理是想用一個數代表整體群體中每個OTU的數量和豐度信息(richness和evenness),我更常用Shannon方法; - 差異分析:整體上使用ANOVA統計,存在顯著差異,P<0.0001;圖中字母代表組間組間Turkey兩兩比較的結果,相同字母的箱體代表組間無顯著差異,而不同字母組間存在顯著差異;有時會出現同一組出現2個字母的情況,是一種過渡狀態,與這兩個組均無顯著差異。 - 圖片優點:(A) Observed OTU數量展示使用了截斷圖,因為根際土中微生物數量是非常大的,而內生菌種類很少,使用截斷圖減少圖中留白更加美觀;不同種組織的顏色選用與實物相近,使人產生親切感(根深棕,莖淺綠和葉深綠); - 圖片解讀:根際土中細菌近千種;根中內生只有2-3百種(也有可能根沒洗幹凈,技術上不容易區分根表還是根內);莖和葉百種左右(其中部分也可能只是來自於表面或汙染);此外結果的排列給人傳達了由外到內,由上到下有特種數量下降的趨勢; 知識背景:主流的分析流程 1、PNAS作者使用QIIME分析流程;2010發表在Nature Method上,被引7689次,是目前比較主流的分析方法,而且持續的維護和創新,目前正在開發QIIME2 2、Microbiome作者的分析流程為mothur,2009年發表目前被近7000次; 3、另外主流的的軟件是Usearch,2010年發表在Bioinformatics,目前引用4947次;原來只是一個小小的高速序列聚類和比對軟件,目前被作者開發成了擴增子分析流程,其中的關於序列聚類的算法UPARSE由作者單槍匹馬發表在Nature method上,被引1424次;其實QIIME的聚類和比對默認都是使用此軟件,核心算法是目前的主流;推薦使用。
優點:作者一直在更新;體積小巧;安裝方便,依賴關系極少(安裝過QIIME的應該都想哭);
缺點:64位版收費(這麽好的軟件,收費也值得買);部分功能還需使用QIIME腳本,估計將來可以全自己搞定,因為作者太強大

擴增子圖表解讀1箱線圖:Alpha多樣性