1. 程式人生 > >【轉】MEGA構建系統進化樹的步驟(以MEGA7為例)

【轉】MEGA構建系統進化樹的步驟(以MEGA7為例)

本文是看中國慕課山東大學生物資訊學課程總結出來的
分子進化的研究物件是核酸和蛋白質序列。研究某個基因的進化,是用它的DNA序列,還是翻譯後的蛋白質序列呢?序列的選取要遵循以下原則:1)如果DNA序列的兩兩間的一致度≥70%,選用DNA序列。因為,如果DNA序列都如此相似,它的蛋白質會相似到看不出區別,這對構建系統發生樹是不利的。所以這種情況下應該選用DNA序列,而不選蛋白質序列。2)如果DNA序列的兩兩間的一致度≤70%,DNA序列和蛋白質序列都可以選用。

  1. 將要用於構建系統進化樹的所有序列合併到同一個fasta格式檔案,注意:所有序列的方向都要保持一致 ( 5’-3’)。 想要做系統發生樹先要做多序列比對,然後把多序列比對的結果提交給建樹軟體進行建樹,所以在用MEGA建樹時可以輸入一個已經比對好的多序列比對,也可以輸入一條原始序列,讓MEGA先來做多序列比對,再建樹(一般我們都是原始序列)。所以我們以後者為例。
  2. 開啟MEGA軟體,選擇主視窗的”File” → “Open A File”→找到並開啟fasta檔案,這時會詢問以何種方式開啟,我們是原始序列,需要先進行多序列比對,所以選擇“Align”。如果是比對好的多序列比對可以直接選擇“Analyze”。
  3. 在開啟的Alignment Explorer視窗中選擇”Alignment”“Align by -ClustalW” 進行多序列比對(MEGA提供了ClustalW和Muscle兩種多序列比對方法,這裡選擇熟悉的ClustalW),彈出視窗詢問“Nothing selected for alignment,Select all?”選擇“OK”。
  4. 之後,彈出多序列比對引數設定視窗。這個視窗和EMBL線上多序列比對一樣,可以設定替換記分矩陣、不同的空位罰分(罰分填寫的是正數,計算時按負數計算)等引數。MEGA的所有預設引數都是經過反覆考量設定的,這保證了MEGA傻瓜機全自動檔的品質,所以當你無從下手,或者沒有什麼特別要求的時候,直接點選“OK”,接受這些預設引數,開始多序列比對。
    瞭解兩個引數:
    ① 替換記分矩陣,替換記分矩陣是反映殘基之間相互替換率的矩陣,也就是說,它描述了殘基兩兩相似的量化關係。DNA 序列有 DNA 序列的替換記分矩陣,蛋白質序列有蛋白質序列的替換記分矩陣,兩者不可混用。
    DNA 序列的替換記分矩陣主要有三種:1)等價矩陣。相同核苷酸得分為 1,不同核苷酸間的替換得分為 0。由於不含鹼基的理化資訊和不區別對待不同的替換,一般只用於理論計算。 2)轉換-顛換矩陣。轉換:DNA分子中的嘌呤被嘌呤或嘧啶被嘧啶替換。顛換:DNA分子中的嘌呤被嘧啶或嘧啶被嘌呤替換。在進化過程中,轉換髮生的頻率遠比顛換高。為了反映這一情況,轉換-顛換矩陣中,轉換的得分比顛換要高為-1 分,而顛換的得分為-5 分。 3)BLAST 矩陣。經過大量實際比對發現,如果令被比對的兩個核苷酸相同時得分為+5 分,不相同為-4 分,這時比對效果最好。這個矩陣廣泛地被 DNA 序列比較所採用。沒有為什麼,就是好,實踐經驗所得。因為這個矩陣最早應用於 BLAST 工具,因此得名 BLAST 矩陣。
    蛋白質的替換記分矩陣要比核酸的複雜一些: 1)等價矩陣。相同得 1 分,不同得 0 分。 2)PAM矩陣。基礎的 PAM-1矩陣反應的是進化產生的每一百個氨基酸平均發生一個突變的量值,是基於相似度>85%的序列產由統計方法計算得到的。由PAM-1 自乘 n 次可以外推得到 PAM-n ,表示發生了更多次突變。如果序列親緣關係遠,也就是說序列間會有很多突變,那就選 PAM 後面跟一個大數字的矩陣;如果親緣關係近,也就是突變比較少,序列間大多數地方都是一樣的,那就選 PAM 後面跟一個小數字的矩陣。3)BLOSUM矩陣。後面也有一個編號,是通過對大量符合特定要求的序列計算而來的。比如BLOSUM62是指這個矩陣是由一致度≥62%的序列計算得到的。如果序列親緣關係遠,序列相似度低,那就選BLOSUM 後面跟一個小數字的矩陣;如果序列親緣關係近,序列相似度高,那就選BLOSUM 後面跟一個大數字的矩陣。總結,親緣關係較近的序列之間的比較,用 PAM 數小的矩陣或BLOSUM 數大的矩陣;而親緣關係較遠的序列之間的比較,用 PAM 數大的矩陣或 BLOSUM數小的矩陣。對於關係較遠的序列之間的比較,由於 PAM250 是通過矩陣自乘推算而來的,所以其準確度受到一定限制。相比之下BLOSUM 矩陣更具優勢。對於關係較近的序列之間的比較,用 PAM 或 BLOSUM 矩陣做出的比對結果,差別不大。如果關於要比較的序列不知道親緣關係遠近,那麼就閉著眼睛用BLOSUM62 吧!如果你記
    不住或者聽不懂上面講的種種,那就記住 BLOSUM62 這個名字,也可以走遍天下全不怕!
    圖1:氨基酸差異與矩陣編號對照
    圖2: 序列親緣關係遠近與矩陣的選擇 ② 空位罰分包括兩種: gap 開頭(gap open)和gap延長(gap
    extend)。預設gap開頭罰分高,gap延長罰分低,這樣得出的結果gap很集中,有很多長串出現的gap,這可以比對兩條很相似的序列–同源序列;相反,如果gap開頭罰分少,gap延長罰分高,比對結果gap就比較分散,極少出現連續長串的gap(可以想象其中的原因,總是要保證得分高),這可以比對兩條絕大部分序列都很相似,但其中一條的一個功能區在另一條序列中是缺失的兩條序列,可以找出這個功能區。
  5. 比對過程是先進行雙序列比對,在進行多序列比對,最後會出現一個多序列比對結果。將之作為中間結果儲存下來。在Alignment Explorer視窗中選擇“Data”→“Export Alignment”→“MEGA Format”。這裡一定選擇MEGA format以方便MEGA後續分析(其他格式適用於其他軟體的分析),MEGA自動賦予“.meg”字尾名,儲存後,
    彈出視窗,“為這組資料命名”,自己看得懂知道就可以,我這裡命名為“il1r2 alignment”。
  6. 生成的“.meg”檔案可以雙擊直接匯入MEGA。也可以將其拖入MEGA主視窗中。拖入後主視窗增加了一個“TA”按鈕,點選彈出新視窗“Sequence Data Explorer”,其是多序列比對結果。再點選“Sequence Data Explorer”上的“TA”按鈕,點選後多序列最上面增加了一行,這一行是根據多序列比對結果分析得出的共有序列(consensus sequence),也就是一列裡出現次數最多的字母。多序列比對中每一列裡的字母如果和共有序列相同則打點,不同則標出不同的字母,空位還是空位。
    如果還想進一步瞭解序列的保守程度,可以點選“C”按鈕 ,以黃色標記保守序列;或者點選“V”按鈕 ,以黃色標記不保守序列。通過進一步的分析,可以淘汰掉一些序列,比如海選的的序列裡有一些不合群的序列,就可以把他們去掉,不讓他們參與建樹,以免影響建樹質量。
    此外,還可以對這些序列進行分組標記。點選分組按鈕,點選“加號”按鈕,更改組名,然後按住Ctrl鍵同時選中Ungrouped Taxa 列表中的要放入這個組的序列,選中後點擊“箭頭”按鈕,即可將序列放入分組。同理,可以建立其他分組。當序列數量較多時,人為分組,可以從樹上更加清晰的看出組內哪些成員叛逃了去了別的組。
    此外,輸入序列的名字較長,作為構建的系統發生樹上葉子的名字,會破壞樹的外觀也不利於資訊的解讀。因此,需要人為修改一下序列的名字。選中序列後點擊,把名字改為能區分彼此的關鍵詞,全部改好之後點選“save”按鈕,準備工作全部完成。
  7. 開始建樹。點選MEGA主視窗上的Phylogeny下拉選單,選擇Neighbor Joining(最近鄰居法)。彈出視窗詢問是否使用當前 .meg裡面的資料,選Yes。接下來,彈出引數設定視窗(Analysis Preferences)。引數設定對構建的系統發生樹的準確程度非常重要。在樹構建好之後,還經常需要根據樹的具體情況,重新設定引數,並重新建樹,如此反覆,紙質結果令人滿意為止。同樣的如果對引數設定摸不著頭腦,就接受預設設定,也能做出基本滿意的系統發生樹。 至少應該掌握其中三個引數的設定: ① Test of Phylogeny(建樹的檢驗方法),是用來檢驗建樹的質量的。預設的檢驗方法是Bootstrp method (步長檢驗)。步長檢驗需要設
    定檢驗次數,通常為100的倍數,預設設定為500。步長檢驗是根據所選擇的建樹方法,計算並繪製指定次數株系統發生樹。因為大多數建樹的方法的核心演算法都是統計概率模型,所以每次計算出來的樹都會有所差別。而劍豪的系統發生樹上每個節點上都會標有一個數字,它代表了指定次數次計算所得出的系統發生樹中有百分之多少的樹都含有這一節點。一般來講,絕大多數節點上的數值都大於70%的樹才可信。個別低於70%的節點可以暫且容忍,或通過新增、山間序列來改善質量。
    ② Substitution Model。是選擇計算遺傳距離時使用的計算模型。理論上應該嘗試各種模型,根據檢驗結果選擇最合適的模型計算。但在實際操作中,可先嚐試選用較簡單的距離模型,比如p-distance。 ③ Gap/Missing Data Treatment,大多數建樹方法會要求刪除多序列比對中含有空位較多的列。但是根據遺傳距離度量方法的不同,刪除原則也不同。如果是以序列間不同殘基的個數來度量遺傳距離的話,這裡需要選擇 Complete deletion(全部刪除)。如果是其他方 法,比如這裡選用的 NJ 方法,可以選擇 Partial deletion(部分刪除)。刪除程度定在 50%,即,保留一半含有空位的列。
  8. 按照以上方案引數設定後,點選“Compute”按鈕 ,開始構建系統發生樹。經過一番計算之後,新視窗 Tree Explorer 裡展示的就是建立好的系統發生樹。這個窗口裡有兩個標籤頁。第一個是 Original Tree(原始樹),第二個是 Bootstrap consensus tree(步長檢驗合併出來的樹)。Bootstrap consensus tree 上,節點處的數字表示,經步長檢驗有百分之幾的樹具有這根樹枝,即,反應了該樹枝的可信度。當前構建的這株系統發生樹中,絕大多數節點處的數值都是≥70 的話,這株樹整體上就是可信的 。
    Original Tree 是步長檢驗構建的 500 株樹中的一株,未經過多棵樹合併,所以樹枝的長短可以精確代表遺傳距離。此外,從這株樹也可以看出之前的人為分組情況是不是發生了意想不到的變化。比如,有的可能似乎脫離了分組,成為了外類群,從而確定了樹根。 樹構建好之後,外形也許還不太令人滿意。比如也許你想要將樹的外形改成圓形或三角型,可以通過 按鈕選擇。或者你想要調整樹枝的粗細或字型的大小,可以從 View 下拉選單下的 Option 選項卡中調整。調整好之後,就可以把這棵樹儲存成圖片了。儲存圖片可以點Image 下拉選單,選擇儲存格式。或者將視窗放大,再點按鈕將樹放大之後螢幕截圖。
    使用TreeExplorer視窗中提供的一些功能可以對生成的系統進化樹進行調整和美化。另外,還可以用Word進一步編輯MEGA構建的進化樹。
    至此,一株 NJ 樹就構建好了。

**一般說來,MEGA適用於對少量的序列進行比對和畫Tree,如需處理大量或海量的序列資料,建議使用ARB。 **