1. 程式人生 > >生物資訊之多序列比對,進化樹分析,保守位點分析

生物資訊之多序列比對,進化樹分析,保守位點分析

序列下載與整理

下載fasta格式序列

  • 輸入你想查詢的序列,比如Syp基因
    這裡寫圖片描述

  • 進入基因詳細資訊頁面
    這裡寫圖片描述

  • 點選Genbank
    這裡寫圖片描述

  • 如圖所示可以下載到fasta格式的序列,注意這裡下載的是基因或者蛋白質的全序列
    這裡寫圖片描述

  • 假如你希望得到promoter的基因,可以在如圖所示的位置輸入起始位點和終止位點

    • 一般promoter的位點不確定,可以通過將起始位點左右2kb基因視為promoter
    • 比如:如圖起始位點為7638580,那麼起始位點要減500,終止位點加1499,這時需要在from輸入7638080,to輸入7640079(得到長度為2kb的序列)
    • 點選Update view 按鈕
    • 然後和同上一步下載fasta序列
      這裡寫圖片描述

合併多個fasta檔案

  • 下載多個序列後,我們將下載的序列整理到特定資料夾下,比如D:\Download\fasta_files,就像這樣:
    mark
  • 你的fasta_files資料夾裡應該是這樣的
    這裡寫圖片描述
  • 返回D:\Download路徑下,在資料夾空白地方Shift+右鍵,點選在此處開啟命令視窗
    這裡寫圖片描述

  • 輸入

    type fasta_files\*.fasta > all_sequence.fasta

    mark

  • 現在,在你的資料夾下應該類似這樣的:
    mark
  • 得到整合檔案 all_sequence.fasta(這個檔案也可以通過記事本開啟,下面軟體為UE)
    這裡寫圖片描述

多序列比對

Clustalw,Clustalx 與 MEGA的下載安裝

序列比對

  • 開啟MEGA,進入序列比對分析
    這裡寫圖片描述

  • 載入fasta序列
    這裡寫圖片描述

  • 使用Clustalw 比對序列,引數預設點OK
    這裡寫圖片描述

  • 跑出來的結果需要編輯第一列只留下物種名,序列去掉5’,3’端的空序列(因為要比對序列同源性,最好把顯示 - 的序列去掉,使多序列的兩端整齊,類似矩陣)
    這裡寫圖片描述

  • 匯出fasta格式和MEGA格式兩種格式
    這裡寫圖片描述

  • 開啟Clustalx 載入剛剛比對完的fasta格式(注意是比對完的,檔案字尾名為.fas)
    這裡寫圖片描述

  • 匯出視覺化檔案,引數預設點OK
    這裡寫圖片描述

  • 得到視覺化的多序列比對結果,開啟類似這樣(開啟用到的軟體為Adobe Acrobat)
    這裡寫圖片描述

進化樹分析

  • 開啟MEGA,載入meg檔案
    這裡寫圖片描述

  • 引數設定(這裡是核酸序列)
    這裡寫圖片描述

  • 得到進化樹
    這裡寫圖片描述

這裡寫圖片描述

  • 匯出與美化
    這裡寫圖片描述

保守位點分析

  • 上傳fasta序列(這裡的序列是整合後的檔案,檔案字尾.fasta),並輸入引數(這裡設定motif為10)
    這裡寫圖片描述

  • 得到保守位點分析結果
    這裡寫圖片描述