1. 程式人生 > >10、在線blast比對結果解析

10、在線blast比對結果解析

pan sum efault gen 要求 hit query 用途 str

轉載:http://www.bio1000.com/experiment/fenzi/237846.html

標簽: NCBI Blast LASTP 摘要 : NCBI BLAST比對結果報告分析:BLAST是NCBI開發的一款序列相似搜索程,常用在線的BLAST比對工具進行序列比對分析和引物設計。

ncbi blast比對結果報告分析:BLAST是NCBI開發的一款序列相似搜索程,常用在線的BLAST比對工具進行序列比對分析和引物設計。

寫在解讀報告之前的,首先就使用Blast最終的目的是什麽達成一致,Blast是通過兩兩比對,找到數據庫中與輸入序列最相似的序列,或者說是最相似的序列片段。那麽我們看比對結果就是看Blast從數據庫中找到哪些相似的序列,然後就是如何相似,這些相似又可以告訴我們哪些信息等。當然Blast可以衍生出許多的用途,但都是建立在找到相似性序列(片段)的基礎上的。

本文以BLASTP為例子,詳細說明如何來解讀最新的BLAST結果報告。

示例

BLAST地址:

http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastp&BLAST_PROGRAMS=

blastp&page_TYPE=BlastSearch&SHOW_DEFAULTS=on&LINK_LOC=blasthome

比對用的例子:

>gi|16758036|ref|NP_445782.1| ribosomal protein L21 [Rattus norvegicus]

MTNTKGKRRGTRYMFSRPFRKHGVVPLATYMRIYKKGDIVDIKGMGTVQKGMPHKCYHGKTGRVYNVTQH

AVGIIVNKQVKGKILAKRINVRIEHIKHSKSRDSFLKRVKendQKKKEAKEKGTWVQLNGQPAPPREAHF

VRTNGKEPELLEPIPYEFMA

數據選擇:nr

比對時間:2009年9月9日12:46:23

解讀報告前需要掌握的概念

alignments 代表比對上的兩個序列

hits 表示兩個序列比對上的片段

Score 比對得分,如果序列匹配上得分不一樣,減分,分值越高,兩個序列相似性越高

E Value 值越小,越可信,相對的一個統計值。

Length 輸入序列的長度

Identities 一致性,就是兩個序列有多少是一樣的

Query 代表輸入序列

Subjct 代表數據庫中的序列

結果詳細說明

菜單與基本信息

技術分享

NCBI Blast結果-菜單與基本信息

1.下一步操作的菜單,你可以調整參數,重新比對、保存你的搜索條件以便下次比對、調整報告顯示的參數,以更符合你的要求、下載你比對的結果;

2.此次比對的標題,優先是你填寫的,如果沒有填寫可能是你輸入fasta序列頭(大於號後面的),如果這個也沒有找到,NCBI會自動生成一個;

3.你輸入序列的信息,包括標識號、描述信息、類型、長度;

4.數據庫的信息以及你選擇的Blast程序;

5.查看其他報告,比如摘要、分類、距離樹、結構、多重比對等。

Graphic Summary

技術分享

Graphic Summary

1.保守域,Blastp時,如果與保守域數據庫比對有結果時,方顯示;

2.Distribution of 100 Blast Hits on the Query Sequence,圖的說明,仔細研讀,是hits在輸入序列上的分布;

3.這裏是消息顯示框,當鼠標放在坐標下的橫線上,會顯示代表的hit的信息;

4.顏色比例尺,代表hit的得分(score)區間,可以簡單的理解為紅色的線表示有較好的比對結果;

5.輸入序列的坐標;

6.每一條線段代表一個hit,在線段上點擊,會鏈接到該hit詳細的比對信息部分。

深入理解:由於blast是區段比對,對於給定的兩個序列,blast會把具有相識性的片段(hit)找出來,顯示的是hit的信息,所以要判斷兩個序列的相似性,不但要看比對上的片段(hit)的得分,還要看hit覆蓋你輸入序列的範圍,正因為此,這部分圖形顯示部分就像整個報告的鳥瞰圖一樣,hit在你輸入序列上的分布。本例是一個較短的蛋白質序列,所以不具有代表性,試想如果輸入的是M級的核酸序列,你就知道意味著什麽了。這裏要記住僅僅高分的hit不能說明問題,還要關註hit在輸入序列中的位置。

Descriptions

技術分享

Descriptions

1.比對上序列的標識符,上面有到該序列詳細信息的鏈接;

2.序列的表述信息,可以知道這個序列功能、基因、物種等信息;

3.比對得分,由高向低排列,上面有到比對詳細信息的鏈接;

4.E value,由低向高排列;

5.該序列的其他鏈接,字母表示數據庫,比如U表示unigene、G表示Gene數據庫;

深入解讀:簡要的列表形式,便於閱讀都比對上了哪些序列,(如果你經驗豐富,從score的得分就大致可以判斷序列的相似性)序列的相似情況。

Alignments

技術分享

Alignments 比對詳細信息

1.比對上的序列信息;

2.比對的各種得分,這裏不做一一說明,這裏我最關註的是Identities,比對上(一致)的數字、一共有多少個,比對上所占的比例。

3.具體的比對序列顯示,一目了然,知道了哪些序列比對上了,哪些序列是不一樣的,這裏也要註意序列的位置關系;

5.復選框,可以選擇感興趣的比對序列,在⑥處進行相應的操作;

6.對選擇的序列進行操作,比如下載這些序列、畫系統發育樹、進行多重比對。

深入解讀:blast是以hit為單位顯示的結果,分段比對是其核心,所以對於每個hit所顯示的信息應當有個深入的理解。至於比對上的情況如何,不要迷信於那些數字,通過序列,你一眼就可以看出來。最後就是註意5、6的操作,可以給你帶來很大的便利。

溫馨提示:新手可以把Blast工具中的英文概念弄清楚,完全理解後才能事倍功半。此外,也可根據在blast中查找的目的不同做不同的操作,例如:可以把比對序列做多重比對

10、在線blast比對結果解析