1. 程式人生 > >【annotation】非人類物種基因組註釋(MSU為例)

【annotation】非人類物種基因組註釋(MSU為例)

基因 組成 相關 進行 nts 別人 ria dir cti

基因組註釋工具ANNOVAR是一款非常好用的註釋軟件,功能強大,輸出數據簡單美中不足就是對於非人類物種來說UI不夠完善,因此總結一下整個註釋的過程,幫助別人快樂自己。

首先我們需要明確我們需要的數據和軟件:

數據包括:

all.gff3 #MSU的v7.0版本組裝的註釋文件
all.con #基因組序列

這樣就是所有的輸入文件了,現在我們列舉一下需要用到的軟件:

gffread  #gff3 to gtf
gtfToGenePred  #gtf to genePred (建庫需要的文件)
annovar  #註釋主程序,只能通過發郵件獲取

有了這些我們就可開始做註釋了、

一、建庫

如果是給人類的基因組註釋,網上有非常多的教程,我在這裏就不贅述了,請大家自行百度,我要介紹的主要是水稻及其他非人類的生物註釋。

首先我們需要在獲得ANNOVAR之後在目錄下解壓,在軟件主目錄下新建文件夾:

genomics@genomics-70DGA01QCN:~/BioPlatform/annovar$ ls -l
總用量 508
-rwxr-xr-x 1 genomics genomics 221481 4月  17  2018 annotate_variation.pl
-rwxr-xr-x 1 genomics genomics  27582 4月  17  2018 coding_change.pl
-rwxr-xr-x 1 genomics genomics 170158 4月  17  2018 convert2annovar.pl
drwxr
-xr-x 2 genomics genomics 4096 4月 17 2018 example drwxr-xr-x 3 genomics genomics 4096 4月 17 2018 humandb -rwxr-xr-x 1 genomics genomics 19407 4月 17 2018 retrieve_seq_from_fasta.pl -rwxr-xr-x 1 genomics genomics 39223 4月 17 2018 table_annovar.pl -rwxr-xr-x 1 genomics genomics 21774 4月 17 2018
variants_reduction.pl genomics@genomics-70DGA01QCN:~/BioPlatform/annovar$ mkdir ricedb

ricedb就是我們需要建庫的文件夾了,和同目錄下的humandb是一樣的,在這個文件夾中需要有兩個文件

genomics@genomics-70DGA01QCN:~/BioPlatform/annovar/ricedb$ ls -l
總用量 529324
-rw-rw-r-- 1 genomics genomics 380710511 10月 31  2011 AsianRice_MSU.fasta
-rw-rw-r-- 1 genomics genomics  81498659 2月   7  2012 AsianRiice_MSU.gff3

gff文件會報錯所以第一步要轉換成gtf文件

genomics@genomics-70DGA01QCN:~/BioPlatform/annovar/ricedb$ gffread AsianRiice_MSU.gff3 -T -o AsianRice_MSU.gtf

gtf文件轉換成GenePred文件,利用GtfToGenePred工具,這裏註意“-genePredExt”這個參數一定要加上

genomics@genomics-70DGA01QCN:~/BioPlatform/annovar/ricedb$ gtfToGenePred -genePredExt AsianRice_MSU.gtf Os_refGene.txt

結合基因組數據獲得另外一個重要數據,通過上邊獲得的GenePred文件:

perl ../retrieve_seq_from_fasta.pl --format refGene --seqfle all.fa  Os_refGene.txt --out Os_refGeneMrna.fa

這樣我們建庫工作就完成了,下次再對相同物種數據進行註釋的時候就不用進行這些操作了,庫的兩個文件組成如下:

genomics@genomics-70DGA01QCN:~/BioPlatform/annovar/ricedb$ ls -l
-rw-rw-r-- 1 genomics genomics 127436949 1月  12 12:24 Os_refGeneMrna.fa
-rw-rw-r-- 1 genomics genomics  12334559 1月  12 12:23 Os_refGene.txt

二、非人類物種註釋

  相比與人類的註釋,其他物種的註釋如果完成了建庫的步驟剩下的就很相似。區別在於其他物種並沒有人類那麽多相關的註釋庫,一般我們就進行基於基因的註釋就可以獲得我們想要的數據:

perl table_annovar.pl <variant.vcf> ricedb/ --vcfnput --outfle fnal --buildver Os --protocol refGene --operation g

  剩下的事情交給馬克思和處理器就好了!

  輸出格式以及後續的處理在隨後的博文中會有詳細的介紹。

【annotation】非人類物種基因組註釋(MSU為例)