1. 程式人生 > >2、samtools-faidx index

2、samtools-faidx index

bsp 單位 區域 accep 計數 fff 相同 其他 gen

1、samtools faidx

1、samtools faidx 能夠對fasta 序列建立一個後綴為.fai 的文件根據這個.fai 文件和原始的fasta文件, 能夠快速的提取任意區域的序列

2、用法:samtools faidx genome.fa      #生成genome.fa.fai

3、例子

該命令對輸入的fasta序列有一定要求:對於每條序列,除了最後一行外, 其他行的長度必須相同,

>one
ATGCATGCATGCATGCATGCATGCATGCAT
GCATGCATGCATGCATGCATGCATGCATGC
ATGCAT
>two another chromosome
ATGCATGCATGCAT
GCATGCATGCATGC

最後生成的.fai文件如下, 共5列,\t分隔;

one 66 5 30 31
two 28 98 14 15

第一列 NAME : 序列的名稱,只保留“>”後,第一個空白之前的內容;

第二列 LENGTH: 序列的長度, 單位為bp;

第三列 OFFSET : 第一個堿基的偏移量, 從0開始計數,換行符也統計進行;

第四列 LINEBASES : 除了最後一行外, 其他代表序列的行的堿基數, 單位為bp;

第五列 LINEWIDTH : 除了最後一行外, 其他代表序列的行的長度, 包括換行符, 在windows系統中換行符為\r\n, 要在序列長度的基礎上加2;

提取序列:

samtools faidx input.fa               #生成索引input.fa.fai

samtools faidx input.fa chr1 > chr1.fa       #提取chr1序列

samtools faidx input.fa chr1:1-10000 > chr1.fa  #提取chr1序列上1-10000間的序列

2、samtools index

1、

  samtools index accepted_hits.bam           #生成索引accepted_hits.bam.bai

  samtools view accepted_hits.bam contig1        #提取比對到chr1序列reads

  samtools view accepted_hits.bam contig:1-10000    #提取比對到chr1序列上100-200區間的reads

2、

  samtools tview accepted_hits.bam ../genome.fa    #samtools tview運用要求要先對bam文件index索引

2、samtools-faidx index