1. 程式人生 > >NGS中的一些軟件功能介紹

NGS中的一些軟件功能介紹

功能介紹 data power 引導 erl 其中 ner 連接 固定

1.bowtie

短序列比對工具,blast也是短序列比對工具,速度快,結果易理解。

輸入可以是fastq或者fasta文件。

生成比對結果文件sam格式的吧。

2.bwa

轉自:https://www.jianshu.com/p/1552cc6ac3be

將DNA序列比對到參考基因組上的軟件,包含三種算法:

BWA-backtrack:適合比對長度不超過100bp的序列;

BWA-SW:合於長度為70-1M bp的序列;

BWA-MEM:合於長度為70-1M bp的序列,高質量的測序數據,其比對的速度更快,精確度更高。

使用whereis bwa找到其安裝路徑:

xhs@dandan26:/data1/zzl$ whereis bwa
bwa: 
/usr/bin/bwa /usr/share/bwa /usr/share/man/man1/bwa.1.gz

輸入bwa得到以下幫助:

Usage:   bwa <command> [options]

Command: index         index sequences in the FASTA format
         mem           BWA-MEM algorithm
         fastmap       identify super-maximal exact matches
         pemerge       merge overlapping paired ends (EXPERIMENTAL)
         aln           gapped
/ungapped alignment samse generate alignment (single ended) sampe generate alignment (paired ended) bwasw BWA-SW for long queries shm manage indices in shared memory fa2pac convert FASTA to PAC format pac2bwt generate BWT
from PAC pac2bwtgen alternative algorithm for generating BWT bwtupdate update .bwt to the new format bwt2sa generate SA from BWT and Occ Note: To use BWA, you need to first index the genome with `bwa index. There are three alignment algorithms in BWA: `mem, `bwasw, and `aln/samse/sampe. If you are not sure which to use, try `bwa mem first. Please `man ./bwa.1 for the manual.

步驟:

1.對參照基因組建索引:

bwa index –a bwtsw hg19.fasta

此處構建索引使用的是bwtsw算法,最終輸出的結果文件:

會生成:bwt,pac,ann,amb,sa五種類型的文件:

技術分享圖片

xhs@dandan-PowerEdge-T620:/data1/GRCm38$ ls
GRCm38_68.fa  GRCm38_68.fa.amb  GRCm38_68.fa.ann  GRCm38_68.fa.bwt  GRCm38_68.fa.fai  GRCm38_68.fa.pac  GRCm38_68.fa.sa

2.使用bwa-mem算法進行比對:

bwa mem –t 4 hg19.fasta read1.fq read2.fq > aln-pe.sam

我使用了這條命令:

bwa mem -t 4 ../hg19/hg19.fasta ERR580012_1.fastq.gz ERR580012_2.fastq.gz > aln-pe.sam

使用了mem算法,-t是選擇幾個線程,增加線程,減少運行時間;然後是參照基因組的fasta文件。以及其他參數:

-p 忽略第二個輸入序列,默認情況下,輸入一個序列文件認為是單端測序,輸入兩個序列文件則是雙端測序,加上這個參數後,會忽略第二個輸入序列文件,把第一個文件當做單端測序的數據進行比對;

將最終結果存入到了sam文件中。

那麽什麽是單端測序和雙端測序:

轉自:https://www.cnblogs.com/Formulate0303/p/7843082.html

1、單端測序(Single-ead)首先將DNA樣本進行片段化處理形成200-500p的片段,引物序列連接到DNA片段的一端,然後末端加上接頭,將片段固定在flowcell上生成DNA簇,上機測序單端讀取序列。

2、Paied-end方法是指在構建待測DNA文庫時在兩端的接頭上都加上測序引物結合位點,在第一輪測序完成後,去除第一輪測序的模板鏈,用對讀測序模塊(Paied-End Module)引導互補鏈在原位置再生和擴增,以達到第二輪測序所用的模板量,進行第二輪互補鏈的合成測序。

//其實這個第二點還不太明白.[1]

3.將sam文件壓縮為bam格式

samtools view –bS aln-pe_reorder.sam –o aln-pe.bam

查找samtools幫助:

Usage:   samtools <command> [options]

Command: view        SAM<->BAM conversion
         sort        sort alignment file
         mpileup     multi-way pileup
         depth       compute the depth
         faidx       index/extract FASTA
         tview       text alignment viewer
         index       index alignment
         idxstats    BAM index stats (r595 or later)
         fixmate     fix mate information
         flagstat    simple stats
         calmd       recalculate MD/NM tags and = bases
         merge       merge sorted alignments
         rmdup       remove PCR duplicates
         reheader    replace BAM header
         cat         concatenate BAMs
         bedcov      read depth per BED region
         targetcut   cut fosmid regions (for fosmid pool only)
         phase       phase heterozygotes
         bamshuf     shuffle and group alignments by name

-b 表示輸出為bam文件格式 –S默認下輸入是 BAM 文件,若是輸入是 SAM 文件,則最好加該參數,否則有時候會報錯。-o 輸出文件名

最終生成了bam文件,其中b指binary,運算快。

使用下面命令來查看文件頭:

samtools view -H ESCell#8.sam

NGS中的一些軟件功能介紹