Sam&bam檔案格式詳解
在SAM輸出的結果中每一行都包括十二項通過Tab分隔(\t),從左到右分別是:
1 QNAME,序列的名字(Read的名字)
2 FLAG, 概括出一個合適的標記,各個數字分別代表
1 序列是一對序列中的一個
2 比對結果是一個pair-end比對的末端
4 沒有找到位點
8 這個序列是pair中的一個但是沒有找到位點
16 在這個比對上的位點,序列與參考序列反向互補
32 這個序列在pair-end中的的mate序列與參考序列反響互補
64 序列是 mate 1
128 序列是 mate 2
假如說標記為以上列舉出的數目,就可以直接推斷出匹配的情況。假如說標記不是以上列舉出的數字,比如說83=(64+16+2+1),就是這幾種情況值和。
3 RNAME,參考序列的名字(染色體)
4 POS,在參考序列上的位置(染色體上的位置)
5 MAPQ, mapping qulity 越高則位點越獨特
bowtie2有時並不能完全確定一個短的序列來自參考序列的哪個位置,特別是對那些比較簡單的序列。但是bowtie2會給出一個值來顯示這個段序列來自某個位點的概率值,這個值就是mapping qulity。Mapping qulity的計算方法是:Q=-10log10p,Q是一個非負值,p是這個序列不來自這個位點的估計值。
假如說一條序列在某個參考序列上找到了兩個位點,但是其中一個位點的Q明顯大於另一個位點的Q值,這條序列來源於前一個位點的可能性就比較大。Q值的差距越大,這獨特性越高。
6 CIGAR,代表比對結果的CIGAR字串,如37M1D2M1I,這段字元的意思是37個匹配,1個參考序列上的刪除,2個匹配,1個參考序列上的插入。M代表的是alignment match(可以是錯配)
#standard cigar:
#M match
#I insertion
#D deletion
#extended cigar
#N gap
#S substitution
#H hard clipping
#P padding
#= sequence match
#X sequence mismatch
7 RNEXT, mate 序列所在參考序列的名稱; 下一個片段比對上的參考序列的編號,沒有另外的片段,這裡是’*‘,同一個片段,用’=‘;
8 PNEXT, mate 序列在參考序列上的位置;下一個片段比對上的位置,如果不可用,此處為0;
9 TLEN,估計出的片段的長度,當mate 序列位於本序列上游時該值為負值。Template的長度,最左邊得為正,最右邊的為負,中間的不用定義正負,不分割槽段(single-segment)的比對上,或者不可用時,此處為0;
10 SEQ,read的序列;序列片段的序列資訊,如果不儲存此類資訊,此處為’*‘,注意CIGAR中M/I/S/=/X對應數字的和要等於序列長度;
11 QUAL,ASCII碼格式的序列質量;序列的質量資訊,格式同FASTQ一樣。
12 可選的欄位(field)
AS:i 匹配的得分
XS:i 第二好的匹配的得分
YS:i mate 序列匹配的得分
XN:i 在參考序列上模糊鹼基的個數
XM:i 錯配的個數
XO:i gap open的個數
XG:i gap 延伸的個數
NM:i 經過編輯的序列
YF:i 說明為什麼這個序列被過濾的字串
YT:Z
MD:Z 代表序列和參考序列錯配的字串
示例:
HWI-ST170:265:5:44:14178:183344#0 145 1 62421 37 63M1I35M 18 56843949 0 CCTGTATACATAGTAATCAAAGTGTACCACTGGTCGGTGTTTGTGTTCAGGCCCCTGTTGGGTAATGTGCATGTGAAGACCTCAGGTGGTATAGTTTTG [email protected]@[email protected]HHHGHGHEHHHHHHHHHFHHHHHHHHHH RG:Z:DU23M01_Duroc XT:A:U NM:i:4 SM:i:37 AM:i:37 X0:i:1 X1:i:0 XM:i:3 XO:i:1 XG:i:1 MD:Z:20T22C1A52
HWI-ST170:264:5:61:3024:21492#0 113 1 62421 37 63M1I29M = 6885283 6822868 CCTGTATACATAGTAATCAAAGTGTACCACTGGTCGGTGTTTGTGTTCAGGCCCCTGTTGGGTAATGTGCATGTGAAGACCTCAGGTGGTATA @:;[email protected]HGHFHHHHHHHFHHHHHHHHHHHHHH RG:Z:DU23M01_Duroc XT:A:U NM:i:4 SM:i:37 AM:i:37 X0:i:1 X1:i:0 XM:i:3 XO:i:1 XG:i:1 MD:Z:20T22C1A46
FCC1L2FACXX:3:2106:15923:93264 99 1 1073 0 100M = 1461 488 TGTGAAGGCCCCCTGCTCTGACTGTGTTAGTGTCCATTTCTCCTTTTACGGTTGTAGCAGTTGCCTTCTACATTGCGGGGATCCTGTATTGGGTGCATGT ___eceeegfggggdgiiifghii[degfhfgfdffhhhfhfghiiighiiH^`Vbgfffihhiiiihhddbdgfgccca][^bbbbbccbca[X^Y_b_ MD:Z:98A1 PG:Z:MarkDuplicatesRG:Z:SRR949625 NM:i:1 AS:i:98 XS:i:98
FCC1L2FACXX:3:2111:13731:89147 163 1 1073 7 100M = 1438 465 TGTGAAGGCCCCGTGCTCTGACTGTGTTAGTGTCCATTTCTCCTTTTACGGTTGTAGCAGTTGCCTTCTACATTGCGGGGATCCTGTATTGGGTGCATAT bbaeeeeefggggefhiiiihiiicgghhigdehhhiiihiieffhiihihbggdghihfgffhihihf`geed_cecac]accb]_bcccbc^a_bcbb MD:Z:12C87 PG:Z:MarkDuplicatesRG:Z:SRR949625 NM:i:1 AS:i:95 XS:i:95
相關推薦
Sam&bam檔案格式詳解
在SAM輸出的結果中每一行都包括十二項通過Tab分隔(\t),從左到右分別是:1 QNAME,序列的名字(Read的名字)2 FLAG, 概括出一個合適的標記,各個數字分別代表1 序列是一對序列中的一個2 比對結果是一個pair-end比對的末端4 沒有找到位點8 這個序列是p
SAM檔案格式詳解
生物資訊上的東西,由於發展的時間不長,所以各種標準都不算是廣泛傳播。 尤其是檔案格式之類的,中文版的資料很少,不少英文版的說明也不是很清晰。 這裡對SAM格式進行一下解釋,希望對新人有所幫助。 如下是SAM檔案中的一行 FCC0YG3ACXX:2:1
PE檔案格式詳解(六)
0x00 前言 前面兩篇講到了輸出表的內容以及涉及如何在hexWorkShop中找到輸出表及輸入DLL,感覺有幾個地方還是沒有理解好,比如由資料目錄表DataDirectory[16]找到輸出表表後以為找到輸入DLL就完了,其實這一流程的最終功能是通過輸入DLL找到輸入DLL呼叫的函
PE檔案格式詳解(五)
0x00 前言 前一篇瞭解了區塊虛擬地址和檔案地址轉換的相關知識,這一篇該把我們所學拿出來用用了。這篇我們將瞭解更為重要的一個知識點——輸入表和輸出表的知識。 0x01 輸入表 首先我們有疑問。這個輸入表是啥?為啥有輸入表?其實輸入表就是記錄PE輸入函式相
PE檔案格式詳解(四)
PE檔案格式詳解(四) 0x00 前言 上一篇介紹了區塊表的資訊,以及如何在hexwrokshop找到區塊表。接下來,我們繼續深入瞭解區塊,並且學會檔案偏移和虛擬地址轉換的知識。 0x01 區塊對齊值 首先我們要知道啥事區塊對齊?為啥要區塊對齊?這個問題
png檔案格式詳解【轉】
5.2.2 PNG影象檔案儲存結構(1) PNG檔案儲存結構的格式可以在http://www.w3.org/TR/REC-png.htm上找到定義。 BMP檔案總體上由兩部分組成,分別是PNG檔案標誌和資料塊(chunks),如表5-8所示。其中資料塊分為兩類:關鍵資料塊(cri
Class 檔案格式詳解
Class 檔案格式詳解 Write once, run everywhere!,我們都知道這是 Java 著名的宣傳口號。不同的作業系統,不同的 CPU 具有不同的指令集,如何做到平臺無關性,依靠的就是 Java 虛擬機器。計算機永遠只能識別 0 和 1組成的二進位制檔案,虛擬機器就是我們編寫的程式碼和計
PNG檔案格式詳解
PNG檔案結構分析(上:瞭解PNG檔案儲存格式)前言我們都知道,在進行J2ME的手機應用程式開發的時候,在圖片的使用上,我們可以使用PNG格式的圖片(甚至於在有的手機上,我們只可以使用PNG格式的圖片),儘管使用圖片可以為我們的應用程式增加不少亮點,然而,只支援PNG格式的圖片
Android逆向之旅---SO(ELF)檔案格式詳解
第一、前言從今天開始我們正式開始Android的逆向之旅,關於逆向的相關知識,想必大家都不陌生了,逆向領域是一個充滿挑戰和神祕的領域。作為一名Android開發者,每個人都想去探索這個領域,因為一旦你破解了別人的內容,成就感肯定爆棚,不過相反的是,我們不僅要研究破解之道,也要
[一]class 檔案淺析 .class檔案格式詳解 欄位方法屬性常量池欄位 class檔案屬性表 資料型別 資料結構
ClassFile { u4 magic;//唯一作用是確定這個檔案是否為一個能被虛擬機器所接受的class檔案。魔數值固定為0xCAFEBABE,不會改變 u2 minor_version;//唯一作用是確定這個檔案是否為一個能被虛擬機器所接受的class檔案。魔數值固定為0xCAFEBABE,不會
s19檔案格式詳解
1.概述 為了在不同的計算機平臺之間傳輸程式程式碼和資料,摩托羅拉將程式和資料檔案以一種可列印的格式(ASCII格式)編碼成s格式檔案。s格式檔案是Freescale推薦使用的標準檔案傳送格式。編譯完成之後,FreescaleCodeWarrior編譯器將在bin資料夾下自動生成“*.abs.s19”檔案,
Linux下可執行檔案格式詳解
Linux下面,目標檔案、共享物件檔案、可執行檔案都是使用ELF檔案格式來儲存的。程式經過編譯之後會輸出目標檔案,然後經過連結可以產生可執行檔案或者共享物件檔案。Linux下面使用的ELF檔案和Windows作業系統使用的PE檔案都是從Unix系統的COFF檔案格式演化來的
TIFF影象檔案格式詳解(3)
基本TIFF TAGS 本頁主要摘自 http://www.awaresystems.be/imaging/tiff/tifftags/baseline.html。每一個TAG均有原始連結,可以點選檢視詳細的描述。 這些基本Tag是所有TIFF編解碼器必須支援的Tag
GZIP壓縮原理分析(04)——第三章 gzip檔案格式詳解(三02) gzip檔案頭
檔案頭由固定長度的部分和擴充套件部分組成,擴充套件部分不一定存在,尤其是網路傳輸使用的HTTP壓縮,如果使用了gzip格式,那麼對應的壓縮報文一般都不帶擴充套件部分。gzip檔案格式通過將頭部中定長部
TIFF影象檔案格式詳解
1 什麼是TIFF? TIFF是Tagged Image File Format的縮寫。在現在的標準中,只有TIFF存在, 其他的提法已經捨棄不用了。做為一種標記語言,TIFF與其他檔案格式最大的不同在於除了影象資料,它還可以記錄很多影象的其他資訊。它記錄影象資料的方式也
【Three.js:3D模型】【轉載】OBJ檔案格式詳解
轉載:3D中的OBJ檔案格式詳解 常見到的*.obj檔案有兩種:第一種是基於COFF(Common Object File Format)格式的OBJ檔案(也稱目標檔案),這種格式用於編譯應用程式;第二種是Alias|Wavefront公司推出的OBJ模型檔案。本文對第二種ob
PE檔案格式詳解(一)
在本文中, 我並不打算大講特講PE檔案的構成是什麼,每個欄位是什麼意思, 這些資料可以說在網上是浩瀚如海,到處都是的, 用google一搜, 開啟一看, 基本講解的都是大同小異。 由於pe檔案的結構比較龐大, 結構中套結構, 有的結構多達30多個欄位, 光看這些欄位都讓人夠
PE檔案格式詳解(上)
Windows NT 3.1引入了一種名為PE檔案格式的新可執行檔案格式。PE檔案格式的規範包含在了MSDN的CD中(Specs and Strategy, Specifications, Windows NT File Format Specifications),
PE檔案格式詳解(1)
PE頭由許多結構體組成,接下來分別解釋一下各部分。 1.DOS頭 微軟最初建立PE格式的時候,DOS檔案被人們廣泛的使用,為了實現PE檔案對DOS檔案的相容性。結果是在PE頭的最前面添加了一個I
PE檔案格式詳解(2)
MS-DOS頭部/真實模式頭部 如上所述,PE檔案格式的第一個組成部分是MS-DOS頭部。在PE檔案格式中,它並非一個新概念,因為它與MS-DOS 2.0以來就已有的MS-DOS頭部是完全一樣的。保留這個相同結構的最主要原因是,當你嘗試在Windows 3.1以下或MS-