1. 程式人生 > >SAM檔案格式詳解

SAM檔案格式詳解

生物資訊上的東西,由於發展的時間不長,所以各種標準都不算是廣泛傳播。
尤其是檔案格式之類的,中文版的資料很少,不少英文版的說明也不是很清晰。
這裡對SAM格式進行一下解釋,希望對新人有所幫助。

如下是SAM檔案中的一行

FCC0YG3ACXX:2:1103:1572:139769#GCTTAATG 99  chr10   60001   0   90M =   60390   479 GAATTCCTTGAGGCCTAAATGCATCGGGGTGCTCTGGTTTTGTTGTTGTTATTTCTGAATGACATTTACTTTGGTGCTCTTTATTTTGCG  CCCFFFFFHHHHHJJJJJJJJIJJJJJJJ?HHGIJJJBFHIJIJIDHIHIEHJJIJJIJJJHHGHHHFFFFFFEDCEEECCDDDDEECDD  XT:A:R  NM:i:0  SM:i:0  AM:i:0  X0:i:2  X1:i:0  XM:i:0  XO:i:0  XG:i:0  MD:Z:90 XA:Z:chr18,+14415,90M,0;    RG:Z:120618_I245_FCC0YG3ACXX_L2_SZAXPI010030-30

一共12列,每一列含義如下:
1. read的名字,也就是ID(如果是雙短測序的話,則同一個ID會有兩條reads)
2. flag,為各個標誌的和,下面會有詳細說明
3. 比對到的染色體號
4. 第一個比對上的鹼基所在位置
5. 質量值
6. CIGAR,下面會有詳細說明
7. mate比對上的染色體號,如果是“=”,則表示在同一條染色體上
8. mate第一個比對上的鹼基所在位置
9. 該read和mate的距離
10. 序列
11. 序列對應的質量值
12. 標記

CIGAR含義解釋

一個稍複雜的CIGAR例子:

4S153M1D132M1D5M1D28M1D73M3I12M1I40M54S

S表示 solf clip, 4S就表示4個鹼基沒有比對上
M表示 match 或者 mismatch 153M表示連續153個鹼基都比對上了。
 為什麼會有