1. 程式人生 > >2018-6-23轉錄組學習2 測序資料質量檢查

2018-6-23轉錄組學習2 測序資料質量檢查

1.sra檔案轉換為fastq格式

為了進行測序資料質量檢查我們需要將下載好的sra資料轉換為fastq格式:使用Sratoolkits中的fastq-dump命令進行格式轉換
fastq-dump
Sratoolkits的官方文件中有fastq-dump命令的介紹(https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc&f=fastq-dump),fastq-dump的用法是fastq-dump [各種引數] <輸入檔案的路徑>

  • 主要會用到的引數有:
    -O 指定輸出路徑
    –gzip 指定輸出格式為gzip壓縮格式(fastqc軟體可以直接識別gzip壓縮的檔案)
    –bzip2 指定輸出格式為bzip2壓縮格式 (bzip格式較之gzip格式壓縮效率更高,但是速度較慢)
    多個檔案引數
    –split-3 如果是雙端測序資料,則輸出兩個檔案,如果不是則只輸出一個檔案。
fastq-dump -gzip -split-3 -O path -A file

瞭解了命令用法和引數,我們就可以對下載好的sra資料進行格式轉換,

for i in `seq 56 62`
do
fastq-dump -gzip -split-3 -O ~/data/fastq -A SRR35899${i}.sra
done

漫長的等待(沒有進度條。。。)之後,就可以看到轉換結果了

2. fastq檔案瞭解和質控

2.1 fastq檔案格式
FASTQ檔案每個序列分為四行,用以下命令開啟一個fastq.gz的前四行
zcat path |head -n 4

@SRR3589956.1 D5VG2KN1:224:C4VAYACXX:5:1101:1159:2173 length=51
GGCGAGTGTAGGGCTGGCGCTGCCGGACGCGGTGCTAGTCGCCGGATGAAG
+SRR3589956.1 D5VG2KN1:224:C4VAYACXX:5:1101:1159:2173 length=51
B<BFBFBF0BFFFBFFBBFFIF<FFI<7<<BF<FFFFFFBB<BBBBBBBBB

其中第一行以@開頭,包含裝置名稱、run id等序列資訊與相關的描述資訊
第二行是鹼基序列
第三行以+開頭,可能包含序列資訊與相關的描述資訊或者沒有描述
第四行是質量資訊,與第二行的每一個鹼基配對,表示其測序質量
2.2 使用fastqc進行質控


轉換好的fastq檔案不需要解壓,可以直接使用fastqc進行質控:
* fastqc的常用引數有:
-o: 輸出路徑-
-extract:輸出檔案是否需要自動解壓 預設是–noextract-
-t:執行緒數,和電腦配置有關,每個執行緒需要250MB的記憶體
-c:測序中可能會有汙染, 比如說混入其他物種
-a:接頭
-q:安靜模式

瞭解引數之後,可以用fastqc -O path -t n *.fastq.gz進行分析

分析結束之後,得到一個fastqc.html檔案和fastqc.zip檔案,使用瀏覽器開啟html檔案即可直觀看到質控結果

fastq質控結果

2.3 使用multiqc進行質控
multiqc可以對多個測序結果的qc結果進行整合,整理成一個報告。支援fastqc、trimmomatic、bowtie、STAR等多種軟體。在安裝了conda的情況下conda install -c bioconda multiqc即可安裝
安裝完畢後在需要分析的測序檔案所在的資料夾multiqc .即可進行分析

如需忽略某些檔案,使用“–ignore”引數即可multiqc --ignore flie .

multiqc質控結果