1. 程式人生 > >擴增子分析QIIME2. 6資料匯出Exporting data

擴增子分析QIIME2. 6資料匯出Exporting data

科學網對Markdown排版支援較差,對格式不滿意的使用者請跳轉至 CSDN“巨集基因組”公眾號閱讀;

宣告:本文為QIIME2官方幫助文件的中文版,由中科院遺傳發育所劉永鑫博士翻譯並親測有效,文件翻譯己獲QIIME2團隊官方授權。由於QIIME2更新頻繁,如使用中遇到問題請訪問QIIME2官方論壇閱讀最新版中文幫助。
https://forum.qiime2.org/t/qiime2-1-chinese-manual/838
如中文翻譯沒有急時更新,新 閱讀英文原版 https://docs.qiime2.org

擴增子分析QIIME2. 5資料匯入Importing data

為什麼要匯入資料?

QIIME2使用了標準檔案格式qza和qzv,分別是資料檔案和統計圖表檔案;目的是統一檔案格式,方便追溯分析過程。

本人將帶大家熟悉QIIME2分析流程的不同階段,匯入資料。

最典型的匯入資料,是原始測序資料的匯入。實際上,我們可以從分析的任何一步匯入資料,繼續分析。比如合作者提供了biom格式的OTU表,我們可以匯入,並進行下游的統計分析。

匯入資料可以採用多種方式,包括命令列或圖形介面,我們這裡主要介紹命令列的方式。

# 安裝QIIME2 2017.7,如己安裝請跳過
conda update conda
conda create -n qiime2-2017.7 --file https://data.qiime2.org/distro/core/qiime2-2017.7-conda-linux-64.txt
# 啟用工作環境 source activate qiime2-2017.7 # 建立工作目錄 mkdir -p qiime2-importing-tutorial cd qiime2-importing-tutorial

匯入帶質量值的測序資料

地球微生物組標準混樣單端資料 “EMP protocol” multiplexed single-end fastq

此類資料標準包括兩個檔案,副檔名均為fastq.gz,一個是barcode檔案,一個是樣品混樣測序檔案。

# 建樣品目錄
mkdir -p emp-single-end-sequences

# 下載 barcode檔案
wget -O "emp-single-end-sequences/barcodes.fastq.gz" "https://data.qiime2.org/2017.7/tutorials/moving-pictures/emp-single-end-sequences/barcodes.fastq.gz" # 下載序列檔案 wget -O "emp-single-end-sequences/sequences.fastq.gz" "https://data.qiime2.org/2017.7/tutorials/moving-pictures/emp-single-end-sequences/sequences.fastq.gz" # 匯入QIIME2格式 qiime tools import \ --type EMPSingleEndSequences \ --input-path emp-single-end-sequences \ --output-path emp-single-end-sequences.qza

地球微生物組標準混樣雙端資料 “EMP protocol” multiplexed paired-end fastq

此類資料標準包括三個檔案,副檔名均為fastq.gz,一個是barcode檔案,兩個是樣品混樣測序檔案。

# 建樣品目錄
mkdir -p emp-paired-end-sequences

# 下載序列正向和反向檔案
wget -O "emp-paired-end-sequences/forward.fastq.gz" "https://data.qiime2.org/2017.7/tutorials/atacama-soils/1p/forward.fastq.gz"
wget -O "emp-paired-end-sequences/reverse.fastq.gz" "https://data.qiime2.org/2017.7/tutorials/atacama-soils/1p/reverse.fastq.gz"

# 下載barcode檔案
wget -O "emp-paired-end-sequences/barcodes.fastq.gz" "https://data.qiime2.org/2017.7/tutorials/atacama-soils/1p/barcodes.fastq.gz"

# 匯入QIIME2格式
qiime tools import \
  --type EMPPairedEndSequences \
  --input-path emp-paired-end-sequences \
  --output-path emp-paired-end-sequences.qza

樣品檔案清單格式 “Fastq manifest” formats

# 下載fastq壓縮包zip檔案,其中的樣品和檔案清單檔案mainfest
wget -O "se-33.zip" "https://data.qiime2.org/2017.7/tutorials/importing/se-33.zip"
wget -O "se-33-manifest" "https://data.qiime2.org/2017.7/tutorials/importing/se-33-manifest"
wget -O "pe-64.zip" "https://data.qiime2.org/2017.7/tutorials/importing/pe-64.zip"
wget -O "pe-64-manifest" "https://data.qiime2.org/2017.7/tutorials/importing/pe-64-manifest"
# 解壓fastq樣品檔案
unzip -q se-33.zip
unzip -q pe-64.zip

樣品清單是包括樣品名、檔案位置、檔案方向三列的csv檔案,以pe-64-manifest為例,內容如下:

#樣品名、檔案位置、檔案
sample-id,absolute-filepath,direction
sample1,$PWD/pe-64/s1-phred64-r1.fastq.gz,forward
sample1,$PWD/pe-64/s1-phred64-r2.fastq.gz,reverse
sample2,$PWD/pe-64/s2-phred64-r1.fastq.gz,forward
sample2,$PWD/pe-64/s2-phred64-r2.fastq.gz,reverse

匯入質量值不同編碼的兩類檔案Phred33/64 (一般Phred33比較常見,只有非常老的資料才有Phred64格式)

# 匯入Phred33格式測序結果
qiime tools import \
  --type 'SampleData[SequencesWithQuality]' \
  --input-path se-33-manifest \
  --output-path single-end-demux.qza \
  --source-format SingleEndFastqManifestPhred33
# 匯入Phred64格式測序結果
qiime tools import \
  --type 'SampleData[PairedEndSequencesWithQuality]' \
  --input-path pe-64-manifest \
  --output-path paired-end-demux.qza \
  --source-format PairedEndFastqManifestPhred64

匯入OTU表Biom檔案

BIOM v1.0.0

# 下載資料並匯入為QIIME2的qza格式
wget -O "feature-table-v100.biom" "https://data.qiime2.org/2017.7/tutorials/importing/feature-table-v100.biom"
qiime tools import \
  --input-path feature-table-v100.biom \
  --type 'FeatureTable[Frequency]' \
  --source-format BIOMV100Format \
  --output-path feature-table-1.qza

BIOM v2.1.0

wget -O "feature-table-v210.biom" "https://data.qiime2.org/2017.7/tutorials/importing/feature-table-v210.biom"
qiime tools import \
  --input-path feature-table-v210.biom \
  --type 'FeatureTable[Frequency]' \
  --source-format BIOMV210Format \
  --output-path feature-table-2.qza

代表性序列 Per-feature unaligned sequence data

wget -O "sequences.fna" "https://data.qiime2.org/2017.7/tutorials/importing/sequences.fna"
qiime tools import \
  --input-path sequences.fna \
  --output-path sequences.qza \
  --type 'FeatureData[Sequence]'

image

多序列比對後的代表性序列匯入(多序列比對後的序列中包括減號,表示比對的gap) Per-feature unaligned sequence data

wget -O "aligned-sequences.fna" "https://data.qiime2.org/2017.7/tutorials/importing/aligned-sequences.fna"
qiime tools import \
  --input-path aligned-sequences.fna \
  --output-path aligned-sequences.qza \
  --type 'FeatureData[AlignedSequence]'

無根進化樹匯入 Phylogenetic trees (unrooted)

wget -O "unrooted-tree.tre" "https://data.qiime2.org/2017.7/tutorials/importing/unrooted-tree.tre"
qiime tools import \
  --input-path unrooted-tree.tre \
  --output-path unrooted-tree.qza \
  --type 'Phylogeny[Unrooted]'

Reference

想了解更多16S/ITS/18S擴增子、巨集基因組、巨集轉錄組文獻閱讀和分析相關文章,快關注“巨集基因組”公眾號,乾貨第一時間推送。
image

系統學習生物資訊,快關注“生信寶典”,那裡有幾千志同道合的小夥伴一起學習。
image