1. 程式人生 > >NCBI SRA數據庫使用詳解

NCBI SRA數據庫使用詳解

macos study trace bsp 使用詳解 srx inf 下載地址 fetch

轉:https://shengxin.ren/article/16

https://www.cnblogs.com/lmt921108/p/7442699.html

SRA(Sequence ReadArchive)數據庫是用於存儲二代測序的原始數據,包括 454,Illumina,SOLiD,IonTorrent,Helicos 和 CompleteGenomics。除了原始序列數據外,SRA現在也存在raw reads在參考基因的比對信息。

根據SRA數據產生的特點,將SRA數據分為四類:

  • Studies-- 研究課題

  • Experiments-- 實驗設計

  • Runs

    -- 測序結果集

  • Samples-- 樣品信息

SRA中數據結構的層次關系為:Studies->Experiments->Samples->Runs.

  • Studies是就實驗目標而言的,一個study 可能包含多個Experiment。

  • Experiments包含了Sample、DNA source、測序平臺、數據處理等信息。

  • 一個Experiment可能包含一個或多個runs。

  • Runs 表示測序儀運行所產生的reads。

SRA數據庫用不同的前綴加以區分:

    • ERP或SRP表示Studies;

    • SRS 表示 Samples;

    • SRX 表示 Experiments;

    • SRR 表示 Runs;

使用:

  搜索相關研究的疾病,選擇相應數據集

技術分享圖片

點擊第一個案例進入詳細信息界面

技術分享圖片

Study詳細信息頁面

技術分享圖片

Experiments詳細信息頁面

技術分享圖片

Runs詳細信息頁面,選擇要下載的Runs

技術分享圖片

3、下載數據

要下載SRA數據,我們需要先安裝SRA Toolkit軟件包,下載地址:

https://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software

根據自己的環境下載相應的軟件包。

主要包括:

  • CentOS 32/64

  • Ubuntu 32/64

  • MacOS 32/64

  • MS Windows 32/64

以CentOS為例:

1、下載安裝:

wget "http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-centos_linux64.tar.gz"

tar xzf sratoolkit.current-centos_linux64.tar.gz

2、運行下載

cd sratoolkit.2.5.7-centos_linux64/bin

./prefetch SRR2172038

下載完成後,會在你的工作主目錄下生成一個ncbi的文件夾。

cd ncbi/public/sra

查看SRR2172038.sra數據

3、轉換fastq

/sratoolkit.2.5.7-centos_linux64/bin/fastq-dump ./SRR2172038.sra

4、轉換fasta

/sratoolkit.2.5.7-centos_linux64/bin/fastq-dump --fasta ./SRR2172038.sra

批量下載SRA數據

1.新建文件,命令為prefetch_bash.sh (感覺命名簡單粗暴啊)

vi prefetch_bash.sh

#!/bin/bash

for id in $(seq 1 5) #記住該語法

do

  prefetch SRR35899${id}

done

3.給文件一個可執行權限

chmod +755 frefetch_bash.sh

4.添加環境變量或者將其move到/usr/bin即可

添加環境變量:

vi ~/.bashrc

export PATH=/home/lmt/biosoft/data:$PATH

保存之後需source ~/.bashrc

或者move

move ./frefetch_bash.sh /usr/bin這樣可以直接使用

5.利用prefetch_bash.sh批量下載所需的SRR文件

在終端輸入:prefetch_bash.sh

下載的SRR數據默認存放在:/home/lmt/ncbi/public/sra裏

NCBI SRA數據庫使用詳解