使用Aspera從EBI或NCBI下載基因組資料

阿新 • • 發佈：2019-02-06

做基因組資料分析，可能經常從NCBI的GEO/SRA或者EBI的ENA資料庫下載高通量的資料，動輒幾十G的資料用wget下載實在太糾結，這時就要用到神器-Aspera了。

使用Aspera，最簡單的方法當然就是使用瀏覽器外掛Aspera Connect了，跟迅雷、Flashget的用法差不多，直接單擊Aspera支援的下載地址，就自動切換到Aspera的視窗開始下載了。

當我們登入到自己的伺服器終端裡面的時候，可能更希望在終端裡直接下載資料，而不是先把資料下載到自己的硬盤裡，再上傳到伺服器，這種情況下帶有視窗介面的Aspera Connect就無法使用了嗎？

當然可以，Aspera Connect安裝包裡內建了Aspera的命令列工具，這裡對其安裝和使用方法簡要介紹一下:

安裝

首先，到aspera網站（http://downloads.asperasoft.com/connect2/）下載你的作業系統對應的aspera connect。(如果選Linux，下載以後會是一個幾M大，內嵌二進位制程式碼的shell指令碼。。) 。不需要root或者sudo許可權，直接安裝之：

$ sh aspera-connect-2.4.7.37118-linux-64.sh

如果sh執行有錯誤，可以用bash aspera*.sh。

安裝好以後，會在HOME目錄下新建一個叫.aspera的目錄，有兩個檔案比較重要:

一個是ascp的可執行檔案:

~/.aspera/connect/bin/ascp

另一個ascp的金鑰檔案:

~/.aspera/connect/etc/asperaweb_id_dsa.putty

建議將金鑰備份到HOME目錄下方便使用:

$ cp ~/.aspera/connect/etc/asperaweb_id_dsa.putty ~/

再把aspera-license複製到系統目錄

~/.aspera/connect/etc$ sudo cp aspera-license /usr/local/bin/

再把ascp可執行檔案的路徑加入PATH變數中，或者將其拷貝到當前目錄。

使用

執行以下兩條命令(注意最後要加點號“.”，表示當前目錄)

從EBI下載:

$ ascp -i ~/asperaweb_id_dsa.putty

[email protected]:/vol1/ERA012/ERA012008/sff/library08_GJ6U61T06.sff

從NCBI下載:

$ ascp -i ~/asperaweb_id_dsa.putty [email protected]:/sra/sra-instant/reads/ByRun/litesra/SRR/SRR096/SRR096072/SRR096072.lite.sra .

這個時候的速度相比於wget，應該已經很快了，大約能達到9Mb/s以上，如果還嫌慢，可以在-i 引數的前面新增幾項設定，像這樣:

ascp -QT -l 100M -i ~/asperaweb_id_dsa.putty [email protected]:/vol1/ERA012/ERA012008/sff/library08_GJ6U61T06.sff

這樣可以將速度提高到20Mb/s左右，偶爾能達到100Mb/s。

ascp下載地址的獲取

以EBI上的SRR346368這套資料為例。首先到EBI頁面裡，找到你想要下載的檔案，將指標移到這個檔案的”ftp”這一列，即可看到其ftp地址，例如: ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR346/SRR346368/SRR346368.fastq.gz,
然後呢:將 ftp://ftp.sra.ebi.ac.uk 換成 [email protected]即可:

$ ascp -i ~/asperaweb_id_dsa.putty [email protected]:/vol1/fastq/SRR346/SRR346368/SRR346368.fastq.gz .

NCBI的SRA資料庫也是同樣的方法，即可獲取其ascp下載地址。

小技巧

如果嫌每次都輸入密碼太麻煩，可以在命令列或.profile中設定ASPERA_SCP_PASS這個環境變數：
export ASPERA_SCP_PASS=你的aspera密碼
即可。

更多的說明

請參見官方的SRA下載手冊:

http://www.samuthing.com/?p=347

使用Aspera從EBI或NCBI下載基因組資料

安裝

使用

ascp下載地址的獲取

小技巧

更多的說明

使用Aspera從EBI或NCBI下載基因組資料

如何從NCBI下載SRA資料

1、lib7z-Memory從記憶體或網路解壓資料（編譯原始碼、前期準備）

從NCBI基因組資料中獲得cds，pep和geneID對應表

批量從NCBI後臺下載指定資料的Perl指令碼

Android RxJava操作符的學習---組合合併操作符---從磁碟或記憶體快取中獲取快取資料

git的簡單操作及從github或碼雲上ssh下載原始碼步驟

從一個Activity返回一個Activity 或Fragment時回傳資料

ubuntu 16.04 通過kaggle api從kaggle上快速下載資料

如何從linux伺服器下載一個資料夾到windows電腦

web自動化從excel 單倍型位置資料讀取到網頁鹼基序列，自動填寫NCBI的blast表單並提交自動化流程

前臺資料json序列化，從post或get中取py資料型別：QueryDict轉字典dict

Logstash學習10_Logstash從Kafka或檔案接收資料的配置demo介紹

向HBase中匯入資料3：使用MapReduce從HDFS或本地檔案中讀取資料並寫入HBase（增加使用Reduce批量插入）

java web 從伺服器上下載圖片資料

SQL從xls或xlsx匯入資料

Sql Server 從日誌中恢復誤刪除或誤Update的資料

從xml或yml檔案中讀取資料

[ppurl]從”皮皮書屋”下載電子書的姿勢

java實現從url路徑中下載pdf文檔到本地

使用Aspera從EBI或NCBI下載基因組資料

安裝

使用

ascp下載地址的獲取

小技巧

更多的說明

相關推薦