1. 程式人生 > >使用Aspera從EBI或NCBI下載基因組資料

使用Aspera從EBI或NCBI下載基因組資料

做基因組資料分析,可能經常從NCBI的GEO/SRA或者EBI的ENA資料庫下載高通量的資料,動輒幾十G的資料用wget下載實在太糾結,這時就要用到神器-Aspera了。

使用Aspera,最簡單的方法當然就是使用瀏覽器外掛Aspera Connect了,跟迅雷、Flashget的用法差不多,直接單擊Aspera支援的下載地址,就自動切換到Aspera的視窗開始下載了。

當我們登入到自己的伺服器終端裡面的時候,可能更希望在終端裡直接下載資料,而不是先把資料下載到自己的硬盤裡,再上傳到伺服器,這種情況下帶有視窗介面的Aspera Connect就無法使用了嗎?

當然可以,Aspera Connect安裝包裡內建了Aspera的命令列工具,這裡對其安裝和使用方法簡要介紹一下:

安裝

首先,到aspera網站(http://downloads.asperasoft.com/connect2/)下載你的作業系統對應的aspera connect。(如果選Linux,下載以後會是一個幾M大,內嵌二進位制程式碼的shell指令碼。。) 。不需要root或者sudo許可權,直接安裝之:

$ sh aspera-connect-2.4.7.37118-linux-64.sh

如果sh執行有錯誤,可以用bash aspera*.sh。

安裝好以後,會在HOME目錄下新建一個叫.aspera的目錄,有兩個檔案比較重要:

一個是ascp的可執行檔案:

~/.aspera/connect/bin/ascp

另一個ascp的金鑰檔案:

~/.aspera/connect/etc/asperaweb_id_dsa.putty

建議將金鑰備份到HOME目錄下方便使用:

$ cp ~/.aspera/connect/etc/asperaweb_id_dsa.putty ~/

再把aspera-license複製到系統目錄

~/.aspera/connect/etc$ sudo cp aspera-license /usr/local/bin/

再把ascp可執行檔案的路徑加入PATH變數中,或者將其拷貝到當前目錄。

使用

執行以下兩條命令(注意最後要加點號“.”,表示當前目錄)

從EBI下載:

$ ascp -i ~/asperaweb_id_dsa.putty

[email protected]:/vol1/ERA012/ERA012008/sff/library08_GJ6U61T06.sff

從NCBI下載:

$ ascp -i ~/asperaweb_id_dsa.putty [email protected]:/sra/sra-instant/reads/ByRun/litesra/SRR/SRR096/SRR096072/SRR096072.lite.sra .

這個時候的速度相比於wget,應該已經很快了,大約能達到9Mb/s以上,如果還嫌慢,可以在-i 引數的前面新增幾項設定,像這樣:

ascp -QT -l 100M -i ~/asperaweb_id_dsa.putty [email protected]:/vol1/ERA012/ERA012008/sff/library08_GJ6U61T06.sff

這樣可以將速度提高到20Mb/s左右,偶爾能達到100Mb/s。

ascp下載地址的獲取

以EBI上的SRR346368這套資料為例。首先到EBI頁面裡,找到你想要下載的檔案,將指標移到這個檔案的”ftp”這一列,即可看到其ftp地址,例如: ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR346/SRR346368/SRR346368.fastq.gz,
然後呢:將 ftp://ftp.sra.ebi.ac.uk 換成 [email protected]即可:

$ ascp -i ~/asperaweb_id_dsa.putty [email protected]:/vol1/fastq/SRR346/SRR346368/SRR346368.fastq.gz .

NCBI的SRA資料庫也是同樣的方法,即可獲取其ascp下載地址。

小技巧

如果嫌每次都輸入密碼太麻煩,可以在命令列或.profile中設定ASPERA_SCP_PASS這個環境變數:
export ASPERA_SCP_PASS=你的aspera密碼
即可。

更多的說明

請參見官方的SRA下載手冊:

http://www.samuthing.com/?p=347

相關推薦

使用AsperaEBINCBI下載基因組資料

做基因組資料分析,可能經常從NCBI的GEO/SRA或者EBI的ENA資料庫下載高通量的資料,動輒幾十G的資料用wget下載實在太糾結,這時就要用到神器-Aspera了。 使用Aspera,最簡單的方法當然就是使用瀏覽器外掛Aspera Connect了,跟迅雷、Fla

如何NCBI下載SRA資料

1.找到需要的sra資料,找到對應的sample Accession,或者叫做:Experiment Accession。我在做的時候使用的是:Experiment Accession,因為用sample Accession,搜尋結果頁沒有對應的那個連結:2.開啟NCBI,

1、lib7z-Memory記憶體網路解壓資料(編譯原始碼、前期準備)

7z的壓縮率高,想用它從記憶體或網路請求到的資料中解壓資料到磁碟,這樣就不用再把資料生成.7z檔案在磁碟上,省去了耗時的IO操作,也節省了磁碟資源和時間。用這個技術去實現自己的安裝包也是可以的(把.7z檔案放進exe檔案中,再用這個方法把7z解壓到磁碟上)。想實現這個目的,

NCBI基因組資料中獲得cds,pep和geneID對應表

在做基因組相關分析時,我們常常需要從基因組中提取cds,並翻譯成相應的pep序列。此指令碼,以NCBI資料庫中標準的基因組序列檔案和對應的gff檔案為輸入檔案,快速獲得cds序列,pep序列,RNA,Protein和gene的對應關係表等相關檔案。 A perl scrip

批量NCBI後臺下載指定資料的Perl指令碼

最近需要在NCBI中下載所有Xanthomonas屬菌株對應的gbk檔案,由於NCBI前臺gbk資料已經改版,故打算從後臺ftp.ncbi.nlm.nih.gov下載。寫了個Perl指令碼用於批量下載NCBI後臺資料,有這方面需求的同仁們可以參考。另外,多程序暫

Android RxJava操作符的學習---組合合併操作符---磁碟記憶體快取中獲取快取資料

1. 需求場景     2. 功能說明 對於從磁碟 / 記憶體快取中 獲取快取資料 的功能邏輯如下: 3. 具體實現 詳細請看程式碼註釋 // 該2變數用於模擬記憶體快取 & 磁碟快取中的資料 String me

git的簡單操作及github碼雲上ssh下載原始碼步驟

好久沒用git了 今天用在git上下載fastadmin原始碼的時候,出現了很多問題,記錄一下 1,首先先下載git   yum install git  (我用的伺服器是阿里雲centos7.3)   apt-get install git (debian系) 2,git配置   git

一個Activity返回一個Activity Fragment時回傳資料

在當前Activity或Fragment利用 Intent intent = new Intent(LoginActivity.this,MainActivity.class); intent.putExtra("name”,"value”);(此處沒有用到) startActivityForR

ubuntu 16.04 通過kaggle apikaggle上快速下載資料

打深度學習的比賽的第一關就是要把資料弄下來,但是kaggle競賽資料量大,用瀏覽器下載比較慢,還容易斷,這裡我們使用kaggle api來進行下載。 pip install kaggle 然後去你的kaggle網站,點選你的my Account 裡面又一個create New

如何linux伺服器下載一個資料夾到windows電腦

網上看到這個帖子,覺得很實用,轉載儲存下載一個部署資料夾,到本地電腦 。兩步可搞定。1. 把資料夾打包 。tar -zcvf istester.com.gz istester.com/2. 把壓縮包下載下來。sz istester.com.gz注:1)如果linux伺服器沒有

web自動化 excel 單倍型位置資料讀取到網頁鹼基序列,自動填寫NCBI的blast表單 並提交自動化流程

#匯入資料庫 import requests import pandas as pd from selenium import webdriver import time import pyperclip from selenium.webdriver.common.keys import

前臺資料json序列化,postget中取py資料型別:QueryDict轉字典dict

前端 $.ajax({ url:"/count_home/", type:"GET", data:JSON.stringify({ first_num:$("

Logstash學習10_LogstashKafka檔案接收資料的配置demo介紹

下面介紹兩個Logstash的配置Demo: Demo1: input { kafka { zk_connect => "10.10.16.2:2181,10.10.16.3:2181,10.10.16.4:2181" group_id => "test

向HBase中匯入資料3:使用MapReduceHDFS本地檔案中讀取資料並寫入HBase(增加使用Reduce批量插入)

前面我們介紹了:為了提高插入效率,我們在前面只使用map的基礎上增加使用reduce,思想是使用map-reduce操作,將rowkey相同的項規約到同一個reduce中,再在reduce中構建put物件實現批量插入測試資料如下:注意到有兩條記錄是相似的。package cn

java web 伺服器上下載圖片資料

package com.Action; import java.io.File; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import

SQLxlsxlsx匯入資料

SQL匯入xls資料格式: SELECT * INTO test FROM OPENROWSET('MICROSOFT.JET.OLEDB.4.0','Excel 5.0;HDR=YES;DATABASE=d:/測試.xls',sheet1$) SQL匯入xlsx資料格式:

Sql Server 日誌中恢復誤刪除誤Update的資料

最近在研究SQL Server日誌,基本明白日誌的記錄方式。 如果資料庫在建立時 “恢復模式”是“完整”模式,那麼,在對資料庫做的任何操作都會記錄在LDF日誌檔案中,所以有時我們發現LDF日誌檔案要比MDF資料檔案都大。 看一下軟體介面: 軟體基本功能就是讀取LDF日誌檔

xmlyml檔案中讀取資料

CvFileStorage:檔案儲存器,這是資料持久化和RTTI部分基礎的資料結構,該部分的其他函式均通過此結構來訪問檔案。 typedef struct CvFileStorage {     int flags;     int is_xml;     int write_mode;     int i

[ppurl]”皮皮書屋”下載電子書的姿勢

ace pdf pla 存在 evel white 這份 tails 不想 (歡迎轉載,轉載請註明出處:http://blog.csdn.net/hcbbt/article/details/42072545) 寫在前面的扯皮 為什麽標題的”皮皮書屋”加上了引號,由於皮

java實現url路徑中下載pdf文檔到本地

clas filename input 自己 lis pdf import tin -a package com.cellstrain.icell.util;import java.io.*;import java.net.*;public class DownloadPd