1. 程式人生 > >0079-【生信軟體】-人類基因組hg19、hg38構建bwa索引

0079-【生信軟體】-人類基因組hg19、hg38構建bwa索引

在臨床資料分析時,使用的人類參考基因組為UCSC上面的hg19,hg39版本,且常常將除1-22,X,Y,M,以外的染色體去除,避免資料的干擾。

hg19索引構建

This directory contains the Feb. 2009 assembly of the human genome (hg19,
GRCh37 Genome Reference Consortium Human Reference 37 (GCA_000001405.1)),
as well as repeat annotations and GenBank sequences.

The Feb. 2009 human reference sequence (GRCh37) was produced by the
Genome Reference Consortium:
	http://www.ncbi.nlm.nih.gov/projects/genome/assembly/grc/
  1. 需要下載的檔案
chromFa.tar.gz - The assembly sequence in one file per chromosome.
    Repeats from RepeatMasker and Tandem Repeats Finder (with period
    of 12 or less) are shown in lower case; non-repeating sequence is
    shown in upper case.

md5sum.txt - checksums of files in this directory

hg19.chrom.sizes - Two-column tab-separated text file containing assembly
    sequence names and sizes.
  1. 檢測檔案完整性
# 開啟碼檔案
cat md5sum.txt
## 將chromFa.tar.gz的碼寫入一個新檔案
 echo "ec3c974949f87e6c88795c17985141d3  chromFa.tar.gz" > check_md5sum.txt

## 檢測
 md5sum -c check_md5sum.txt
 ##顯示 chromFa.tar.gz: OK
  1. 檢視染色體,看染色體命名規律
cat hg19.chrom.sizes |head -n 25
## 顯示
chr1    249250621
chr2    243199373
chr3    198022430
chr4    191154276
chr5    180915260
chr6    171115067
chr7    159138663
chrX    155270560
chr8    146364022
chr9    141213431
chr10   135534747
chr11   135006516
chr12   133851895
chr13   115169878
chr14   107349540
chr15   102531392
chr16   90354753
chr17   81195210
chr18   78077248
chr20   63025520
chrY    59373566
chr19   59128983
chr22   51304566
chr21   48129895
chr6_ssto_hap7  4928567
  1. 解壓參考基因組,顯示所有染色體單個檔案
tar -zxf chromFa.tar.gz
  1. 將不要的染色體,移動到暫存的資料夾
mv chrUn_gl0002* chr*_random.fa  chr*ctg* chr*apd* chr*cox* chr*hap* temp

#mkdir chrfa
#mv chromFa.tar.gz chrfa/

當面目錄只剩下

chr1.fa chr2.fa chr3.fa chr4.fa chr5.fa chr6.fa chr7.fa chr8.fa chr9.fa chr10.fa chr11.fa chr12.fa chr13.fa chr14.fa chr15.fa chr16.fa chr17.fa chr18.fa chr19.fa chr20.fa chr21.fa chr22.fa chrX.fa chrY.fa chrM.fa
  1. 將需要的染色體進行合併,並移動到單個fa檔案暫存資料夾
for i in chr1.fa chr2.fa chr3.fa chr4.fa chr5.fa chr6.fa chr7.fa chr8.fa chr9.fa chr10.fa chr11.fa chr12.fa chr13.fa chr14.fa chr15.fa chr16.fa chr17.fa chr18.fa chr19.fa chr20.fa chr21.fa chr22.fa chrX.fa chrY.fa chrM.fa
do
	echo $i;
	#cat $i >> hg19.fa
	mv $i chrfa
done
  1. bwa進行索引構建
bwa index -a bwtsw -p hg19.fa hg19.fa

索引構建完後顯示

[BWTIncConstructFromPacked] 670 iterations done. 6154206942 characters processed.
[BWTIncConstructFromPacked] 680 iterations done. 6177547390 characters processed.
[bwt_gen] Finished constructing BWT in 687 iterations.
[bwa_index] 2423.30 seconds elapse.
[bwa_index] Update BWT... 19.05 sec
[bwa_index] Pack forward-only FASTA... 16.77 sec
[bwa_index] Construct SA from BWT and Occ... 1192.17 sec
[main] Version: 0.7.17-r1188
[main] CMD: bwa index -a bwtsw -p hg19.fa hg19.fa
[main] Real time: 3814.250 sec; CPU: 3676.297 sec

檔案生成檢視

[email protected]:/mnt/j/BIO001-bioinfos-refseq-doc/UCSC/hg19$ ls -lht
total 8.0G
-rwxrwxrwx 1 toucan toucan 3.0G Sep 27 09:53 hg19.fa

-rwxrwxrwx 1 toucan toucan 1.5G Sep 27 11:17 hg19.fa.sa
-rwxrwxrwx 1 toucan toucan 6.6K Sep 27 10:57 hg19.fa.amb
-rwxrwxrwx 1 toucan toucan  944 Sep 27 10:57 hg19.fa.ann
-rwxrwxrwx 1 toucan toucan 739M Sep 27 10:57 hg19.fa.pac
-rwxrwxrwx 1 toucan toucan 2.9G Sep 27 10:57 hg19.fa.bwt

-rwxrwxrwx 1 toucan toucan 3.5K Sep 27 13:16 work_index.log
-rwxrwxrwx 1 toucan toucan  685 Sep 27 10:06 work_index.sh
drwxrwxrwx 1 toucan toucan 4.0K Sep 27 09:58 chrfa
drwxrwxrwx 1 toucan toucan 4.0K Sep 27 09:17 temp
drwxrwxrwx 1 toucan toucan 4.0K Sep 27 09:00 download
  1. 索引構建完成

hg38構建索引

hg38.fa.gz - "Soft-masked" assembly sequence in one file.
    Repeats from RepeatMasker and Tandem Repeats Finder (with period
    of 12 or less) are shown in lower case; non-repeating sequence is
    shown in upper case.

 hg38.fa.gz - "Soft-masked" assembly sequence in one file.
    Repeats from RepeatMasker and Tandem Repeats Finder (with period
    of 12 or less) are shown in lower case; non-repeating sequence is
    shown in upper case.

md5sum.txt - checksums of files in this directory

hg38.chrom.sizes - Two-column tab-separated text file containing assembly
    sequence names and sizes.
  1. 檢查檔案完整性
[email protected]:/mnt/j/BIO001-bioinfos-refseq-doc/UCSC/hg38/genome/downloads$ echo "1c9dcaddfa41027f17cd8f7a82c7293b  hg38.fa.gz" >> check_md5sum.txt
[email protected]:/mnt/j/BIO001-bioinfos-refseq-doc/UCSC/hg38/genome/downloads$ echo "a5aa5da14ccf3d259c4308f7b2c18cb0  hg38.chromFa.tar.gz" >> check_md5sum.txt
[email protected]:/mnt/j/BIO001-bioinfos-refseq-doc/UCSC/hg38/genome/downloads$ cat check_md5sum.txt
1c9dcaddfa41027f17cd8f7a82c7293b  hg38.fa.gz
a5aa5da14ccf3d259c4308f7b2c18cb0  hg38.chromFa.tar.gz

[email protected]:/mnt/j/BIO001-bioinfos-refseq-doc/UCSC/hg38/genome/downloads$ md5sum -c check_md5sum.txt
hg38.fa.gz: OK
hg38.chromFa.tar.gz: OK
  1. 檢視染色體命名規則
[email protected]:/mnt/j/BIO001-bioinfos-refseq-doc/UCSC/hg38/genome/downloads$ cat hg38.chrom.sizes |head -n 25
chr1    248956422
chr2    242193529
chr3    198295559
chr4    190214555
chr5    181538259
chr6    170805979
chr7    159345973
chrX    156040895
chr8    145138636
chr9    138394717
chr11   135086622
chr10   133797422
chr12   133275309
chr13   114364328
chr14   107043718
chr15   101991189
chr16   90338345
chr17   83257441
chr18   80373285
chr20   64444167
chr19   58617616
chrY    57227415
chr22   50818468
chr21   46709983
  1. 解壓染色體單個檔案
tar -zxf hg38.chromFa.tar.gz
cd chroms/
  1. 合併需要的染色體檔案
 mkdir chrfa

 cat work.sh
for i in chr1.fa chr2.fa chr3.fa chr4.fa chr5.fa chr6.fa chr7.fa chr8.fa chr9.fa chr10.fa chr11.fa chr12.fa chr13.fa chr14.fa chr15.fa chr16.fa chr17.fa chr18.fa chr19.fa chr20.fa chr21.fa chr22.fa chrX.fa chrY.fa chrM.fa
do
        echo $i;
        cat $i >> ../hg38.fa
        mv $i ../chrfa
done

[email protected]:/mnt/j/BIO001-bioinfos-refseq-doc/UCSC/hg38$ rm -rf chroms/
[email protected]:/mnt/j/BIO001-bioinfos-refseq-doc/UCSC/hg38$ mv hg38.chromFa.tar.gz chrfa/

檢視結果

[email protected]:/mnt/j/BIO001-bioinfos-refseq-doc/UCSC/hg38$ cat hg38.fa |grep ">"|uniq -c
      1 >chr1
      1 >chr2
      1 >chr3
      1 >chr4
      1 >chr5
      1 >chr6
      1 >chr7
      1 >chr8
      1 >chr9
      1 >chr10
      1 >chr11
      1 >chr12
      1 >chr13
      1 >chr14
      1 >chr15
      1 >chr16
      1 >chr17
      1 >chr18
      1 >chr19
      1 >chr20
      1 >chr21
      1 >chr22
      1 >chrX
      1 >chrY
      1 >chrM

  1. bwa構建索引
bwa index -a bwtsw -p hg38.fa hg38.fa

輸出顯示:

[BWTIncConstructFromPacked] 630 iterations done. 6018708242 characters processed.
[BWTIncConstructFromPacked] 640 iterations done. 6055482898 characters processed.
[BWTIncConstructFromPacked] 650 iterations done. 6088164258 characters processed.
[BWTIncConstructFromPacked] 660 iterations done. 6117207522 characters processed.
[BWTIncConstructFromPacked] 670 iterations done. 6143017202 characters processed.
[BWTIncConstructFromPacked] 680 iterations done. 6165952882 characters processed.
[bwt_gen] Finished constructing BWT in 686 iterations.
[bwa_index] 2564.67 seconds elapse.
[bwa_index] Update BWT... 19.27 sec
[bwa_index] Pack forward-only FASTA... 16.36 sec
[bwa_index] Construct SA from BWT and Occ... 1230.34 sec
[main] Version: 0.7.17-r1188
[main] CMD: bwa index -a bwtsw -p hg38.fa hg38.fa
[main] Real time: 3969.074 sec; CPU: 3855.406 sec

輸出檔案

-rwxrwxrwx 1 toucan toucan 3150052305 Oct  5 15:44 hg38.fa*
-rwxrwxrwx 1 toucan toucan      16843 Oct  5 16:34 hg38.fa.amb*
-rwxrwxrwx 1 toucan toucan        954 Oct  5 16:34 hg38.fa.ann*
-rwxrwxrwx 1 toucan toucan 3088286508 Oct  5 16:33 hg38.fa.bwt*
-rwxrwxrwx 1 toucan toucan  772071602 Oct  5 16:34 hg38.fa.pac*
-rwxrwxrwx 1 toucan toucan 1544143256 Oct  5 16:54 hg38.fa.sa*

其他索引構建

fai結尾

samtools faidx hg19.fa

## 顯示生成
hg19.fa.fai

samtools faidx hg38.fa

dict結尾

gatk CreateSequenceDictionary -R hg19.fa -O hg19.dict

相關推薦

0079-軟體-人類基因組hg19hg38構建bwa索引

在臨床資料分析時,使用的人類參考基因組為UCSC上面的hg19,hg39版本,且常常將除1-22,X,Y,M,以外的染色體去除,避免資料的干擾。 hg19索引構建 This directory con

084-軟體-ANNOVAR軟體幫助文件

安裝 會郵件收到一個軟體安裝包 annovar.latest.tar/ 包含的perl指令碼 [email protected] /opt/script/tool/annovar Sun Oct 07 16:42 forstart $tree

Fastq與Fasta格式

Fastq與Fasta格式 一、關於Fastq FASTQ是基於文字的,儲存生物序列(通常是核酸序列)和其測序質量資訊的標準格式。其序列以及質量資訊都是使用一個ASCII字元標示,最初由Sanger開發,目的是將FASTA序列與質量資料放到一起,目前已經成為高通量測序結果的事實標準。

KEGG資料庫線上使用

KEGG資料庫線上使用 KEGG簡介 KEGG是一個整合了基因組、化學和系統功能資訊的資料庫。把從已經完整測序的基因組中得到的基因目錄與更高級別的細胞、物種和生態系統水平的系統功能關聯起來是KEGG資料庫的特色之一。與其他資料庫相比,KEGG 的一個顯著特點就是具有強大的圖

Docker基礎

Docker生信基礎 Docker可以做什麼? 提供一個虛擬化的操作平臺,便於安裝依賴不同版本系統的工具軟體 提供一個即時可用的應用軟體或流程的映象,開發者可將軟體部署到映象中,使用者直接下載使用 提供一個系統資源分配的靈活方式,可以為不同使用者的程式分配獨立的計算

“隨機森林”在生物資訊學方面的應用

“隨機森林”在生物資訊學方面的應用 簡介 隨機森林是一種基於決策樹的機器學習演算法,可以用於樣本分類或迴歸任務,屬於非線性分類器。因此它可以挖掘變數之間複雜的非線性的相互依賴關係。通過隨機森林分析,可以找出區分兩組樣本間差異的關鍵成分。 基礎知識 1. 整合學習(ensemb

開發02.搭建一個屬於自己的微公眾平臺

tro 投票 新浪 關系 blank 訂閱 logs name 開發者 閱讀目錄 【網站開發】在新浪SAE上搭建一個博客 概述   公司年會上同事開發了一個微信企業號,包含了投票,抽獎,祝福墻功能,還開了一個Session,跟我們講了下公司的企業號開發過程和抽獎中獎

開發-- 發送模板消息

use keyword 選擇 調用 一次 png exc style col 我們需要將一些行為的進展消息推送給用戶。除了短信,發送微信模板消息也是不錯的選擇。模板消息免費、精準到達、而且可以引導用戶回到網站上來。但它有兩個前提條件。1個是必須開通了微信支付功能,你才能選擇

開發公眾號後臺底部選單欄json資料加入(獲取)方式操作

首先獲取微信公號的  開發者ID(AppID)  開發者密碼(AppSecret) 登入公眾號 找到以下選項   找到獲得access_token的引數 根據引數取得access_token URL: https://a

c語言入門軟體dev新建工程執行和除錯

dev新建工程、執行和除錯 上一次安裝中,曾讓你們把安裝路徑記下來,現在我們可以找到安裝路徑,拷貝出裡面的help資料夾,開啟到這裡,我們將比較官方的形式來了解以下dev的使用。 1.Editing 在編輯之前,我們需要新建一個dev的工程和擬寫一個簡單的程式

開發上傳使用者語音 並轉碼 分享

好久沒有寫部落格了,這段時間遇到了很多問題都沒有記錄下來 今天剛好上線了一個小活動,期間遇到一些比較折騰的問題,撐著有時間記錄一下 需求 臨近聖誕節,運營組想了一個活動來拉新,活動的大概內容是這樣的; 使用者訪問活動首頁, 點選 【我想說】 然後呼叫微信的 JSDK 來錄音,錄

Mac日曆軟體小歷 TinyCal for Mac中文破解版

小歷 Mac破解版是一款小巧輕量級的日曆軟體,它為使用者顯示農曆、節日節氣和法定節假日,所有功能一應俱全!是一款不可多得的日曆軟體,堪稱Mac平臺上最優秀,最好用的日曆軟體! 小歷 TinyCal for Mac(小而美的日曆軟體) v1.10.0中文破解版下載地址 小歷Mac版軟體介

frank 的專欄人類的一切智慧是包含在這四個字裡面的:”等待“ 和 ”希望“。—— 《基督山伯爵》

個人介紹 我是一名程式設計師,但也是一位文學愛好者,興趣廣泛,對這個世界美好事物充滿好奇心。天文地理、大象螞蟻,我將不定期發表 IT 技術類文章、讀書筆記、影評、廚藝分享,如果你覺得有趣,可以關注我的公眾號,這個世界值得我們一起學習與探索。

成樹,堆CF1095F Make It Connected

Description 給定 \(n\) 個點,每個點有點權,連結兩個點花費的代價為兩點的點權和。另外有 \(m\) 條特殊邊,引數為 \(x,y,z\)。意為如果你選擇這條邊,就可以花費 \(z\) 的代價將點 \(x\) 和點 \(y\) 連結起來,當然你也可以不選擇這條邊。求使整個圖聯通的最小代價

支付調起微支付,總是顯示-1的解決辦法

如果你檢查過 APPID,檢查過商戶號,檢查過包名,檢查過應用簽名,依然顯示 -1 那麼你可以嘗試我這種方式 記住下面這句話 https://pay.weixin.qq.com/wiki/doc/api/app/app.php?chapter=8_5 商戶伺服器生成支付訂

授權極其簡單的實現方法

強烈推薦使用一個工具包,在maven的中心倉庫中搜索"weixin-java"就可以搜尋到,感謝這位大佬的作品,大大簡化了微信端開發的難度。 接下來是一個簡單例子,是我在我的實際專案中抽取出來的一部分,專案使用的是springboot框架,但是無論使用什麼框架微信授權的步驟

一個二維碼掃描自動識別下載應用提示

先前寫了一個關於二維碼掃描自動識別裝置系統,並自動去下載相應版本的APP, 前一段時間微信掃描後,則不可再下載,原因是微信遮蔽了,只能提示使用者從瀏覽器開啟,並自動下載; 下載的介面效果: 下載的 download.html 程式碼段: <!DOCTYP

支付小程式之企業支付

之前,做過的是公眾號發紅包的操作,今天我要介紹的是微信支付的企業支付,小程式之內的企業支付。 如果對企業支付不瞭解的,可以點此連結去看下微信官方的企業支付介紹。 企業支付傳送的主體,也是根據微信公眾號一樣獲取的到的openID來發送,不同於紅包的

混淆新的jar混淆無法分享問題

場景:最近公司需要做微信支付,引用新的jar包,發現混淆後無法分享。 思路:1、開始以為是支付的jar包和分享的不一致,最後換了一個統一的,使用微信Sample分享沒有問題    2、將Sample改

開發開啟開發者模式

前言   我們利用微信公眾平臺為使用者提供服務的方式基本上可以分為兩種: 後臺編輯模式 ,公眾號管理員直接在微信後臺處理使用者請求。 開發者模式,使用微信提供的介面,將使用者的請求通過微信平臺轉發到開發者的應用程式中。   在開發者