1. 程式人生 > >BioNano生物納米分子的“原始數據到完成裝配和組裝分析”管線與基於序列的基因組FASTA映射

BioNano生物納米分子的“原始數據到完成裝配和組裝分析”管線與基於序列的基因組FASTA映射

mach read code tar 文本文 項目目錄 基本 組合 erl

生物納米分子的“原始數據到完成裝配和組裝分析”管線與基於序列的基因組FASTA映射

技術分享

您完成本實驗以及示例數據集所需的所有腳本將按照以下說明復制到計算機。您應該按照以下說明,將米色代碼塊中的文本鍵入或粘貼到終端中。如果你不習慣命令行,用真實數據練習是最好的學習方式之一。

註意:此管道旨在運行在具有576個內核(48x12核心Intel Xeon CPU),256GB RAM和Linux CentOS 7操作系統的Xeon Phi服務器上。可能需要自定義Irys-scaffolding / KSU_bioinfo_lab / assemble_XeonPhi / rescale_stretch.pl的“自定義RefAligner設置”部分,以在不同的機器上運行BioNano Assembler。

也可能需要定制Irys腳手架/ KSU_bioinfo_lab / assemble_XeonPhi / clusterArguments.xml,以便程序集在不同的群集上成功運行。

如果你想要一個基本的linux命令的快速入門,請嘗試從軟件木工http://software-carpentry.org/v4/shell/index.html這10分鐘的課程

我們將使用從大腸桿菌基因組DNA在BioNano Irys基因組測繪系統上生成的單分子圖的BNX文件。我們將準備這些原始分子圖,並為他們編寫並運行一系列的組件。然後我們將找到最好的裝配,並將其用於超級支架,並與大腸桿菌str的片段拷貝進行比較。K-12子

DH10B基因組,並總結了我們的最終裝配指標和排列。

assemble_XeonPhi管道的基本步驟是A)Irys生成轉換成分子圖的BNX文本文件的TIFF文件。B)每個IrysChip為兩個流通池中的每一個生成一個BNX文件。C)每個BNX文件的bnx/子目錄-a合並工作目錄,匯總和繪制分子圖質量度量。D)如果提供了引用,則合並的BNX文件將與序列引用中的計算機映射對齊。拉伸從對準重新縮放,並且每次掃描都會打印重新縮放系數。重新縮放的分子圖與參考對齊,估計噪聲參數。E)基於估計的基因組大小和噪聲參數確定基本匯編代碼。F)第一個組件以各種p值閾值運行(至少有一個組件也運行有抑制噪聲參數)。G)選擇最好的第一個組件(紅色橢圓形),並使用各種最小分子長度過濾器生成該組件的版本。

技術分享

當您通過本實驗室,您應該閱讀關於軟件正在使用通過生成和閱讀幫助菜單。

嘗試-man標誌而不是-help標誌更詳細的程序描述(您鍵入q並輸入從手動屏幕退出)。

###步驟1:克隆Git存儲庫

以下工作流程需要安裝生物納米腳本和可執行文件中~/scripts,並~/tools分別目錄。按照http://www.bnxinstall.com/training/docs/IrysViewSoftwareInstallationGuide.pdf中的“2.5.1 IrysSolve服務器RefAligner和Assembler”部分中的Linux安裝說明進行操作

完成此操作後,使用以下代碼安裝KSU自定義軟件:

cd ~
git clone https://github.com/i5K-KINBRE-script-share/Irys-scaffolding.git
git clone https://github.com/i5K-KINBRE-script-share/BNGCompare.git

###步驟2:創建具有樣本輸入數據的項目目錄

制作一份工作目錄sample_assembly_working_directory該目錄具有大腸桿菌str的片段拷貝。K-12子 DH10B完整的基因組。雖然只有Molecules.bnx文件有任何內容,列出的文件名與IrsyView工作區“Datasets”目錄中可以看到的文件名相同。

cp -r ~/Irys-scaffolding/KSU_bioinfo_lab/sample_assembly_working_directory ~

###步驟3:檢查刻度密度

閱讀本節中的軟件:

perl ~/Irys-scaffolding/KSU_bioinfo_lab/map_tools/nick_density.pl -help

perl ~/Irys-scaffolding/KSU_bioinfo_lab/assemble_XeonPhi/third-party/fa2cmap_multi.pl -help

在silico切口基因組FASTA和檢查nick密度(為了節省時間,您可以添加--two_enzyme標誌跳過除BspQI和BbvCI之外,這兩個最常用的酶,如果這兩個工作不重新檢查所有可能的酶)

perl ~/Irys-scaffolding/KSU_bioinfo_lab/map_tools/nick_density.pl ~/sample_assembly_working_directory/fasta_and_cmap/NC_010473_mock_scaffolds.fna

目的是找到每100 kb具有10至20個切口的酶或酶組合。在這種情況下,結果nick_density.pl表明我們應該使用BspQI酶,每100 kb估計為14.868。

nick_density.pl腳本創建了可用於計算機圖CMAP或標記反應的所有可能的酶的CMAP。您可以使用以下命令查看這些。

ls ~/sample_assembly_working_directory/fasta_and_cmap/cmaps/

如果需要雙重切口(例如使用BspQI和BbvCI),因為單酶切痕密度太低,請運行以下命令創建計算機圖CMAP。

perl ~/Irys-scaffolding/KSU_bioinfo_lab/assemble_XeonPhi/third-party/fa2cmap_multi.pl -v -i ~/sample_assembly_working_directory/fasta_and_cmap/NC_010473_mock_scaffolds.fna -e BspQI BbvCI

###步驟4:Molecules.bnx從IrysView Dataset子目錄獲取文件

閱讀本節中的軟件:

perl ~/Irys-scaffolding/KSU_bioinfo_lab/assemble_XeonPhi/prep_bnxXeonPhi.pl -help

在真實的工作流程中,您可以將Datasets目錄從IrysView 移動到裝配工作目錄並運行prep_bnxXeonPhi.pl在這種情況下,Datasets目錄已經在我們的工作目錄中。

perl ~/Irys-scaffolding/KSU_bioinfo_lab/assemble_XeonPhi/prep_bnxXeonPhi.pl -a ~/sample_assembly_working_directory

通過在新bnx子目錄中查找Molecule BNX文件來檢查它是否有效您調用的下一個腳本將在bnx程序集中使用組裝目錄子目錄中的任何BNX文件

ls ~/sample_assembly_working_directory/bnx

#####請註意,如果您需要直接從Irys創建新的Datasets目錄數據:

要創建一個新的Datasets目錄,請在您的數據上運行“AutoDetect”。接下來,將所需的流池導入新的IrsyView工作區。導入後,您需要單擊工作空間中列出的每個流池才能Molecules.bnx從該RawMolecules.bnx文件生成一個文件。每次點擊後,等到RunReportIyrsView顯示,然後再移動到下一個流池。最後,將整個Datasets目錄移動到您的linux機器和與本實驗室相同的工作流程來分析您自己的數據。

###步驟5:準備分子圖(即Molecules.bnx文件中的映射)並編寫匯編腳本

閱讀本節中的軟件:

perl ~/Irys-scaffolding/KSU_bioinfo_lab/assemble_XeonPhi/AssembleIrysXeonPhi.pl -help

運行AssembleIrysXeonPhi.pl以生成您的分子圖的摘要指標MapStatsHistograms.pdf,以及BNX文件中每次掃描的重新縮放因子bnx_rescaling_factors.pdf運行AssembleIrysXeonPhi.pl還將輸出一個名為的程序集腳本assembly_commands.sh,其中包含具有各種參數的程序集的命令。每組參數都有自己的腳本創建的輸出子目錄。

perl ~/Irys-scaffolding/KSU_bioinfo_lab/assemble_XeonPhi/AssembleIrysXeonPhi.pl -a ~/sample_assembly_working_directory -g 5 -p Esch_coli_1_2015_000 -r ~/sample_assembly_working_directory/fasta_and_cmap/cmaps/NC_010473_mock_scaffolds_BspQI.cmap

瀏覽此腳本在~/sample_assembly_working_directory/目錄中的輸出

~/sample_assembly_working_directory/Esch_coli_1_2015_000/MapStatsHistograms.pdf文件包含有關分子圖> 100 kb的信息。該信息包括分子圖N50和累積長度,圖數,分子圖信噪比(SNR),分子圖強度,每分子圖的平均標記SNR和每分子圖的平均標記強度。

~/sample_assembly_working_directory/Esch_coli_1_2015_000/bnx_rescaling_factors.pdf文件顯示BNX文件的每次掃描的重新調整因子。此輸出會因機器和IrysChip版本而異。它也受到Irys上運行的樣品與用於組裝基於序列的參考樣品之間的標記基序相似度的影響。在您的機器上,您可能會註意到高質量BNX文件的可預測模式。一個這樣的模式的示例如下所示:

技術分享

匯編腳本~/sample_assembly_working_directory/assembly_commands.sh是寫入除了四個程序集命令之外的所有註釋掉的。如果在運行此命令後,沒有創建令人滿意的程序集,則具有更高和/或更低最小分子圖長度以及最佳組合p值閾值的卸載組件。還要註釋掉已經運行並保存腳本的程序集。重新運行改變的腳本,看看新參數是否改進了程序集。

###步驟6:運行匯編腳本

閱讀本節中的軟件:

python2 ~/scripts/pipelineCL.py -help

使用以下命令啟動您的前四個程序集:

nohup bash ~/sample_assembly_working_directory/assembly_commands.sh &> ~/sample_assembly_working_directory/assembly_commands_out.txt

###步驟7:評估你的程序集

閱讀本節中的軟件:

perl ~/Irys-scaffolding/KSU_bioinfo_lab/assemble_XeonPhi/assembly_qcXeonPhi.pl -help

檢查您的程序集的質量assembly_qcXeonPhi.pl

perl ~/Irys-scaffolding/KSU_bioinfo_lab/assemble_XeonPhi/assembly_qcXeonPhi.pl -a ~/sample_assembly_working_directory -g 5 -p Esch_coli_1_2015_000

最終目標通常是產生可用於指導基於序列的單倍體參考基因組裝配的共有基因組圖譜。雖然單分子圖可用於重建單倍型,但基因組組裝涉及將多態性任意塌陷到共有參考基因組中。因此,理想的共有基因組圖譜的累積長度應等於估計的單倍體基因組長度。另外,100%的共識基因組圖將非冗余地對齊到計算機圖中的100%。在實踐中,最佳的BioNano裝配是基於與計算機圖中參考的估計的單倍體基因組長度的相似性和最小對準冗余度來選擇的。“對齊覆蓋寬度”和“總對齊長度”之間的差異越大,對齊冗余越大。

例如,在下圖中,Strict-T裝配是最好的裝配體,因為它的累積尺寸接近200 Mb,估計的基因組大小,以及非冗余對齊長度或“寬度對齊覆蓋“和”總對齊長度“。

技術分享

看看~/sample_assembly_working_directory/Assembly_parameter_tests.pdf文件看看這個程序集的結果。

該文件~/sample_assembly_working_directory/Assembly_parameter_tests.csv有關每個程序集的其他詳細信息,如果在查看後沒有明確的最佳程序集可以使用~/sample_assembly_working_directory/Assembly_parameter_tests.pdf

###步驟8:將您的最佳組合與電子地圖中的參考進行比較

閱讀本節中的軟件:

perl ~/Irys-scaffolding/KSU_bioinfo_lab/stitch/sewing_machine.pl -help

sewing_machine.pl是編譯匯編指標的腳本,並在所有可能的目錄中執行“最佳”程序集的拼接:“strict_t”,“default_t”,“relaxed_t”等

針跡過濾器通過置信度對齊XMAP文件,並且對齊的最大潛在長度的百分比。置信度的第一個設置和對齊的全部潛在長度的最小百分比應該被設置為包括在查看原始XMAP之後研究人員決定代表高質量對齊的範圍。由於標簽密度低或基於短序列的支架長度,某些比對低於最佳置信度。第二組濾波器應具有用戶定義的較低最小置信度分數,但是為了捕獲這些對準,該比對的最大潛在長度的百分比高得多。應在IrysView中檢查結果過濾的XMAP,以查看對齊方式與用戶手動選擇的一致。每次跑步時,都會找到最好的超級腳手架對齊。run_compare.pl 直到所有超級腳手架都被發現。

我們將從置信度分數(--f_con--s_con)的可能的對齊閾值(--f_algn--s_algn)的百分比開始默認過濾參數一般來說,我們從默認參數開始,然後測試或多或少的嚴格選項,如果我們的第一個結果不令人滿意

perl ~/Irys-scaffolding/KSU_bioinfo_lab/stitch/sewing_machine.pl -b ~/sample_assembly_working_directory/strict_t_150 -p Esch_coli_1_2015_000 -e BspQI -f ~/sample_assembly_working_directory/fasta_and_cmap/NC_010473_mock_scaffolds.fna -r ~/sample_assembly_working_directory/fasta_and_cmap/cmaps/NC_010473_mock_scaffolds_BspQI.cmap

###步驟9:選擇最佳對齊參數,並總結您的結果

閱讀本節中的軟件:

perl ~/Irys-scaffolding/KSU_bioinfo_lab/assemble_XeonPhi/write_report.pl -help

打開~/sample_assembly_working_directory/NC_010473_mock_scaffolds_BNGCompare.csv文件找到最佳對齊參數。像選擇最好的組件一樣,您想要找到平衡靈敏度(即長整體對齊長度)的結果,而不會過度增加對齊冗余。

perl ~/Irys-scaffolding/KSU_bioinfo_lab/assemble_XeonPhi/write_report.pl -b ~/sample_assembly_working_directory/strict_t_150 -p Esch_coli_1_2015_000 -e BspQI -f ~/sample_assembly_working_directory/fasta_and_cmap/NC_010473_mock_scaffolds.fna -r ~/sample_assembly_working_directory/fasta_and_cmap/cmaps/NC_010473_mock_scaffolds_BspQI.cmap --alignment_parameters default_alignment

###第10步:在IrysView中探索你的結果

讀取您的~/sample_assembly_working_directory/report.txt文件或瀏覽~/sample_assembly_working_directory/Esch_coli_1_2015_000輸出目錄中的文件~/sample_assembly_working_directory/Esch_coli_1_2015_000目錄的內容也在~/sample_assembly_working_directory/Esch_coli_1_2015_000.tar.gz文件中壓縮將其移動到Windows機器,並按照https://github.com/i5K-KINBRE-script-share/Irys-scaffolding/blob/master/KSU_bioinfo_lab/assemble_XeonPhi/README.pdf文件中的說明查看IrysView中的對齊方式。以下步驟將很難完成,除非您已閱讀README.md文件。

按照加載XMAP的說明,首先將原始計算機映射的XMAP文件導入到組裝的基因組圖中。這將在Esch_coli_1_2015_000/align_in_silico_xmap目錄中。

技術分享

以上是第一個對齊方式的屏幕截圖(在“silico map#2”,“silico map#3”,“silico map#4”,“silico map#1”中排序錨點“之後)。

接下來將計算機圖中超級腳手架的XMAP文件導入到組裝的基因組圖中。這將在Esch_coli_1_2015_000/align_in_silico_super_scaffold_xmap目錄中。

技術分享

以上是第二次排列(在基準圖上對齊的超級腳手架的超級腳手架)的屏幕截圖。

接下來加載超薄腳架的重疊疊加料杯的BED文件在電腦地圖中。這將是Esch_coli_1_2015_000/super_scaffold/Esch_coli_1_2015_000_20_40_15_90_2_superscaffold.fasta_contig.bed還有一個BED文件的超級腳手架在電腦地圖的空白,但這個樣本基因組的差距非常小,因此在對齊中更難以查看Esch_coli_1_2015_000/super_scaffold/Esch_coli_1_2015_000_20_40_15_90_2_superscaffold.fasta_contig_gaps.bed

技術分享 以上是您需要遵循的菜單的屏幕截圖才能開始加載BED文件。

技術分享 以上是您需要遵循的菜單的屏幕截圖,以便找到超薄腳架在電子地圖中的重疊蓋BED文件。

技術分享 以上是加載了Contig BED文件的第二個對齊方式的屏幕截圖。

從查看最終的超腳手架對齊切換。sv_xmap將原始的電子地圖從smaps目錄中加載到組裝的基因組圖上您可以通過在左側的“比較圖”窗口中突出顯示其他對齊方式。按照README.md中的說明導入SMAP和合並的BED文件。

從屏幕底部的“Anchor”下拉列表中查看單個錨點時,您只會看到註釋。錨點1是唯一具有預測結構變體的錨。查看註釋通常需要根據README.md中的說明重新繪制圖像

技術分享 以上是在SV註釋加載之後但在重繪以查看所有標簽之前的計算機映射錨點#1的SV預測的屏幕截圖。

技術分享 以上是SV註釋加載後以及重新繪制以查看所有標簽之後的計算機映射錨點#1的SV預測的屏幕截圖。

BioNano生物納米分子的“原始數據到完成裝配和組裝分析”管線與基於序列的基因組FASTA映射