1. 程式人生 > >生物資訊_Call_snp_by_soapsnp_全基因組

生物資訊_Call_snp_by_soapsnp_全基因組

Bwa(13G?):
從兩個clean.fq.gz到兩個.sai再到一個.sam
注:在生成完sam之後檢查有沒有報錯,沒有就可以把.sai刪掉
得到4個.sam檔案
先把其中一個.sam檔案的@開頭的標頭檔案(因為同一個樣品標頭檔案都一樣)cat到一個總的.sam(自己建一個)裡面,接著把4個.sam檔案除去@開頭的行cat到這個sam檔案中,這樣就得到一個總的sam檔案,後面步驟說到的sam檔案也就是指這個。後面的步驟就和單個文庫的一樣。
Get_uniq_map_reads
(0.5G):
從.sam到.filter_sam
注:留意.filter_sam.stat中的過濾率(記下來,評估的時候用著),這次均為80多,確認正常。
Samtools_process
(0.5G):
從.filter_sam到.bam,並對bam進行排序生成.sort.bam,對.sort.bam去重複得.rmdup.bam,最後建.rmdup.bam索引。
注:.bam生成之後可以刪掉.filter_sam。在去重複之後統計一下去重複率(分別用samtools開啟去重複前的.sort.bam和.rmdup.bam檔案,並統計行數,行數比即是)
Split_bam_by_chr(0.5G):
得到按染色體分的bam檔案。
注:最好建一個資料夾放這堆bam。其實不分染色體直接callsnp也行,但是慢。
Call_snp_by_soapsnp(4G):
得到snp
注:最好建一個資料夾放結果。
統計:filter_sam.stat裡面的reads數目和率、rmdup之後的率、結果的平均覆蓋度(ref非N且深度不為0的行數/ref非N的行數)及深度(ref非N的行的深度的和/ref非N的行數)、深度分佈圖(每一個深度的行數和的統計表,並畫圖)。

相關推薦

生物資訊_Call_snp_by_soapsnp_基因組

Bwa(13G?): 從兩個clean.fq.gz到兩個.sai再到一個.sam 注:在生成完sam之後檢查有沒有報錯,沒有就可以把.sai刪掉。 得到4個.sam檔案先把其中一個.sam檔案的@開頭的標頭檔案(因為同一個樣品標頭檔案都一樣)cat到一個總的.sam(自己建一個)裡面,接著把4個.sam檔案除

生物資訊學常見的資料下載,包括基因組,gtf,bed,註釋

cd ~/reference mkdir -p genome/hg19  && cd genome/hg19  nohup wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa

生物資訊學相關網站和部落格資源

 biostars https://www.biostars.org/  生信技能樹 http://www.biotrainee.com/  生信人 https://shengxin.ren/ omicShare http://www.omicshare.com/forum/

基因組選擇中準確性的影響因素

文章目的: 比較全基因組選擇中準確性的影響因素 https://www.researchgate.net/publication/326489349_Prediction_accuracies_of_genomic_selection_in_American_mink_a_sim

R語言 Julia以及基因組選擇

小編著: 最近在學Julia語言,想測試一下和R的區別,發現前輩的部落格,翻譯時不禁感慨,這是2018年了,部落格是2010年的,8年已過,我才聽說Julia。但……不晚! 文章來源: https://www.r-bloggers.com/r-julia-and-genome-

電子科技大學生物資訊學 重點

一: 簡答:研究內容: n  資料管理層面上:開發、設計一系列相關的工具,能夠方便有效的獲取、管理以及使用各種型別的資料和資訊。 n  演算法開發層面上:開發新的演算法及統計學的方法來揭示大規模資料之間的聯絡。 n  研究物件層面上:分析和解釋各種型別的生物學資料,包括核

基因組重測序基礎及高階分析知識彙總

全基因組重測序基礎及高階分析知識彙總   oddxix 已關注 2018.09.20 17:04 字數 11355 閱讀 212評論 0喜歡 6 轉自:http://www.360doc.com/conten

MATLAB生物資訊分析工具箱(一)

這裡給出 MATLAB_R2017a 的生物資訊學工具箱中 自帶的樣例 一覽: 如果是預設安裝,則相關目錄在: C:\Program Files\MATLAB\R2017a\examples\bioinfo 按字母排序如下: AlignMultipleSeq

生物資訊(bioinformation)學名詞解釋

什麼是高通量測序? 高通量測序技術(High-throughput sequencing,HTS)是對傳統Sanger測序(稱為一代測序技術)革命性的改變, 一次對幾十萬到幾百萬條核酸分子進行序列測定, 因此在有些文獻中稱其為下一代測序技術(next generation sequencing,

生物資訊學資料庫資源 {#database}

目錄   ##前言 參考基因組版本 {#genome-version} NCBI Ensembl UCSC ENCODE GENCODE TCGA 1000 GENOME ##前言 做資料分析常常會需要用到參考基因組和註釋檔案,還會需要分

生物資訊程式設計實戰題

目錄   1.生信程式設計很簡單 程式語言系統入門 題目 下載安裝bowtie2(內含測試資料) 2.人類基因組的外顯子區域的長度 題目 測試資料 R實現程式碼示例 3.hg19基因組序列的一些探究 題目 測試資料 Perl程式碼示例

生物資訊資料存放型別 {#filetype}

##前言 各行各業都有在自己的標準體系,生物資訊學資料分析也不例外,各個廠商出品的晶片系列,還有各種NGS組學分析,都會涉及到不同的分析步驟,有著豐富多樣的中間檔案。其中一些常用的檔案就被規定成檔案格式。 檔案格式那麼多,都可以瞭解一二,當然,不需要背誦它們所有的細節,不過對下面我們單獨拿出來詳

生物基礎知識---CDS,基因,Matlab生物資訊工具箱

1.CDS(Sequence coding for aminoacids in protein)蛋白質編碼區 2.每個基因中都有編碼區與非編碼區,其中真核生物編碼區又含有外顯子與內含子,但真核生物的基因中也有無內含子的例外.如組蛋白基因和干擾素基因就沒有內含子.編碼區為編碼蛋白質的有效基

生物資訊通識技術研討會

易生信系列課程 轉錄組,ChIP-seq,擴增子和巨集基因組是從原始資料到分析結果的理論加實戰型課程,課程安排內容飽滿,時間緊張,是學習專業生信分析和解決實際問題的首選課程。這些課程適合零基礎或者有一定分析經驗的朋友學習,但都需要後續加強練習,基礎越好,學的效果越好。不管什麼課程,只想著

獲取螢幕寬高資訊屏切換、保持螢幕常亮、截圖等的工具

這個是我在專案中用到的獲取螢幕寬高資訊、全屏切換、保持螢幕常亮、截圖等的工具 import android.app.Activity; import android.content.Context; import android.util.DisplayMetrics; import

《Python生物資訊學資料管理》高清中文版PDF+英文版PDF+原始碼學習

資源連結:https://pan.baidu.com/s/15W1jfylzBaR9debSJns5UA《Python生物資訊學資料管理》中文版PDF,帶書籤,337頁。《Python生物資訊學資料管理》英文版PDF,帶書籤,556頁。兩版對比學習。配套原始碼。生物資訊學經典資料,解決生物學問題,通過“程式設

生物資訊學演算法筆記

入門生物資訊學,選了一條比較難的路,直接從底層演算法開始,這種做法其實不太明智。讀了"Algorithms on Strings, Trees and Sequences",一本厚厚的演算法書,後半部分其實讀得有些粗糙。今天讀完了第一遍,總的來說還是有些收穫,將筆記記錄於此。 全書總共分為四部分

生物資訊學練習題-亞磊

ANNOROAD0922 生物資訊學練習題 一、data/newBGIseq500_1.fq和data/newBGIseq500_2.fq中是基於BGIseq500測序平臺的一種真核生物基因組DNA的PE101測序資料,插入片段長度為450 bp;已知該基因組大

生物資訊練習###

一、data/newBGIseq500_1.fq和data/newBGIseq500_2.fq中是基於BGIseq500測序平臺的一種真核生物基因組DNA的PE101測序資料,插入片段長度為450 bp;已知該基因組大小約在6M左右。 1)請統計本次測序的PE reads數

【生信】“隨機森林”在生物資訊學方面的應用

“隨機森林”在生物資訊學方面的應用 簡介 隨機森林是一種基於決策樹的機器學習演算法,可以用於樣本分類或迴歸任務,屬於非線性分類器。因此它可以挖掘變數之間複雜的非線性的相互依賴關係。通過隨機森林分析,可以找出區分兩組樣本間差異的關鍵成分。 基礎知識 1. 整合學習(ensemb