1. 程式人生 > >微生物組入門必讀+巨集基因組實操課程=新老司機趕快上車

微生物組入門必讀+巨集基因組實操課程=新老司機趕快上車

宣告:本文轉載自巨集基因組公眾號,原作者朱微金,己獲作者授權。

寫在前面

作為純wet遺傳學博士,轉行微生物組領域已經有兩年。目睹微生物組文章中分析所佔比重之大,讓我痛下決心苦學dry技能。目前感覺對巨集基因組領域的基礎分析技術已經略懂,每天按自己的想法搞事情還是很開心的事,今承本公眾號主編劉博士再三邀請分享學習經驗,在下不才將之前學習經歷和筆記共享之,新人請上船,老司機請拍磚,以求共進。

簡要説一下我的轉型經歷,為基礎差上不了車的同學有個借鑑,哪裡不會點哪裡。即有生信知識,又有微生物組專業課程,主要分為以下三個階段:

1. 第一階段:自學書本+線上課程

兩年前最開始學Linux是電腦裝了雙系統Win+Ubuntu,學習

《鳥哥私房菜》,裝雙系統而不用虛擬機器就是為了沉浸在Linux系統中,強迫自己使用,讓你不再陌生。有了強大的操作基礎,有問題多google,各種軟體安裝、執行也都不是問題,很快就可以感覺到生物資訊的強大而美好。

除了Linux基礎,左手用Python當膠水,右手用R畫帥圖,還是dry實驗的基本技能。Python教程推薦 – Coursera 密歇根大學《大家的程式設計 (Python 入門)》。R教程推薦 – Coursera 約翰霍普金斯大學《R語言程式設計》,R語言繪圖建議學習《ggplot2:資料分析與圖形藝術》,實用性非常強,個人不推薦學習《R語言實戰》(反正學的很不爽,閱讀不舒服,學完了也沒感覺提高)。學習程式語言,一定不要光看,最好不要複製程式碼,自己敲一遍,檢查每步的輸入輸入的內容,才是提高的根本。

這裡推薦一下Rob Knight在Coursera上的微生物組課程《腸道檢查:探索身體中的微生物群系》,新手必看,優點是英語標準,還有中/英字幕,拍攝效果有大片風,感覺講課者顏值都好高。

2. 第二階段:文獻閱讀+各類培訓

平時大量的閱讀前沿文獻是必不可少的,沒有廣泛的知識,即無法讀懂高水平文章,更把握不了前沿的方向。近兩年我閱讀了至少1000篇文章的摘要,精讀圖表結果和方法的也有100篇以上。推薦訂閱《馴路短科普》,那裡已經翻譯整理了4000+相關文獻的導讀,早上DK時間閱讀10分鐘閱讀《熱心腸日報》,即排毒又漲姿勢,節省大量查文獻和閱讀英文摘要時間,篩選到的重點文獻可進一步精讀。

去年七月參加了南土所褚海燕老師主辦的

《第三屆微生物生態生物資訊科技研討會》,完全是衝著Rob knight和Jack Gilbert去的(他們都不認識,自己敢去google吧),即聽了大牛報告、又有褚老師組經驗豐富的老司機們的實操培訓,收穫不小。

今年五月我也參加了北微所的微生物組專題培訓,收穫是對細菌基因組有了比較系統的學習,但擴增子、巨集基因組方向的講解對我來説還是太基礎了,對剛入行的小夥伴還是非常有用的,起碼對擴增子、巨集基因組、微生物基因組三大塊有系統的認識,並積累一份寶貴的學習材料反覆學習,少走彎路少進坑。

參加培訓還是很有意義的,是在拿錢換自己的寶貴時間,而且一般花的還不是自己的錢,不是很划算嗎?

3. 第三階段:國外優秀教程+高水平文章實戰

當水平達到一定層次,培訓的意義就不大了,因為培訓面對的是大眾和新手。那如何進步呢?

我最痛恨的是高水平文章發表了連原始資料都不公佈,之前讀的一篇NG和PC我發信找通訊作者要資料都不給,居然説資料還在分析做另一個專案。那以之前的資料的文章沒資料還有很多人引用,看來引用也是很有水分的,再有學術應該有監督和舉報機制,拒不共享發表文章原始資料的應該被投拆追責甚至撤稿,很多不僅是怕競爭,更多的是有水份。再不能忍的是方法描述不清,分析文章也不提供指令碼下載,即使發信請求也找各種理由拒絕,這是令為非常不滿的。你要是分析過程保密,申請專利好了,還發什麼文章呀!組學文章沒有原始碼,都是在耍流氓。這裡我要推薦本個本領域的大牛,Jeffery L. Dangl 和 Paul Schulze-Lefert,他們的文章不僅上傳資料規範,而且分析程式碼可打包下載,是不可多得的優秀學術材料,重現高水平文章結果,對自己的分析、理解能力提高是非常顯著的。

此外,國內本領域的中文共享材料是幾乎空白的,你搜索到的頂多是公司的宣傳材料,乾貨流程只掌握在少數公司和課題組內,很少有人共享,尤其是之前。我上週在本平臺分享的巨集基因組分析教程-Analysis of Metagenomic Data閱讀人數2000+,還是很多人需要的,需要提示的是,課程不是用來收藏的,而是用來看的,3天的課程我3小時就看完了。對於新手如果有不理解的地方,最好的解決的方法就是再看一遍。這套教程的原理和工具講的非常系統,對我們接下來實操幫助極大,新人建議仔細閱讀三遍,再上本次實操課程的船。

本次為大家帶來了更乾貨的實戰課程,新人敢快搬個小板凳找坐位,老司機上船一起飛。雖然本課程以環境樣品為例,缺少動植物研究中去宿主等一些重要步驟,但是這絕對是我目前見過的最好的教程,全程亮點,帶你快速上手實戰。下面是對本次課程內容的簡介,請仔細閱讀。如果此文閱讀量3000+,大家想學習巨集基因組實戰的願望夠強烈,我將在接下來的三個月裡,每週在平臺開展本系統課程的中文講解,帶大家快速上手,避免誤區。

注:文中提到相關資料連結見文末Reference部分

ngs-docs資源推薦

在Github上有一個ngs-docs的帳號, https://github.com/ngs-docs 裡面收錄了50多套美國高通量測序的培訓課程資料,即有程式碼、測序資料,又有網頁講解,甚至有線下的現場講課視訊。任何生信老司機都不應錯過。巨集基因組學這麼熱門的領域,自然教程不會少。如下圖,巨集基因組學培訓在不到一年內已經舉辦了四場,並更新了四次,本領域的小夥伴決不要錯過。本文對9月末最新的“2017-cicese”培訓簡介(資料17年10月9日更新),並提供2016課程的全部資料百度雲下載(見文末)。

image
圖1. ngs-docs中巨集基因組相關課程

最新巨集基因組實操教程

巨集基因組實操課程-2017 CICESE Metagenomics Workshop at UC Davis
2017年9月26-30日UC Davis的巨集基因組培訓班

時長:五天

主講:Harriet Alexander and C. Titus Brown

助教: Jessica Blanton, Adelaide Rhodes, Shawn Higdon, Jessica Mizzi, Phillip Brooks, Veronika Kivenson

培訓日程

第一天
- 登陸XSEDE Jetstream雲
- 熟悉命令列
- 命令列執行blast
- 作業:閱讀 Nature Method 《巨集基因組軟體評估金標準》(譯者組也參與本文章)

第二天
- 資料型別簡介
- 測序資料的質控
- 報告:資料組裝——Titus Brown
- 嘗試:自己質控和組裝資料

第三天
- 使用MEGAHIT組裝序列
- 使用sourmash搜尋與比較樣品
- 序列比對至組裝結果
- 巨集基因中分箱單菌基因組

第四天
- Prokka註釋基因組序列
- Salmon對樣品基因丰度定量
- Anvi視覺化組裝結果
- 討論工作流程與可重複性

第五天(選學)
- 下一步的工作;
- 相關資源:SEQ Answers, Biostars, Data Carpentry, DIB Summer Institute
- 複習學過內容

目錄

image
圖2. 英文目錄-巨集基因組部分

  • 歡迎
    1. 學習目錄
    2. 安全空間與程式碼行為
    3. 課前指南
    4. 亞馬遜雲
    5. 筆記
  • 使用亞馬遜雲
  • Shell課程介紹
  • Shell課程
    1. 學習目標
    2. 什麼是shell
    3. 如何進入
    4. Mac/Windows
    5. 開始使用
    6. 引數
    7. 檔案目錄結構
    8. 在檔案系統中移動
    9. 檢視資料夾內容
    10. 使用快捷鍵
    11. 命令歷史
    12. 檢查及檢索檔案
    13. 重定向
    14. 建立、移動、複製和刪除
    15. 執行程式
  • 進一步閱讀參考文獻
  • 查詢檔案
  • 執行命令列BLAST
  • 資料質量評估和質控
    1. 軟體安裝
    2. FastQC
    3. Trimmomatic
    4. MultiQC
  • 使用MEGAHIT組裝
  • 評估巨集基因組組裝
  • Prokka基因註釋
    1. 安裝、執行Prokka
    2. 安裝、執行Kraken和MiniDA
    3. 安裝執行Prodigal
  • sourmash教程
  • K-mers專題
  • 巨集基因組分箱
    1. 安裝分箱軟體
    2. 統計Mapping的序列數
    3. MaxBin
    4. MetaBAT
    5. 分箱結果視覺化
  • Salmon估計基因丰度
    1. 安裝和執行
    2. 處理計數型資料
    3. 結果視覺化
  • 序列比對Mapping
    1. 下載和比對資料
    2. 轉換為BAM並可視化
  • K-mer打斷
  • Anvi視覺化組裝結果
    1. 安裝、格式化
    2. 比對
    3. 產生contig
    4. 鑑定和精選分箱基因組
  • Circos視覺化
  • 工作流程與可重複
  • 資料
  • 自己備份此網站

此課題是上月末在加州大學戴維斯剛舉辦的,雖然課題內容新,但相關資料不完整,只有在線網頁版教程。

喜歡本地學習和收藏課程的同學,可以學此課程的2016版本,其實內容差不多,但包括PDF和HTML版課件,以及錄製好的視訊,小編都為你打包整理到了百度雲盤。有需要的朋友請分享這麼好的資料到朋友圈讓更多需要的朋友看到,並截圖傳送後臺,24小時內即可獲得下載地址。

Reference

寫在後面

為鼓勵讀者交流、快速解決科研困難,我們建立了“巨集基因組”專業討論群,目前己有國內五十位PI,五百多名一線科研人員加入。參與討論,獲得專業指導、問題解答,歡迎分享此文至朋友圈,並掃碼加創始人好友帶你入群,務必備註“姓名-單位-研究方向-職務”。技術問題尋求幫助,首先閱讀如何優雅的提問學習解決問題思路,仍末解決推薦生信技能樹-微生物組版塊(http://www.biotrainee.com/forum-88-1.html) 發貼,並轉發連結入群,問題及解答方便檢索,造福後人。
image

學習16S擴增子、巨集基因組思路和分析實戰,快關注“巨集基因組”,乾貨第一時間推送。
image