1. 程式人生 > >【生信】KEGG資料庫線上使用

【生信】KEGG資料庫線上使用

KEGG資料庫線上使用


KEGG簡介

KEGG是一個整合了基因組、化學和系統功能資訊的資料庫。把從已經完整測序的基因組中得到的基因目錄與更高級別的細胞、物種和生態系統水平的系統功能關聯起來是KEGG資料庫的特色之一。與其他資料庫相比,KEGG 的一個顯著特點就是具有強大的圖形功能,它利用圖形而不是繁縟的文字來介紹眾多的代謝途徑以及各途徑之間的關係,這樣可以使研究者能夠對其關注的代謝途徑有直觀全面的瞭解。

ko:表示通路,這個通路是不分物種的,相當於所有物種某一通路的並集。

KO(KEGG Orthology):是KEGG中一個“專有名詞”,表徵一個基因。KO作為ko通路中的基本單位,它是蛋白質(酶)的一個分類體系。通常序列高度相似且在同一通路中具有相似功能的蛋白質被歸為一組,即一個KO。


開啟KEGG資料庫

輸入網址 https://www.kegg.jp/kegg/kegg2.html

KEGG - Table of Contents功能簡介:

  1. 以分類列表的形式介紹了KEGG所包含各個內容模組,其中藍色的字型可以直接點選進入以獲取更為詳細的各模組相關內容介紹;
  2. 擁有全域性性檢索框,在檢索框內輸入關鍵詞,即可查詢KEGG中與關鍵詞相關的Pathway(通路)、Module (模組)、Orthology(直系同源)和Genome(基因組)、Genes(基因)和Enzyme(酶)等諸多資訊;如有特殊需求,也可以進行個性化篩選,比如僅搜尋與關鍵詞相關的Module資訊。

KEGG相關資料庫關係如何?

開啟另一網址 https://www.genome.jp/linkdb/,將看見這個介面:

LinkDB: database of link information功能簡介:

LinkDB解析了KEGG資料庫內部資料的流通以及和其它資料庫的聯絡。若是需要了解具體某個資料庫(如 :Pathway)的來源,直接點選上圖下方的Pathway即可高亮顯示該資料庫資料來源相關的各類資料庫名稱。此外,還可以直接下載資料庫與資料庫間的編號對應關係!

如何利用KEGG資料庫完成資料探勘?

問題:做類似下面文獻中的兩張圖?

思考

:從上圖來看的話,首要任務就是收集氮代謝(Nitrogen metabolism)相關的資料資訊啊,那怎麼搜呢?

步驟如下(查詢方式多種,此處以上面介紹的“KEGG最優開啟方式”為例進行演示):

 

 

 

 

 

  1. 最優方式開啟KEGG資料庫,Search欄直接輸入“Nitrogen”再回車,將會檢索到KEGG中與氮代謝相關的各類資訊,其中KEGG PATHWAY下的map00910就是我們要查詢的關鍵資訊:
  2. 頁面跳轉到https://www.kegg.jp/dbget-bin/www_bfind_sub?mode=bfind&max_hit=1000&dbkey=kegg&keywords=Nitrogen,如下所示:
  3. 點選上一步中的“map00910”,將出現如下圖所展示的氮代謝相關內容的精細描述,有7個相關Module,2個疾病相關內容,還有我們需要get的氮相關基因KEGG ORTHOLOGY(KO)等資訊。
  4. 點選上一步中的KO pathway編號“ko00910”,將出現一個與上一步相似的頁面,但是其中已經包含了60個參與氮代謝的KO號,如下圖所示:
  5. 最後,從自己的KEGG註釋結果中挑出相關的KO或Gene和Module等資訊作為輸入資料,就可以去分析作圖了(比如上面的Heatmap、重構代謝通路圖)。
  6.  

其他KEGG資料庫線上工具如何使用?

開啟KEGG資料庫時,可以發現KEGG資料庫還提供多種其它線上分析工具:

先給大家介紹上圖中2種比較炫酷的工具,其它工具可根據個人需求自行學習!

KEGG Mapper - Search & Color Pathway工具

利用Search & Color Pathway線上工具可DIY通路圖中的基因(KO)或其它資訊(如文字)的背景填充色,具體操作介面、輸入引數設定和步驟可參考下圖:

修改:上圖中的Examples所處的狀態應為:

這裡,輸入的KO編號如下:

K00002
K00016
K00114
K00121 yellow
K00128 yellow
K00134 green
K00138 .blue
K00150 .blue
K00169 cyan,red
K00844 cyan,red

點選“Exec”之後,結果如下:

KEGG會根據輸入的KO編號從Reference Pathway庫中找出與之相關的代謝通路,並將其列出。這裡,我們點選“ko00010”,將得到如下代謝通路圖:

可以看出,我們設定的顏色在代謝通路圖中已經顯現出來了

BlastKOALA工具

一種線上KEGG註釋方法,具體操作介面、輸入引數設定和步驟可參考下圖:

基因註釋

1.提交序列檔案,為Fasta格式的蛋白質序列檔案(The maximum number of sequences  allowed ranges from 5000 to 10000 depending on the KEGG GENES dataset selected);

2.Enter taxonomy group of your genome(選擇物種型別:區分原核與真核);

3.Enter KEGG GENES database file to be search(預設即可)

4.Enter your email address(填寫你的郵件地址,提交任務後,需要從郵箱確認,結果也將會發送到郵箱);

5.提交任務,並從個人郵箱確認(資料只會保留一個星期)

輸入個人郵箱地址(確認任務提交是否成功),點選“Request for email confirmation”按鈕後,呈現的結果如下(網上找的圖):

okay,KEGG的內容實在是太多了,短時間是沒法講完的,所以,有機會以後再繼續分享吧!