1. 程式人生 > >揭祕差異基因功能富集分析

揭祕差異基因功能富集分析

歡迎關注微信公眾號《生信修煉手冊》!

通過差異分析,我們可以知道不同分組間是否存在差異,存在差異的是哪些基因。再進一步,需要探究這些基因的表達量出現差異是由哪些生物學過程介導的,我們的實驗處理影響了哪些生物學過程。

為了探究上述問題,我們首先需要知道基因參與的生物學過程,這個依賴於我們對生命活動的已有認知,比如常見的KEGG資料庫,就儲存了基因對應的通路資訊。其次,我們還需要一點統計學手段,差異基因的數目是成百上千的,每個基因又參與多個生物學過程,直接將所有差異基因的功能彙總,會得到非常多的資訊,由於數量龐大,所以看起來是雜亂無章的,沒有任何規律可言,所以需要藉助統計學手段,去挖掘差異基因集中在哪些生物學過程,也就是我們常說的富集分析。

從上面的解釋可以看到,富集分析有兩個核心

1. 基因的註釋資訊

基因參與的生物學過程,也稱之為基因的功能註釋,這部分資訊主要依賴已有的資料庫,常見的資料庫包括GO, KEGG, wikipathway, reactome等。

需要注意的是,不同資料庫覆蓋的基因數目是不一樣的,以human為例,一共2萬多個蛋白編碼基因 , 其中有KEGG pathway註釋的只有6000多個。由於已有認知的缺陷,這個是無法避免的問題,只能通過不斷的探索研究來更新和完善資料庫中的內容。

所以在富集分析時,會集合多個數據庫來分析,最常見的就是GO和KEGG資料庫,近年來reactome用的也越來越多。其實,只要是你感興趣的功能資料庫,都可以拿來做分析。

2. 統計方法

如何研究差異基因集中參與的生物學過程,需要藉助統計學手段,常見的方法包括以下兩種:

  1. 費舍爾精確檢驗
  2. GSEA

費舍爾精確檢驗的核心就是得到如下所以的2X2的表格,

DGE Genome
in pathway 19 40
not in pathway 281 6800

從兩個角度將基因進行分類,是否為差異基因,是否位於待研究的通路上,就可以得到上述表格了。第一列之和為差異基因的總數,第二列之和為非差異基因的總數。

在用這種方式進行分析時,通常會選擇一個log2FD的閾值,挑選顯著差異的基因,這種一刀切的過濾手段去除了一些可能的關鍵基因,其次,如果你的差異基因沒有對應的pathway註釋,那麼在富集分析時,會被直接丟掉,以上兩點是這種方法的缺陷。

GSEA又稱之為基因集富集分析,這裡的基因集指的就是資料庫中的基因集合,比如pathway中的某條通路對應的所有基因,所以這種方法的研究物件和費舍爾精確檢驗是一致的。唯一不同的是,它的輸入是所有基因,首先對基因進行排序,然後分析排序後的基因列表在某個通路下是否富集。

在這裡插入圖片描述
由於該方法不需要對基因事先過濾,所以不會丟掉某些差異基因,能夠挖掘出的資訊量也會增加,近年來也是越來越受歡迎。

在後續文章中,會詳細介紹不同工具的使用方法。