1. 程式人生 > >利用GSEA對基因表達資料做富集分析

利用GSEA對基因表達資料做富集分析

  image

Gene Set Enrichment Analysis (GSEA) is a computational method that determines whether an a priori defined set of genes shows statistically significant, concordant differences between two biological states (e.g. phenotypes).

用GSEA做富集分析是非常簡單的,結果也很詳細,並且直接出圖;這個軟體發表於2005年,一直都在不斷更新和增加新的功能;軟體基於的資料庫

Molecular Signatures Database也會根據新發表的文章進行完善。

GSEA軟體版本瞭解

  • GSEA設計了操作比較簡單的桌面軟體;
  • GSEA也提供在無網路情況下的一個命令操作版本;
  • 基於R的版本,但是2005後不再提供更新;
  • GenePattern平臺也有GSEA模組。

GSEA軟體下載與安裝

GSEA download

根據自己電腦記憶體大小下載適合的版本:


  image.png

GSEA介面

   

1).圈1所在是導航欄,展示主要操作;
2).圈2是進度欄;當你進行分析時,檢視分析程序與成功與否;成功後在此處可以檢視網頁版結果;
3).圈3是主頁面,在此進行各種操作與分析;

GSEA執行

官網也準備了例子:
Example Datasets(http://software.broadinstitute.org/gsea/datasets.jsp)

這兒使用P53這個例子:

  • p53+ 與P53突變癌細胞系的表達譜
  • Molecular Signatures Database C2資料基因集合

1. 下載資料

P53.cls #表型文件定義了表達文件中樣品的表型標籤,使用空格或tab隔開;

P53_collapsed_symbols.gct #基因表達譜資料

P53_hgu95av2.gct #基因晶片表達譜資料

GSEA軟體需要的資料格式可參考:GSEA軟體支援的資料格式

2. 點選導航欄Load data匯入資料

3種不同的方法均可以匯入資料:

  • Method 1: Browse for files #上傳各種檔案;
  • Method 2: Load last dataset used #使用最近用過的資料;
  • Method 3: Drag-and-drop the files hereke #把檔案拖曳至此處上傳;

匯入例子資料(p53)

P53_collapsed_symbols.gct #基因表達譜資料

P53.cls #表型文件定義了表達文件中樣品的表型標籤,使用空格或tab隔開;

匯入資料需要沒有報錯: There were NO errors

   

在Object cache檢視匯入的資料;


   

3. Run GSEA

點選軟體導航欄Run GSEA,選擇資料並進行引數設定;

   

引數主要分為三部分:

  • Required fields: #必須設定的引數

Expression dataset: #選擇要分析的表達資料,P53_collapsed_symbols.gct。

Gene sets database: #選擇基因集 ,Molecular Signatures Database,MSigDB

Number of permutations: #樣品用於置換檢驗檢驗重複次數,一般1000。

Phenetype labels: #選擇表型資料。

collapsed to gene symbols: #預設true,表達資料中探針名轉換成gene symbols;

P53_collapsed_symbols.gct中是已經轉換為基因名字,不需要這一步,選擇false;

Permutation type: #phenotype用於每個表型組至少7個樣本的實驗;Gene_set用於表型組樣本數少於7個的時候。

Chip platform: #選擇Chip註釋檔案,用於collapsed to gene symbols這一步;

  • Basic fields: #可選引數

Analysis name: 設定分析結果字首

Metric for ranking genes:選定對基因打分和排序的模式;

Gene list sorting mode:基因排序可以選擇使用原值(default)和絕對值。

Gene list ordering mode:基因排序是遞增還是遞減。

Max size:基因集基因數目上限。

Min size:基因集基因數目下限。

Save results in this folder:結果儲存路徑

  • Advanced fields: # 高階引數

建議使用預設,不要隨意改動。

   

Collapsing mode for probe sets => 1 gene:#使用晶片資料時,基因表達值的計算;

max_probe (default):#晶片集中最大值作為基因表達值;

   

median_of_probes: #晶片集均值作為基因表達值

Normalization mode: #富集分數( Enrichment scores,ES)的標準化方法;

Normalized Enrichment Score (NES)方法:


   

Randomization mode:

no_balance (default):完全隨機抽樣

equalize_and_balance:分別從不同表型組抽取相同數目樣本;

4. 執行及處理程序觀察

引數設定完成之後,點選run開始執行;左下角GSEA reports板塊可以檢測執行情況;


   

Running:正在分析,可以暫停;
Success:分析成功,點選Success,可以檢視網頁報告;
Error:分析出錯,點選Error,查看出錯詳情;

5. 結果檢視

5.1 GSEA結果中的統計量:

Enrichment Score (ES)

Normalized Enrichment Score (NES)

False Discovery Rate (FDR)

Nominal P Value

Enrichment Score (ES)

  img
  • 最上面的綠線是遍歷排好序的基因列表是計算ES值的過程:遍歷基因集L ,當基因出現在S中加分,反之減分;加減分值由基因與表型的相關性決定。當分值累積到最大時就是富集分數。

ES值:Phit -Pmiss最大值

預先定義的基因集S;待分析基因列表L;指數P的選擇用來控制ES分佈;r(gj)=rj 是定義的基因與表型的相關性係數。

   

L中第i個基因前有基因j也屬於基因集S,Phit(S,i)=Phit(S,i)+|rj|p /NR ;與之相反,L中第i個基因前有基因j不屬於屬於基因集S時,Pmiss(S,i)增加。

  • 中間黑線位置表示預定義基因集中基因在排好序的基因列表中的位置;
  • 底部展示基因排列的一個度量分數,正數表示與第一個表型相關,負數表示與第二個表型相關;對於連續性表型的話,正數表示相關,負數表示不相關;

Normalized Enrichment Score (NES)

NES是基於樣本的置換檢驗π,樣本重新抽樣使得基因表達值變化從而影響到基因排序和ES(S, π)。


   

False Discovery Rate (FDR)

一般情況下可用FDR<0.25;如果樣本較少以至於Permutation type使用了 gene_set,FDR<0.05更合適。

這兒,FDR有兩種分佈:

  img   img

Nominal P Value

置換檢驗中ES(S)統計分佈中無效假設成立時ES的比率。

5.2 設定的結果生成路徑下會有結果生成:

基因列表排序:例如P53_collapsed_symbols.P53.cls_WT_versus_MUT.rnk

基因集結果網頁版:例如AMUNDSON_DNA_DAMAGE_RESPONSE_TP53.html

基因集結果統計表:例如AMUNDSON_DNA_DAMAGE_RESPONSE_TP53.xls

以及一些圖。。。。。。

5.3 點選Success,可以檢視網頁報告

   

 

6. Running the Leading Edge Analysis

After running a gene set enrichment analysis, you can use the leading edge analysis to examine the genes in the leading edge subsets of selected enriched gene sets. Genes that appear in multiple subsets are more likely to be of interest than those that appear in only one.

6.1 左邊導航欄點選Leading Edge Analysis;

6.2 匯入資料:點選Load GSEA Results匯入剛才分析完的P53的結果;


   

6.3 選擇基因集:點選資料每列列名,調整資料排列順序,選擇基因集(FDR < 0.05);


   

6.5 結果輸出

結果是四幅圖,解讀可參考( Interpreting Leading Edge Analysis Results

Heat Map

   

不同基因集中富集基因表達情況:顏色 (red, pink, light blue, dark blue) 表示著表達值高低 (high, moderate, low, lowest)。

Set-to-Set

   

不同基因集間基因交集的統計展示;

Gene in Subsets

基因在基因集中出現次數統計;


   

Histogram

基因集相似係數


  1529249944482.png

參考:

Quick Tour of the GSEA Java Desktop Application(http://software.broadinstitute.org/gsea/doc/desktop_tutorial.jsp)

GSEA User Guide(http://software.broadinstitute.org/gsea/doc/GSEAUserGuideFrame.html)

Molecular Signatures Database v6.1(http://software.broadinstitute.org/gsea/msigdb/index.jsp)

Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles.



作者:_eason_
連結:https://www.jianshu.com/p/04ab6b735709
來源:簡書
簡書著作權歸作者所有,任何形式的轉載都請聯絡作者獲得授權並註明出處。