Gene Set Enrichment Analysis (基因集富集分析)用來評估一個(gè)預(yù)先定義的基因集的基因在與表型相關(guān)度排序的基因表中的分布趨勢,從而判斷其對表型的貢獻(xiàn)。其輸入數(shù)據(jù)包含兩部分:已知功能的基因集 (可以是GO注釋、MsigDB的注釋或其它符合格式的基因集定義);表達(dá)矩陣 (也可以是排序好的列表)。
軟件會對基因根據(jù)其與表型的關(guān)聯(lián)度(可以理解為表達(dá)值的變化)從大到小排序,然后判斷基因集內(nèi)每條注釋下的基因是否富集于表型相關(guān)度排序后基因表的上部或下部,從而判斷此基因集內(nèi)基因的協(xié)同變化對表型變化的影響。
GSEA分析結(jié)果如下表

GSEA分析結(jié)果
- ID: GO編號
- Description: GO分類的名稱
- setSize:該GO條目中包含表達(dá)數(shù)據(jù)集中的基因數(shù)目
- enrichmentScore:富集評分
- NES:校正后的歸一化的ES值
由于不同用戶輸入的基因數(shù)據(jù)庫文件中的基因集數(shù)目可能不同,富集評分的標(biāo)準(zhǔn)化考慮了基因集個(gè)數(shù)和大小。 - pvalue:富集得分ES的統(tǒng)計(jì)學(xué)顯著性水平,用來表征富集結(jié)果的可信度
- p.adjust:'BH' 校準(zhǔn)后的P值
GSEA可視化結(jié)果如下圖

GSEA
- Enrichment Score折線部分,橫軸為排序后的基因,縱軸為對應(yīng)的Running ES, 在折線圖中有個(gè)峰值,該峰值就是這個(gè)基因集的Enrichemnt score,峰值之前的基因就是該基因集下的核心基因。
- 中間部分線條標(biāo)記位于該基因集下的基因
- 第三部分為所有基因的rank值分布圖。
下圖展示了clusterProfiler包GSEA分析可視化結(jié)果,Count為核心基因的數(shù)目,GeneRatio為Count與setSize的比值,Y軸為基因集Description。

GSEA氣泡圖