什么是GSEA?
Gene Set Enrichment Analysis (基因集富集分析)用來評(píng)估一個(gè)預(yù)先定義的基因集的基因在與表型相關(guān)度排序的基因表中的分布趨勢(shì),從而判斷其對(duì)表型的貢獻(xiàn)。其輸入數(shù)據(jù)包含兩部分,一是已知功能的基因集 (可以是GO注釋、MsigDB的注釋或其它符合格式的基因集定義),一是表達(dá)矩陣 (也可以是排序好的列表),軟件會(huì)對(duì)基因根據(jù)其與表型的關(guān)聯(lián)度(可以理解為表達(dá)值的變化)從大到小排序,然后判斷基因集內(nèi)每條注釋下的基因是否富集于表型相關(guān)度排序后基因表的上部或下部,從而判斷此基因集內(nèi)基因的協(xié)同變化對(duì)表型變化的影響。
分析結(jié)果如下:


GS:基因集的名字,GO條目的名字
SIZE:GO條目中包含表達(dá)數(shù)據(jù)集文中的基因數(shù)目(經(jīng)過條件篩選后的值);
ES:富集評(píng)分;
NES:校正后的歸一化的ES值。由于不同用戶輸入的基因數(shù)據(jù)庫(kù)文件中的基因集數(shù)目可能不同,富集評(píng)分的標(biāo)準(zhǔn)化考慮了基因集個(gè)數(shù)和大小。其絕對(duì)值大于1為一條富集標(biāo)準(zhǔn)。
NOM p-val:即p-value,是對(duì)富集得分ES的統(tǒng)計(jì)學(xué)分析,用來表征富集結(jié)果的可信度;
FDR q-val:即q-value,是多重假設(shè)檢驗(yàn)校正之后的p-value,即對(duì)NES可能存在的假陽(yáng)性結(jié)果的概率估計(jì),因此FDR越小說明富集越顯著;
RANK AT MAX:當(dāng)ES值**時(shí),對(duì)應(yīng)基因所在排序好的基因列表中所處的位置;
(注:GSEA采用p-value<5%,q-value<25%進(jìn)行數(shù)據(jù)過濾)
LEADING EDGE:該處有3個(gè)統(tǒng)計(jì)值,tags=59%表示核心基因占該基因集中基因總數(shù)的百分比;list=21%表示核心基因占所有基因的百分比;

對(duì)于分析結(jié)果中,我們一般認(rèn)為|NES|>1,NOM p-val<0.05,F(xiàn)DR q-val<0.25的通路是顯著富集的。

最后還有一個(gè)該KEGG基因集下每個(gè)基因的詳細(xì)統(tǒng)計(jì)信息表,RANK IN GENE LIST表示在排序好的基因集中所處的位置;RANK METRIC SCORE是基因排序評(píng)分,我們這里是Signal2noise;RUNNING ES是分析過程中動(dòng)態(tài)的ES值;CORE ENRICHMENT是對(duì)ES值有主要貢獻(xiàn)的基因,即Leading edge subset,在表中以綠色標(biāo)記。
轉(zhuǎn)自R語言分析
文章分類: 科研頭條數(shù)據(jù)分析