怎么分析關(guān)注的功能基因集在轉(zhuǎn)錄組結(jié)果中表現(xiàn)如何?
拿到轉(zhuǎn)錄組數(shù)據(jù)之后,很多人最關(guān)心的恐怕就是差異基因的富集分析了,它闡明了實(shí)驗(yàn)中樣本差異在基因功能上的體現(xiàn)。
但有時(shí)候,我們?cè)谠O(shè)計(jì)實(shí)驗(yàn)的時(shí)候就已經(jīng)對(duì)某些特定功能的基因集特別關(guān)注了,那么如何分析這些基因集在實(shí)驗(yàn)不同比較組之間的表達(dá)情況呢?今天就給大家推薦個(gè)相關(guān)的分析方法。
基因集富集分析(GSEA)
GSEA(Gene Set Enrichment Analysis)是麻省理工和哈佛大學(xué)的broad institute 研究團(tuán)隊(duì)開(kāi)發(fā)的一個(gè)針對(duì)基因表達(dá)數(shù)據(jù)進(jìn)行分析的工具。
GSEA在對(duì)基因表達(dá)數(shù)據(jù)分析時(shí),首先確定分析的目的,即選擇MSigDB中的一個(gè)或多個(gè)功能基因集進(jìn)行分析。然后基于基因表達(dá)數(shù)據(jù)與表型的關(guān)聯(lián)度(也可以理解為表達(dá)量的變化)的大小進(jìn)行排序,進(jìn)而判斷每個(gè)基因集內(nèi)的基因是否富集于表型相關(guān)度排序后基因列表的上部或下部,從而判斷此基因集內(nèi)基因的協(xié)同變化對(duì)表型變化的影響。
GSEA的優(yōu)勢(shì)
常規(guī)的基因富集分析主要關(guān)注差異基因,也就是對(duì)差異基因進(jìn)行功能富集分析,例如GO和KEGG,這容易遺漏部分差異表達(dá)不顯著卻有重要生物學(xué)意義的基因,忽略一些基因的生物特性、基因調(diào)控網(wǎng)絡(luò)之間的關(guān)系及基因功能等有價(jià)值的信息。
GSEA 方法關(guān)注的不是有限幾個(gè)發(fā)生顯著改變的差異基因,而是關(guān)注檢測(cè)基因的表達(dá)在定義的功能分組中是否有共同的表達(dá)趨勢(shì),是從另一個(gè)角度來(lái)解讀生物學(xué)信息,以闡述其中的生物學(xué)意義。
GSEA結(jié)果講解
GSEA分析結(jié)果最常見(jiàn)的是下圖:
1、圖最上面部分展示的是富集分?jǐn)?shù)(ES, enrichment score)值計(jì)算過(guò)程,從左至右每到一個(gè)基因,計(jì)算出一個(gè)ES值,連成線。在最左側(cè)或最右側(cè)有一個(gè)特別明顯的峰值就是基因集表型上的ES值。圖中間部分每一條線代表基因集中的一個(gè)基因,及其在基因列表中的排序位置。
2、最下面部分展示的是基因與表型關(guān)聯(lián)的矩陣,紅色為與第一個(gè)表型(MUT)正相關(guān),在MUT中表達(dá)高,藍(lán)色與第二個(gè)表型(WT)正相關(guān),在WT中表達(dá)高。
3、Leading-edge subset 對(duì)富集得分貢獻(xiàn)最大的基因成員。若富集得分為正值,則是峰左側(cè)的基因;若富集得分為負(fù)值,則是峰右側(cè)的基因。
4、FDR GSEA默認(rèn)提供所有的分析結(jié)果,并且設(shè)定FDR<0.25為可信的富集,最可能獲得有功能研究?jī)r(jià)值的結(jié)果。但如果樣品數(shù)目少,而且選擇了gene_set作為Permumation type則需要使用更為嚴(yán)格的標(biāo)準(zhǔn),比如FDR<0.05。
