基因集富集分析 (Gene Set Enrichment Analysis, GSEA) 的基本思想是使用預(yù)定義的基因集,通常來自功能注釋或先前實驗的結(jié)果,將基因按照在兩類樣本中的差異表達程度排序,然后檢驗預(yù)先設(shè)定的基因集合是否在這個排序表的頂端或者底端富集?;蚣细患治鰴z測基因集合而不是單個基因的表達變化,因此可以包含這些細微的表達變化,預(yù)期得到更為理想的結(jié)果。
首先從一個叫S的探針集序列開始,假定它是一類編碼產(chǎn)生新陳代謝的通路基因集,被定位于相同的細胞生成位段,或者是說有相同GO分類。(譯者注:GO是什么?維基百科。) GSEA的目的就在于判斷S的成員是隨機的分布于L(待測基因探針?biāo)判蛄校┥线€是有序的分布于頂部與尾部。我們的預(yù)期目的是S探針集能在表型上揭示出后者的分布方式。
下面是具體的三個重要步驟:
-
計算富集積分(Enrichment Score,ES)
我們計算出一個富集積分值(ES),其為S的基因在整個L序列的頭部和尾部的超表達量。
積分值的計算是從L序列的頭部開始往尾部走,每當(dāng)遇到一個基因是在S上就加分,沒有則減分。加分的分值大小根據(jù)基因表型相關(guān)系數(shù)大小。富集分值是從沒有遇到的時候開始計算直到最大值誤差值;而且它還與K-S test統(tǒng)計加權(quán)值有關(guān)。 -
估計ES的顯著程度
我們估計統(tǒng)計學(xué)上有意義部分的ES值(名義上的P值),是通過一個經(jīng)驗基礎(chǔ)表型方法——置換檢驗,保存基因表達數(shù)據(jù)的結(jié)構(gòu)的復(fù)雜相關(guān)系數(shù)。明確地,我們置換不同表型標(biāo)簽下的數(shù)據(jù),并且再一次計算ES值,使之形成一個新的ES分布(假分布)。從經(jīng)驗上說,交換之后,ES的P值相對于新的ES值(統(tǒng)計分布)來說若是顯著的變化,則有理由說明此基因集是有一定的生物學(xué)意義的。 -
多重假設(shè)檢驗的調(diào)整
當(dāng)評估了所有基因探針數(shù)據(jù)之后,我們會用多重假設(shè)檢驗來評價它們的顯著性。我們首先把每一個探針的ES值做根據(jù)探針多少的一個標(biāo)準(zhǔn)化,生成一個標(biāo)準(zhǔn)化富集積分值(NES)。之后我們計算出假陽性發(fā)現(xiàn)率(FDR),并以此劃出假陽性部分對應(yīng)每一個NES值。FDR是評估一個NES表達值中所發(fā)現(xiàn)的假陽性可能性大?。凰怯蒒ES的觀測值和零分布時比較得出的。
以上幾步的實行細節(jié)在附錄(注:參考文章2中的附錄)里面有更詳細的說明。(在相關(guān)出刊物和PNAS網(wǎng)頁上也有支持文件。)
參考文章: