理解DESeq2的標(biāo)準(zhǔn)化步驟

總結(jié)

DESeq2的標(biāo)準(zhǔn)化步驟分為:1.計算標(biāo)準(zhǔn)化因子;2.計算dispersion;3.擬合dispersion曲線 ;4.shrink到曲線附近

計算標(biāo)準(zhǔn)化因子

首先是對我們的count矩陣進(jìn)行標(biāo)準(zhǔn)化處理,每一列sample都對應(yīng)一個標(biāo)準(zhǔn)化因子,每一列的每一個元素都除以該標(biāo)準(zhǔn)化因子,即完成了標(biāo)準(zhǔn)化
我們的count data:



首先我們計算標(biāo)準(zhǔn)化因子:

type <- factor(c(rep("control",2),c("treat",2)))

dds <- DESeqDataSetFromMatrix(data, DataFrame(type), design= ~ type)
dds <- DESeq(dds)

dds.sizefactor <- estimateSizeFactors(dds)  
sizeFactors(dds.sizefactor )

我們可以看到,每一個sample對應(yīng)的標(biāo)準(zhǔn)化因子,那么每一個sample對應(yīng)的那一列count值分別除以該標(biāo)準(zhǔn)化因子后,即得到標(biāo)準(zhǔn)化后的矩陣

估計離散值(dispersion)

由于我們的數(shù)據(jù)每一個處理都有若干個生物學(xué)重復(fù),那么我們需要考慮組內(nèi)(相同處理內(nèi))的一個離散程度,這里定義為離散度dispersion
離散度的定義式:


其中 α 即為 dispersion,var為組內(nèi)方差,μ為組內(nèi)平均表達(dá)量
由上式可知,方差增加,離散增加;平均表達(dá)量增加,離散減少
那么如何求解 dispersion呢?

擬合dispersion


根據(jù)上面所述,我們分別求出每個基因在各個處理之中平均表達(dá)量與對應(yīng)的dispersion之間的散點(diǎn)圖,并通過極大似然法擬合出曲線。上圖為某處理中某處理各基因的離散度與平均表達(dá)量的散點(diǎn)圖

收縮

這一步收縮(shrink)是因為DESeq2認(rèn)為具有相似表達(dá)水平(相似平均表達(dá)量)的基因應(yīng)該具有相似的離散度。



因此離散在紅色擬合曲線上下的基因需要收縮到紅色擬合曲線附近,以保證具有相似表達(dá)水平(相似平均表達(dá)量)的基因應(yīng)該具有相似的離散度。這樣矯正之后,DESeq2才繼續(xù)進(jìn)行建模,來計算差異表達(dá)基因

可以利用DESeq2軟件的 lfcShrink() 函數(shù)實(shí)現(xiàn)收縮(shrink),收縮后的log2FC可能更好看一些,并不受極端值的影響

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容