總結(jié)
DESeq2的標(biāo)準(zhǔn)化步驟分為:1.計算標(biāo)準(zhǔn)化因子;2.計算dispersion;3.擬合dispersion曲線 ;4.shrink到曲線附近
計算標(biāo)準(zhǔn)化因子
首先是對我們的count矩陣進(jìn)行標(biāo)準(zhǔn)化處理,每一列sample都對應(yīng)一個標(biāo)準(zhǔn)化因子,每一列的每一個元素都除以該標(biāo)準(zhǔn)化因子,即完成了標(biāo)準(zhǔn)化
我們的count data:

首先我們計算標(biāo)準(zhǔn)化因子:
type <- factor(c(rep("control",2),c("treat",2)))
dds <- DESeqDataSetFromMatrix(data, DataFrame(type), design= ~ type)
dds <- DESeq(dds)
dds.sizefactor <- estimateSizeFactors(dds)
sizeFactors(dds.sizefactor )

我們可以看到,每一個sample對應(yīng)的標(biāo)準(zhǔn)化因子,那么每一個sample對應(yīng)的那一列count值分別除以該標(biāo)準(zhǔn)化因子后,即得到標(biāo)準(zhǔn)化后的矩陣
估計離散值(dispersion)
由于我們的數(shù)據(jù)每一個處理都有若干個生物學(xué)重復(fù),那么我們需要考慮組內(nèi)(相同處理內(nèi))的一個離散程度,這里定義為離散度dispersion
離散度的定義式:

其中 α 即為 dispersion,var為組內(nèi)方差,μ為組內(nèi)平均表達(dá)量
由上式可知,方差增加,離散增加;平均表達(dá)量增加,離散減少
那么如何求解 dispersion呢?
擬合dispersion

根據(jù)上面所述,我們分別求出每個基因在各個處理之中平均表達(dá)量與對應(yīng)的dispersion之間的散點(diǎn)圖,并通過極大似然法擬合出曲線。上圖為某處理中某處理各基因的離散度與平均表達(dá)量的散點(diǎn)圖
收縮
這一步收縮(shrink)是因為DESeq2認(rèn)為具有相似表達(dá)水平(相似平均表達(dá)量)的基因應(yīng)該具有相似的離散度。

因此離散在紅色擬合曲線上下的基因需要收縮到紅色擬合曲線附近,以保證具有相似表達(dá)水平(相似平均表達(dá)量)的基因應(yīng)該具有相似的離散度。這樣矯正之后,DESeq2才繼續(xù)進(jìn)行建模,來計算差異表達(dá)基因
可以利用DESeq2軟件的 lfcShrink() 函數(shù)實(shí)現(xiàn)收縮(shrink),收縮后的log2FC可能更好看一些,并不受極端值的影響