簡介
maSigPro,這是一款可以綜合分析時間序列RNA-seq的工具。
這款工具最初由Conesa等人于2006年開發(fā),于2014年經(jīng)Nueda等人進一步優(yōu)化而得到的
那么,我們在研究生物學問題的時候,往往是一個動態(tài)的過程,即某些基因的表達水平隨著時間的推移厄爾發(fā)生動態(tài)改變
而傳統(tǒng)的DEG往往只能比較treatment和control,卻忽略了時間帶來的效應(yīng)。而maSigPro綜合考慮了每一時期的treatment與control的區(qū)別,而且也考慮了不同時間點基因表達的動態(tài)變化
其工作流程為:

原理
第一次回歸
maSigPro采用的是廣義線性模型進行建模,即下列式子:

結(jié)合該式子來看,相比較于普通的DEG來說,在該廣義線性加入了關(guān)于時間的項和回歸系數(shù)
其中:
- i = 實驗組別
- j = 時間點
- J=多項式回歸的最高次數(shù),與你的時間點數(shù)量有關(guān)
- r=重復(生物學重復)
- D=虛擬二進制變量(實驗條件,D1,D2,D3... 為不同的實驗處理/條件),即有某處理為1,沒有為0
- T=時間點
- yijr=標準化后的表達值
- β,δ,γ,λ=回歸系數(shù)
- β0,δ0,γ0,λ0 為對照組中的回歸系數(shù);βi,δi,γi,λi表
示第 i +1 組與對照組之間的差異,對于時間變量而言通常 i = 1
為對照組
其中D為:

比方說 i = 1 這組是沒有任何處理的.所以所有的實驗處理都為0 ; i = 2 這組經(jīng)過了D1的處理, 所以D1 這項為 1
如果考慮不同組別的差異:
那么上式子中的β0,δ0,γ0,...,λ0為對照組的回歸系數(shù),βi,δi,γi,λi表示第 i + 1組與對照組之間的差異,通常 i = 1 為對照組
那么當 i = 1 時:

當 i = 2 時, (D1 = 1):

對于 i = 2 的基因表達量 y2jr 來說,它的系數(shù)是β0 + β1, δ0 + δ1, γ0 + γ1.....(后面不再列舉了)這樣的和形式,那么根據(jù)前面所說的β0, δ0 , γ0 ...... 是對照組的回歸系數(shù),β0 + β1 , δ0 + δ1 , γ0 + γ1 ......是其中一個treatment(DI)的回歸系數(shù),那么β1 , δ1 , γ1 就代表了該treatment與對照之間的差異,那么 i = 3,4..... 也是同樣的道理,其系數(shù)的加和表示與對照組的差異
其中時間T矩陣是自己定義的,這里舉兩個次項的例子,往后的以此類推
1.當考慮線性回歸建模(最高一次項)時
依次看不同時間點與不同處理的變化:
當 j = 0 時
i = 1 , j = 0:

i = 2 , j = 0:

i = 3 , j = 0:

當 j = 1 時
i = 1 , j = 1:

i = 2 , j = 1:

i = 3 , j = 1:

當 j = 2 時
i = 1 , j = 2:

i = 2 , j = 2:

i = 3 , j = 2:

2.當考慮二次回歸建模(最高二次項)時
依次看不同時間點與不同處理的變化:
當 j = 0 時
i = 1 , j = 0:

i = 2 , j = 0:

i = 3 , j = 0:

當 j = 1 時
i = 1 , j = 1:

i = 2 , j = 1:

i = 3 , j = 1:

當 j = 2 時
i = 1 , j = 2:

i = 2 , j = 2:

i = 3 , j = 2:

而設(shè)置多項式的最高次數(shù)我們通過degree來設(shè)置:
design <- make.design.matrix(condition,degree = 6)
#the degree of the regression fit polynome. degree = 1 returns linear regression, degree = 2 returns quadratic regression, etc
對于degree的設(shè)置,很大程度上依賴于你時間點的個數(shù),時間點個數(shù)越多,degree也就設(shè)置的越高,一般就設(shè)置為你時間點的個數(shù)比較好
仍然考慮兩個組別,兩個時間點的情況,即 i = 1組和 i = 2組分布在 j = 1 這個時間點上和 j = 2這個時間點上的情況,其中D1表示實驗組處理,T1為第一個時間點,T2為第二個時間點;i ≤ I - 1(I 為 組數(shù)),j ≤ J - 1(J 為時間點數(shù))
對應(yīng) D 矩陣有
對于對照組的第一個時間點(i = 1,j = 1) :

對于對照組第二個時間點(i = 1,j = 2):

對于實驗組的第一個時間點(i = 2,j = 1):

對于實驗組的第二個時間點(i = 2,j = 2):

(1). 相同時間點,不同組別的差異為:y21r - y11r 或者 y22r - y12r
(2). 相同組別,不同時間點的差異為:y12r - y11r 或者 y22r - y21r
那么依次求解參數(shù)即可
所以第一次回歸的目的是建立基因表達量,對照與treatment,以及時間之間的關(guān)系式
第二次回歸
這次回歸屬于逐步回歸,即將不顯著的回歸系數(shù)項剔除,這一步目前有兩大算法,向前算法和向后算法,其目的都是保留統(tǒng)計學顯著的系數(shù)項
結(jié)果

該軟件結(jié)果可以根據(jù)基因表達模式進行分類,然后就可以看到隨時間,基因表達的動態(tài)變化了
另外,該軟件是可以將動態(tài)變化的基因分cluster的,比方說上圖就分了3個cluster,那么這些cluster是根據(jù)基因的表達模式區(qū)分的,這樣以來,就可以細化到每個cluster隨時間的變化趨勢,從而找出自己感興趣的cluster
參考:
傳送門
《Comparative analysis of differential gene expression tools for RNA sequencing time course data》
https://academic.oup.com/bib/article/20/1/288/4364840
《Next maSigPro: updating maSigPro bioconductor package for RNA-seq time series》
https://academic.oup.com/bioinformatics/article/30/18/2598/2475510
《maSigPro: a method to identify significantly differential expression profiles in time-course microarray experiments》
https://academic.oup.com/bioinformatics/article/22/9/1096/200371#e1
maSigPro說明文檔:
http://www.bioconductor.org/packages/release/bioc/vignettes/maSigPro/inst/doc/maSigProUsersGuide.pdf