轉(zhuǎn)錄組不求人系列(八):edgeR分析轉(zhuǎn)錄組測序數(shù)據(jù)及差異基因篩選

轉(zhuǎn)錄組差異基因分析有很多包,常見的或者公認的卻只有這么幾種,edgeR包介紹完之后,我想所有人應該能夠輕松應對普通轉(zhuǎn)錄組的差異分析了。

還是利用上節(jié)的數(shù)據(jù):

setwd("F:/生物信息學")
A <- read.csv("GSE169758_markdup.featco.2.counts.csv",header = T,row.names = 1)

安裝并加載R包:


BiocManager::install('edgeR')
library(edgeR)

edgeR包的應用很廣,可應用于基因、外顯子、轉(zhuǎn)錄本的差異表達。edgeR包還有個功能是可以分析沒有生物學重復的樣本,從幫助文檔查看獲取合適的方法,當樣本沒有重復,但是想看差異的時候可以試試。但是還是建議所有的生物學實驗都設置重復?。?!

edgeR需要傳入的數(shù)據(jù)也是row counts。指定分組:

group <- rep(c('Mcc', 'Pan'), each = 6)

構建 DGEList 對象:

dgelist <- DGEList(counts = A, group = group)

過濾低質(zhì)量count 數(shù)據(jù),并對數(shù)據(jù)進行標準化:


keep <- rowSums(cpm(dgelist) > 1 ) >= 2 #方法的選擇依據(jù)具體情況
dgelist <- dgelist[keep, , keep.lib.sizes = FALSE]
norm <- calcNormFactors(dgelist, method = 'TMM')#方法的選擇依據(jù)具體情況

差異表達分析,首先根據(jù)分組信息構建分析矩陣,分組這里要注意,一定是Control在前,處理組在后。

design <- model.matrix(~group)

估算表達離散值并進行擬合,擬合方法有很多選擇:


dge <- estimateDisp(norm, design, robust = TRUE)
fit <- glmFit(dge, design, robust = TRUE)
df <- topTags(glmLRT(fit), n = nrow(dgelist$counts))
df <- as.data.frame(df)

最后得到差異基因列表:

圖片

將結果保存,可以手動篩選或者和上節(jié)一樣代碼篩選:

write.csv(df, file='df.csv')

至此,普通轉(zhuǎn)錄組差異分析三大R包全部介紹完畢,接下來會說一些細節(jié)的問題,包括基因注釋等等。當然還有大家最關心的數(shù)據(jù)可視化,力求用最好的方法和圖形呈現(xiàn)轉(zhuǎn)錄組數(shù)據(jù)結果,讓你的paper大放異彩!

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容