初學(xué)RNA-seq,用于有參原核轉(zhuǎn)錄組的分析,主要參照DESeq2說明書:(Analyzing RNA-seq data with DESeq2)和(RNA-seq workflow: gene-level exploratory
analysis and differential expression)。reads的count矩陣來源于featureCounts的結(jié)果,為原始mapping上的reads數(shù),其格式如下:

readscount.png
接下來構(gòu)建DESeq2分析所需的分組信息,分組信息包括了實(shí)驗的分組情況和平行樣的情況。比如在我使用的數(shù)據(jù)中R0_1和R0_2是同一個處理的兩個平行樣,而R0,R16,R24和R32是不同的處理(就是不同培養(yǎng)時間的樣本)。那么分組信息可以按照如下格式構(gòu)建為dataframe
coldata<-data.frame(batch=c("r1", "r2", "r1", "r2", "r1", "r2", "r1", "r2"), condition=c("R0", "R0", "R16", "R16", "R24", "R24", "R32", "R32"), stringsAsFactors = T)
格式如下:

image.png
在構(gòu)建DESeq數(shù)據(jù)集時,使用design參數(shù)告訴DESeq分組信息:
library(DESeq2)
dds <- DESeqDataSetFromMatrix(countData, colData=coldata, design= ~ batch+condition)
至此,完成了從featureCounts原始數(shù)據(jù)到R中DESeq2分析所需數(shù)據(jù)集的建立??梢允褂胏olData命令查看分組是否正確:

image.png
也可以直接運(yùn)行dds顯示數(shù)據(jù)集的信息:

image.png
其中:
class:DESeqDataSet #類別為DEseq數(shù)據(jù)集
dim:5846 8 #數(shù)據(jù)集共5846行,8列
assays(1): counts # 分析數(shù)據(jù)為readscount
colData names(2): batch condition #分組信息的名字