提取
分別用rsem,kallisto,Salmon定量得到每個(gè)樣本isoform的定量文件,提取了transcript_id一列和count一列,并且增加了序號(hào)列,使得每個(gè)transcript_id都有唯一的序號(hào)與之對(duì)應(yīng).以rsem定量結(jié)果中的Y43.isoforms.results為例
cd ~/rnaseq/rsem_out/ && cut -f 1,5 ~/rnaseq/rsem_out/Y43.isoforms.results >Y43_r && sed -i '1d' Y43_r && awk '$0=NR"\t"$0' Y43_r >Y43_r.csv && mv Y43_r.csv ~/rnaseq/compare/
cut -f 1,5 ~/rnaseq/rsem_out/Y43.isoforms.results >Y43_r:把Y43.isoforms.results的第1、5兩列提取出來(lái)放到文件Y43_r中
寫(xiě)成bash文件,提取所有的樣本.
提取結(jié)果
定量文件散點(diǎn)圖
樣本:Y43
red:rsem
blue:Salmon
green:kallisto
rsem&&Salmon


樣本:Y45



樣本:O70



樣本:O77



差異分析結(jié)果比對(duì)






data <- read.table("Y48_s.csv") #讀取文件
head(data)

Y48_s =data$V3 #提取第三列
Y48_s=Y48_s+0.000001 #加上一個(gè)非常小的數(shù)防止后面做除法時(shí)出現(xiàn)分母為0的情況
data <- read.table("Y48_k.csv") #對(duì)由kallisto定量得到的結(jié)果采取一樣的處理
Y48_k =data$V3
Y48_k=Y48_k+0.000001
data <- read.table("Y48_r.csv")
Y48_r =data$V3
Y48_r=Y48_r+0.000001
SK=Y48_s/ Y48_k
SR=Y48_s*2/ Y48_r
KR=Y48_k*3/ Y48_r
X=data$V1
par(pin=c(3,3))
plot(x=X, y=log10(SK), type="p", xlab="serial number",ylab="salmon/kallisto", main="SK",pch=20,cex=0.01)
plot(x=X, y=log10(SR), type="p", xlab="serial number",ylab="salmon/rsem", main="SR",pch=20,cex=0.01)
plot(x=X, y=log10(KR), type="p", xlab="serial number",ylab="kallisto/rsem", main="KR",pch=20,cex=0.01)


上面兩種畫(huà)圖方式都不直觀也不美觀,數(shù)據(jù)量龐大,可能需要去除一些極端的值再看看數(shù)據(jù)的分布范圍,做出合理的比較
以樣本Y48為例
- 讀入rsem和salmon的counts
- 用summary查看整體情況,初步了解

-
去掉未表達(dá)的基因的影響
data<-data[data$V3!=0,]test<-test[test$V3!=0,]
刪除0表達(dá) -
去掉極端值
找出極端值
找極端 -
去掉極端值影響
去掉影響
1.931
1.68898488
1.638436
這個(gè)是兩次處理前后的數(shù)據(jù)集均值比,data$mean/test$mean
去掉0值以后二者的統(tǒng)計(jì)結(jié)果明顯更接近了,而最大值雖然相差很大,但是面對(duì)三萬(wàn)多行的數(shù)據(jù),它的影響被弱化了。
下面通過(guò)畫(huà)密度曲線觀察定量結(jié)果的分布
初步嘗試:將salmon的定量結(jié)果分成5個(gè)區(qū)間,目的是展示不同數(shù)量級(jí)的count的分布情況
-
困難:由于數(shù)據(jù)量過(guò)大,最大值高達(dá)幾十萬(wàn),而平均值僅僅200+或者100+,坐標(biāo)軸的均勻劃分,帶來(lái)的問(wèn)題是低值高分布區(qū)被擠壓得與Y軸幾近重合,高值低分布區(qū)則貼近X軸,如下:
看不到分布 -
為了解決這個(gè)問(wèn)題,不再將一款軟件的不同區(qū)間放在一起比較,而是將一個(gè)區(qū)間的不同軟件放在一起比較
于是得到五個(gè)區(qū)間的不同軟件定量結(jié)果比較圖
0-10
分開(kāi)展示




這樣比較貌似比散點(diǎn)圖美觀一些。








