不同定量軟件的結(jié)果比對(duì)

提取

分別用rsem,kallisto,Salmon定量得到每個(gè)樣本isoform的定量文件,提取了transcript_id一列和count一列,并且增加了序號(hào)列,使得每個(gè)transcript_id都有唯一的序號(hào)與之對(duì)應(yīng).以rsem定量結(jié)果中的Y43.isoforms.results為例

 cd ~/rnaseq/rsem_out/ && cut -f 1,5 ~/rnaseq/rsem_out/Y43.isoforms.results >Y43_r && sed -i '1d' Y43_r && awk '$0=NR"\t"$0' Y43_r >Y43_r.csv && mv Y43_r.csv ~/rnaseq/compare/

cut -f 1,5 ~/rnaseq/rsem_out/Y43.isoforms.results >Y43_r:把Y43.isoforms.results的第1、5兩列提取出來(lái)放到文件Y43_r中

寫(xiě)成bash文件,提取所有的樣本.

提取結(jié)果

定量文件散點(diǎn)圖

樣本:Y43

red:rsem
blue:Salmon
green:kallisto

rsem&&Salmon
rsem&&kallisto
rsem&&kallisto
樣本:Y45
rsem&&Salmon
rsem&&kallisto
Salmon&&kallisto
樣本:O70
rsem&&Salmon
rsem&&kallisto
Salmon&&kallisto
樣本:O77
rsem&&Salmon
rsem&&kallisto
Salmon&&kallisto

差異分析結(jié)果比對(duì)

rsem

Kallisto

Salmon
rsem
kallisto
Salmon
data <- read.table("Y48_s.csv") #讀取文件
head(data)
查看
Y48_s =data$V3  #提取第三列
Y48_s=Y48_s+0.000001 #加上一個(gè)非常小的數(shù)防止后面做除法時(shí)出現(xiàn)分母為0的情況
data <- read.table("Y48_k.csv") #對(duì)由kallisto定量得到的結(jié)果采取一樣的處理
Y48_k =data$V3
Y48_k=Y48_k+0.000001
data <- read.table("Y48_r.csv") 
Y48_r =data$V3
Y48_r=Y48_r+0.000001
SK=Y48_s/ Y48_k
SR=Y48_s*2/ Y48_r
KR=Y48_k*3/ Y48_r
X=data$V1
par(pin=c(3,3))
plot(x=X, y=log10(SK), type="p", xlab="serial number",ylab="salmon/kallisto", main="SK",pch=20,cex=0.01)
plot(x=X, y=log10(SR), type="p", xlab="serial number",ylab="salmon/rsem", main="SR",pch=20,cex=0.01)
plot(x=X, y=log10(KR), type="p", xlab="serial number",ylab="kallisto/rsem", main="KR",pch=20,cex=0.01)
丑圖
丑圖

上面兩種畫(huà)圖方式都不直觀也不美觀,數(shù)據(jù)量龐大,可能需要去除一些極端的值再看看數(shù)據(jù)的分布范圍,做出合理的比較

以樣本Y48為例

  • 讀入rsem和salmon的counts
  • 用summary查看整體情況,初步了解
初步查看
  • 去掉未表達(dá)的基因的影響
    data<-data[data$V3!=0,]

    test<-test[test$V3!=0,]


    刪除0表達(dá)
  • 去掉極端值


    找出極端值

    找極端
  • 去掉極端值影響


    去掉影響

1.931
1.68898488
1.638436
這個(gè)是兩次處理前后的數(shù)據(jù)集均值比,data$mean/test$mean
去掉0值以后二者的統(tǒng)計(jì)結(jié)果明顯更接近了,而最大值雖然相差很大,但是面對(duì)三萬(wàn)多行的數(shù)據(jù),它的影響被弱化了。

下面通過(guò)畫(huà)密度曲線觀察定量結(jié)果的分布

  • 初步嘗試:將salmon的定量結(jié)果分成5個(gè)區(qū)間,目的是展示不同數(shù)量級(jí)的count的分布情況

  • 困難:由于數(shù)據(jù)量過(guò)大,最大值高達(dá)幾十萬(wàn),而平均值僅僅200+或者100+,坐標(biāo)軸的均勻劃分,帶來(lái)的問(wèn)題是低值高分布區(qū)被擠壓得與Y軸幾近重合,高值低分布區(qū)則貼近X軸,如下:


    看不到分布
  • 為了解決這個(gè)問(wèn)題,不再將一款軟件的不同區(qū)間放在一起比較,而是將一個(gè)區(qū)間的不同軟件放在一起比較
    于是得到五個(gè)區(qū)間的不同軟件定量結(jié)果比較圖


    0-10

    分開(kāi)展示
10-100

100-1000

1000-10000

10000—

這樣比較貌似比散點(diǎn)圖美觀一些。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容