久久99国产精品香蕉,情欲背叛电影在线观看

提取

分別用rsem,kallisto,Salmon定量得到每個(gè)樣本isoform的定量文件,提取了transcript_id一列和count一列,并且增加了序號(hào)列,使得每個(gè)transcript_id都有唯一的序號(hào)與之對(duì)應(yīng).以rsem定量結(jié)果中的Y43.isoforms.results為例

 cd ~/rnaseq/rsem_out/ && cut -f 1,5 ~/rnaseq/rsem_out/Y43.isoforms.results >Y43_r && sed -i '1d' Y43_r && awk '$0=NR"\t"$0' Y43_r >Y43_r.csv && mv Y43_r.csv ~/rnaseq/compare/

cut -f 1,5 ~/rnaseq/rsem_out/Y43.isoforms.results >Y43_r：把Y43.isoforms.results的第1、5兩列提取出來(lái)放到文件Y43_r中

寫(xiě)成bash文件,提取所有的樣本.

提取結(jié)果

定量文件散點(diǎn)圖

樣本:Y43

red:rsem
blue:Salmon
green:kallisto

rsem&&Salmon

rsem&&kallisto

樣本:Y45

rsem&&Salmon

rsem&&kallisto

Salmon&&kallisto

樣本:O70

rsem&&Salmon

rsem&&kallisto

Salmon&&kallisto

樣本:O77

rsem&&Salmon

rsem&&kallisto

Salmon&&kallisto

差異分析結(jié)果比對(duì)

rsem

Kallisto

Salmon

rsem

kallisto

Salmon

data <- read.table("Y48_s.csv") #讀取文件
head(data)

查看

Y48_s =data$V3  #提取第三列
Y48_s=Y48_s+0.000001 #加上一個(gè)非常小的數(shù)防止后面做除法時(shí)出現(xiàn)分母為0的情況
data <- read.table("Y48_k.csv") #對(duì)由kallisto定量得到的結(jié)果采取一樣的處理
Y48_k =data$V3
Y48_k=Y48_k+0.000001
data <- read.table("Y48_r.csv") 
Y48_r =data$V3
Y48_r=Y48_r+0.000001
SK=Y48_s/ Y48_k
SR=Y48_s*2/ Y48_r
KR=Y48_k*3/ Y48_r
X=data$V1
par(pin=c(3,3))
plot(x=X, y=log10(SK), type="p", xlab="serial number",ylab="salmon/kallisto", main="SK",pch=20,cex=0.01)
plot(x=X, y=log10(SR), type="p", xlab="serial number",ylab="salmon/rsem", main="SR",pch=20,cex=0.01)
plot(x=X, y=log10(KR), type="p", xlab="serial number",ylab="kallisto/rsem", main="KR",pch=20,cex=0.01)

丑圖

上面兩種畫(huà)圖方式都不直觀也不美觀，數(shù)據(jù)量龐大，可能需要去除一些極端的值再看看數(shù)據(jù)的分布范圍，做出合理的比較

以樣本Y48為例

讀入rsem和salmon的counts
用summary查看整體情況，初步了解

初步查看

去掉未表達(dá)的基因的影響
data<-data[data$V3!=0,]

test<-test[test$V3!=0,]

刪除0表達(dá)
去掉極端值

找出極端值

找極端
去掉極端值影響

去掉影響

1.931
1.68898488
1.638436
這個(gè)是兩次處理前后的數(shù)據(jù)集均值比，data$mean/test$mean
去掉0值以后二者的統(tǒng)計(jì)結(jié)果明顯更接近了，而最大值雖然相差很大，但是面對(duì)三萬(wàn)多行的數(shù)據(jù)，它的影響被弱化了。

下面通過(guò)畫(huà)密度曲線觀察定量結(jié)果的分布

初步嘗試：將salmon的定量結(jié)果分成5個(gè)區(qū)間，目的是展示不同數(shù)量級(jí)的count的分布情況
困難：由于數(shù)據(jù)量過(guò)大，最大值高達(dá)幾十萬(wàn)，而平均值僅僅200+或者100+，坐標(biāo)軸的均勻劃分，帶來(lái)的問(wèn)題是低值高分布區(qū)被擠壓得與Y軸幾近重合，高值低分布區(qū)則貼近X軸，如下：

看不到分布
為了解決這個(gè)問(wèn)題，不再將一款軟件的不同區(qū)間放在一起比較，而是將一個(gè)區(qū)間的不同軟件放在一起比較
于是得到五個(gè)區(qū)間的不同軟件定量結(jié)果比較圖

0-10

分開(kāi)展示