測序數(shù)據(jù)上游分析--質(zhì)量控制

感謝小學(xué)學(xué)!


測序原理:

將基因打斷成片段reads;每段reads一端連接不同的UMI做為標(biāo)識;PCR;測序

uniquely mapped reads:reads的唯一性由UMI和map位置共同確定

PCR duplicates:pcr后,UMI相同且map位置相同的reads會擴增很多條,去duplicates就是,僅保留一條,去除由于PCR效率不同導(dǎo)致的差別

基因表達量=sum(去除duplicates后的uniquely mapped reads)

expression A = read1 +?read2 +read3

expression B = reada +?readb +readc +readd +reade

影響分析的因素:

文庫大小的影響:文庫越大,細(xì)胞越多,含有的geneA絕對值就越多

基因長度影響:基因越長,打斷后的reads就越多,相加值就越大

測序深度影響:相當(dāng)于PCR效率不同帶來的影響

為什么要PCR:對于chipseq、singlecellseq、atacseq細(xì)胞量少,測序時信號非常低,無法檢測到,送測前PCR是為了擴大信號。

去duplicates是去除PCR的影響,效果相當(dāng)于收獲樣本打成片段后直接測序。

去除文庫大小影響,就是去除不同批次收樣細(xì)胞量不同的影響,效果相當(dāng)于每次都收獲相同量的細(xì)胞進行測序

常規(guī)RNAseq數(shù)據(jù)標(biāo)準(zhǔn)化步驟:

counts矩陣,行為sample,列為gene

方法1:

exprSet=mean(colSums(exprSet))*exprSet/colSums(exprSet)

exprSet=log2(exprSet+1)

方法2:TMM(edgr+limma包)

注意:(1)方法1結(jié)果全為正,方法2會出現(xiàn)負(fù)值;(2)方法1中,當(dāng)不同批次送樣,或同批次但不同lane(沒有混樣)時需要消除批次效應(yīng)(具體步驟上網(wǎng)找。方法2包含了去批次處理,不需再去批次。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容