pacbio 三代全長轉(zhuǎn)錄組數(shù)據(jù)分析流程

Iso-seq基礎(chǔ)概念,轉(zhuǎn)載自https://blog.csdn.net/weixin_34384681/article/details/85937505
Iso-seq , 全稱叫做 Isoform-sequencing, 是 Pacbio 公司對自己開發(fā)的轉(zhuǎn)錄本測序技術(shù)的規(guī)范化命名;是利用三代測序長讀長的特點,不打斷轉(zhuǎn)錄本,直接測序,從而得到全長轉(zhuǎn)錄本的一種測序技術(shù)。

1)ROI

了解過三代測序數(shù)據(jù)分析的人,對于CCS 環(huán)形一致性序列的概念肯定不會陌生,在iso-seq中,提出了比CCS 更加靈活的一個概念:ROI

ROI , 全稱 reads of insert,可以理解為插入片段,首先看下三代測序文庫構(gòu)建階段的reads示意圖:

1.png

對于上述的文庫片段,測序產(chǎn)生的reads 示意圖如下:

image

由于是一個環(huán)狀分子, 隨著測序反應(yīng)的進(jìn)行,會循環(huán)測序;如果把插入片段的正負(fù)鏈都測了一次,就做1個full pass;

對于CCS 而言,要求至少有2個full pass , 才能去生成CCS reads; 三代測序的特點就是讀長很長,可以達(dá)到十幾kb, 對于短的插入片段而言,CCS這樣定義當(dāng)然沒有問題,但是對于全長轉(zhuǎn)錄本

而言,轉(zhuǎn)錄本長度很長,比如轉(zhuǎn)錄本長度1kb, 讀長3kb, 此時在一個零模波導(dǎo)孔(ZMW)中測序的reads 就不可能達(dá)到2個full pass , 也就產(chǎn)生不了CCS reads, 為了解決這個問題,提高reads的利用率,提出了ROI 的概念,ROI 指的就是插入片段,上圖測序reads 產(chǎn)生的ROI 如下:

image

ROI 不要求滿足2個full pass, 相對CCS 而言,更加適合全長轉(zhuǎn)錄本的分析;

2)artifacts

可以理解為,共有兩種來源:

Artificial Concatemer

image

這種序列是由于文庫制備階段,adapter 序列錯誤的將兩條轉(zhuǎn)錄本的序列鏈接構(gòu)成了一個環(huán)狀分子,這個和adapter 濃度有關(guān),通常這種reads 產(chǎn)生的比例很少,小于0.5%, 在后續(xù)的分析中,這部分reads 需要去除

PCR Chimera

image

在PCR 反應(yīng)中,由于不完全延伸的產(chǎn)物作為了下次擴增反應(yīng)的引物,導(dǎo)致出現(xiàn)嵌合體序列,直觀上看,就是PCR產(chǎn)物來源于兩條或者多條reads;

PCR 產(chǎn)生的嵌合體序列,在PCR 反應(yīng)體系中,這種序列是不可避免的,大約有3%的比例,在后續(xù)的分析過程中,可以借助軟件去除這部分reads;

  1. FL Reads

FL , Full-length reads, 全長轉(zhuǎn)錄本

從raw data 到 ROI , 在從ROI 去除 artifacts reads 之后,我們就得到了用于后續(xù)分析的clean reads;

clean reads 就已經(jīng)是轉(zhuǎn)錄本的序列了,我們首先看一下clean reads 當(dāng)中,哪些是全長轉(zhuǎn)錄本;哪些不是全長轉(zhuǎn)錄本,這個操作就是分類,classify

全長轉(zhuǎn)錄本的示意圖如下:

image

對于全長轉(zhuǎn)錄本而言,其ROI reads 中包含5‘ primer 和 3‘ primer; 而且會出現(xiàn)polyA 為結(jié)構(gòu);(polyA 針對mRNA和部分lncRNA)

對于不同大小的文庫,其全長轉(zhuǎn)錄本的比例也不同:

image

可以看到,文庫片段越長,全長轉(zhuǎn)錄本的比例越低;

4) consensus transcript isoforms

一致性轉(zhuǎn)錄本序列,一個ZMW 產(chǎn)生一個轉(zhuǎn)錄本的reads, 肯定會有冗余的reads 出現(xiàn),這是通過聚類(cluster)的方式,就全長轉(zhuǎn)錄本序列進(jìn)行聚類,可以得到一致性的轉(zhuǎn)錄本序列;

數(shù)據(jù)分析流程:https://github.com/PacificBiosciences/IsoSeq/blob/master/isoseq-clustering.md

image.png

步驟

software install

$ conda install -c isoseq3 bioconda pbccs lima pbcoretools

Circular Consensus Sequence calling

$ ccs m54045_190809_102313.subreads.bam m54045.ccs.bam -j 20 --min-rq 0.9


image.png

Primer removal and demultiplexing

$ lima m54045.ccs.bam IsoSeqPrimers.fasta m54045.fl.bam -j 20 --isoseq --peek-guess


image.png

image.png

Refine

$ isoseq3 refine m54045.fl.primer_5p--primer_3p.bam IsoSeqPrimers.fasta m54045.flnc.bam -j 20 --require-polya


image.png

Clustering Parallel Polishing

$ isoseq3 cluster m54045.flnc.bam clustered.bam --verbose --use-qvs


image.png
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容