Iso-seq基礎(chǔ)概念,轉(zhuǎn)載自https://blog.csdn.net/weixin_34384681/article/details/85937505
Iso-seq , 全稱叫做 Isoform-sequencing, 是 Pacbio 公司對自己開發(fā)的轉(zhuǎn)錄本測序技術(shù)的規(guī)范化命名;是利用三代測序長讀長的特點,不打斷轉(zhuǎn)錄本,直接測序,從而得到全長轉(zhuǎn)錄本的一種測序技術(shù)。
1)ROI
了解過三代測序數(shù)據(jù)分析的人,對于CCS 環(huán)形一致性序列的概念肯定不會陌生,在iso-seq中,提出了比CCS 更加靈活的一個概念:ROI
ROI , 全稱 reads of insert,可以理解為插入片段,首先看下三代測序文庫構(gòu)建階段的reads示意圖:

對于上述的文庫片段,測序產(chǎn)生的reads 示意圖如下:

由于是一個環(huán)狀分子, 隨著測序反應(yīng)的進(jìn)行,會循環(huán)測序;如果把插入片段的正負(fù)鏈都測了一次,就做1個full pass;
對于CCS 而言,要求至少有2個full pass , 才能去生成CCS reads; 三代測序的特點就是讀長很長,可以達(dá)到十幾kb, 對于短的插入片段而言,CCS這樣定義當(dāng)然沒有問題,但是對于全長轉(zhuǎn)錄本
而言,轉(zhuǎn)錄本長度很長,比如轉(zhuǎn)錄本長度1kb, 讀長3kb, 此時在一個零模波導(dǎo)孔(ZMW)中測序的reads 就不可能達(dá)到2個full pass , 也就產(chǎn)生不了CCS reads, 為了解決這個問題,提高reads的利用率,提出了ROI 的概念,ROI 指的就是插入片段,上圖測序reads 產(chǎn)生的ROI 如下:

ROI 不要求滿足2個full pass, 相對CCS 而言,更加適合全長轉(zhuǎn)錄本的分析;
2)artifacts
可以理解為,共有兩種來源:
Artificial Concatemer

這種序列是由于文庫制備階段,adapter 序列錯誤的將兩條轉(zhuǎn)錄本的序列鏈接構(gòu)成了一個環(huán)狀分子,這個和adapter 濃度有關(guān),通常這種reads 產(chǎn)生的比例很少,小于0.5%, 在后續(xù)的分析中,這部分reads 需要去除
PCR Chimera

在PCR 反應(yīng)中,由于不完全延伸的產(chǎn)物作為了下次擴增反應(yīng)的引物,導(dǎo)致出現(xiàn)嵌合體序列,直觀上看,就是PCR產(chǎn)物來源于兩條或者多條reads;
PCR 產(chǎn)生的嵌合體序列,在PCR 反應(yīng)體系中,這種序列是不可避免的,大約有3%的比例,在后續(xù)的分析過程中,可以借助軟件去除這部分reads;
- FL Reads
FL , Full-length reads, 全長轉(zhuǎn)錄本
從raw data 到 ROI , 在從ROI 去除 artifacts reads 之后,我們就得到了用于后續(xù)分析的clean reads;
clean reads 就已經(jīng)是轉(zhuǎn)錄本的序列了,我們首先看一下clean reads 當(dāng)中,哪些是全長轉(zhuǎn)錄本;哪些不是全長轉(zhuǎn)錄本,這個操作就是分類,classify
全長轉(zhuǎn)錄本的示意圖如下:

對于全長轉(zhuǎn)錄本而言,其ROI reads 中包含5‘ primer 和 3‘ primer; 而且會出現(xiàn)polyA 為結(jié)構(gòu);(polyA 針對mRNA和部分lncRNA)
對于不同大小的文庫,其全長轉(zhuǎn)錄本的比例也不同:

可以看到,文庫片段越長,全長轉(zhuǎn)錄本的比例越低;
4) consensus transcript isoforms
一致性轉(zhuǎn)錄本序列,一個ZMW 產(chǎn)生一個轉(zhuǎn)錄本的reads, 肯定會有冗余的reads 出現(xiàn),這是通過聚類(cluster)的方式,就全長轉(zhuǎn)錄本序列進(jìn)行聚類,可以得到一致性的轉(zhuǎn)錄本序列;
數(shù)據(jù)分析流程:https://github.com/PacificBiosciences/IsoSeq/blob/master/isoseq-clustering.md

步驟
software install
$ conda install -c isoseq3 bioconda pbccs lima pbcoretools
Circular Consensus Sequence calling
$ ccs m54045_190809_102313.subreads.bam m54045.ccs.bam -j 20 --min-rq 0.9

Primer removal and demultiplexing
$ lima m54045.ccs.bam IsoSeqPrimers.fasta m54045.fl.bam -j 20 --isoseq --peek-guess


Refine
$ isoseq3 refine m54045.fl.primer_5p--primer_3p.bam IsoSeqPrimers.fasta m54045.flnc.bam -j 20 --require-polya

Clustering Parallel Polishing
$ isoseq3 cluster m54045.flnc.bam clustered.bam --verbose --use-qvs
