RNA-seq 數(shù)據(jù)處理(二)StringTie 轉(zhuǎn)錄本組裝

StringTie 是用于 RNA-seq 的轉(zhuǎn)錄本組裝和定量軟件。

本文只是個筆記記錄,更詳細(xì)的內(nèi)容還是要看說明書。

StringTie: Transcript assembly and quantification for RNA-Seq


1. 輸入文件

StringTie takes as input a SAM, BAM or CRAM file sorted by coordinate (genomic location).?

其中,TopHat 的輸出文件已經(jīng)是排序的,而 HISAT2 的輸出文件需要進(jìn)行排序,HISTA2 處理測序得到的 fq 文件的流程見:

RNA-seq 數(shù)據(jù)處理(一)HISAT2 序列比對

假定這一步得到的輸出文件為?test_sort.bam,然后進(jìn)一步下一步。

2. 命令行格式及命令選項

默認(rèn)的命令行格式如下:

stringtie? ?[-o <output.gtf>]? ? [other_options]? ? <read_alignments.bam>

常用參數(shù)描述

-o? ? ? ? # 后跟輸出 gtf 文件名,可以指定完整目錄,將輸出 assembled 轉(zhuǎn)錄本;

-G? ? ? ? # 后跟注釋文件,需要 GTF 或 GFF3 格式;輸出將包括表達(dá)的 ref?transcripts 和其它新的轉(zhuǎn)錄本,該選項配合 -B、-b、-e、-C 使用;

-A? ? ? ? ?# 后跟 tab 文件名,在給定輸出文件中報告基因豐度;

-B? ? ? ? # 該選項允許輸出包含?reference transcripts 覆蓋數(shù)據(jù)的 *.ctab 文件;

-b? ? ? ? # 后跟目錄,同 -B 一樣,允許輸出 *.ctab 文件,但這些文件將在 -b 指定的目錄下創(chuàng)建,而非 -o 指定的目錄下;

-C? ? ? ? # 后跟一個 gtf 文件名,輸出一個具有給定名稱的文件,包含?reference transcripts 中被全覆蓋的所有轉(zhuǎn)錄本;

-e? ? ? ? ?# 允許進(jìn)行表達(dá)估計,將估計 -G 選項指定的轉(zhuǎn)錄本的覆蓋率,只統(tǒng)計可以匹配-G提交的參考 gtf 中的轉(zhuǎn)錄本,不再對新的轉(zhuǎn)錄本做預(yù)測;

-m? ? ? ?# 設(shè)置預(yù)測轉(zhuǎn)錄本的最小長度,默認(rèn)為 200;

-p? ? ? ? ?# 線程數(shù),默認(rèn)為1;

-l? ? ? ? ? # 設(shè)置輸出轉(zhuǎn)錄本的前綴,默認(rèn)為 STRG;

舉例:

指定 8 個線程運(yùn)行,輸入文件為 test_sort.bam,組裝的轉(zhuǎn)錄本輸出文件為?test.gtf,轉(zhuǎn)錄豐度輸出文件為?test.tab,不再預(yù)測新的轉(zhuǎn)錄本。

stringtie? ??-p? ?8? ?-o? ?test.gtf? -B? -e? -A? ?test.tab? ?-G? ?ref.gtf? ?test_sort.bam

如果不需要尋找新的轉(zhuǎn)錄本,記得加 -e,否則可能會影響 reference 中轉(zhuǎn)錄本的統(tǒng)計。

3. 結(jié)果文件解讀

首先看一下 -o 輸出的組裝的轉(zhuǎn)錄本 gtf 文件。

下圖為文件的第 1 到 8 列:

下圖為文件的第 9 列:

從第一列到第九列分別為:

seqname: 染色體名;

source: GTF文件的來源;

feature: 類型,比如:exon, transcript, mRNA, 5'UTR;

start: 起始位置;

end: 終止位置;

score: A confidence score for the assembled transcript.

strand: 方向;

frame: Frame or phase of CDS features.

attributes: 以分號分隔的 tag-value pairs 列表,提供了每個 feature 的詳細(xì)信息;


另一個是 -A 指定的基因豐度的表格,這個表格簡單直接;

FPKM(Fragments Per Kilobase of exon model per Million mapped fragments):比對到的某個基因的Fragment數(shù)目,除以基因的長度,其比值再除以所有基因的總長度。注意,嚴(yán)格來講,這里的基因長度是指基因外顯子的總長度。

TPM(Transcripts Per Kilobase of exonmodel per Million mapped reads):與FPKM不同的地方在于,其基因的比值是再除以(基因的總數(shù)目/基因的總長度)。因此,其得到的結(jié)果是一個相對的比值。推薦使用。

4. 合并得到非冗余轉(zhuǎn)錄本(可選)

如果在上一步驟沒有指定 -e,即尋找了新的轉(zhuǎn)錄本,這一步可以可以增加 merge 再跑一遍,流程如下圖所示:

stringtie? ? --merge? ? -p? ? 4? ? -G? ? ref.gtf? ?? -o? ? merged.gtf? ? ? ?mergelist.txt

而后再重新跑一遍?stringtie;

stringtie?-p? ?8??-o? ?test.gtf? -B? -e? -A? ?test.tab? ?-G? ??merged.gtf?? ? test_sort.bam

而后進(jìn)行差異表達(dá)基因的分析。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容