StringTie 是用于 RNA-seq 的轉(zhuǎn)錄本組裝和定量軟件。
本文只是個筆記記錄,更詳細(xì)的內(nèi)容還是要看說明書。
StringTie: Transcript assembly and quantification for RNA-Seq

1. 輸入文件
StringTie takes as input a SAM, BAM or CRAM file sorted by coordinate (genomic location).?
其中,TopHat 的輸出文件已經(jīng)是排序的,而 HISAT2 的輸出文件需要進(jìn)行排序,HISTA2 處理測序得到的 fq 文件的流程見:
RNA-seq 數(shù)據(jù)處理(一)HISAT2 序列比對
假定這一步得到的輸出文件為?test_sort.bam,然后進(jìn)一步下一步。
2. 命令行格式及命令選項
默認(rèn)的命令行格式如下:
stringtie? ?[-o <output.gtf>]? ? [other_options]? ? <read_alignments.bam>
常用參數(shù)描述
-o? ? ? ? # 后跟輸出 gtf 文件名,可以指定完整目錄,將輸出 assembled 轉(zhuǎn)錄本;
-G? ? ? ? # 后跟注釋文件,需要 GTF 或 GFF3 格式;輸出將包括表達(dá)的 ref?transcripts 和其它新的轉(zhuǎn)錄本,該選項配合 -B、-b、-e、-C 使用;
-A? ? ? ? ?# 后跟 tab 文件名,在給定輸出文件中報告基因豐度;
-B? ? ? ? # 該選項允許輸出包含?reference transcripts 覆蓋數(shù)據(jù)的 *.ctab 文件;
-b? ? ? ? # 后跟目錄,同 -B 一樣,允許輸出 *.ctab 文件,但這些文件將在 -b 指定的目錄下創(chuàng)建,而非 -o 指定的目錄下;
-C? ? ? ? # 后跟一個 gtf 文件名,輸出一個具有給定名稱的文件,包含?reference transcripts 中被全覆蓋的所有轉(zhuǎn)錄本;
-e? ? ? ? ?# 允許進(jìn)行表達(dá)估計,將估計 -G 選項指定的轉(zhuǎn)錄本的覆蓋率,只統(tǒng)計可以匹配-G提交的參考 gtf 中的轉(zhuǎn)錄本,不再對新的轉(zhuǎn)錄本做預(yù)測;
-m? ? ? ?# 設(shè)置預(yù)測轉(zhuǎn)錄本的最小長度,默認(rèn)為 200;
-p? ? ? ? ?# 線程數(shù),默認(rèn)為1;
-l? ? ? ? ? # 設(shè)置輸出轉(zhuǎn)錄本的前綴,默認(rèn)為 STRG;
舉例:
指定 8 個線程運(yùn)行,輸入文件為 test_sort.bam,組裝的轉(zhuǎn)錄本輸出文件為?test.gtf,轉(zhuǎn)錄豐度輸出文件為?test.tab,不再預(yù)測新的轉(zhuǎn)錄本。
stringtie? ??-p? ?8? ?-o? ?test.gtf? -B? -e? -A? ?test.tab? ?-G? ?ref.gtf? ?test_sort.bam
如果不需要尋找新的轉(zhuǎn)錄本,記得加 -e,否則可能會影響 reference 中轉(zhuǎn)錄本的統(tǒng)計。
3. 結(jié)果文件解讀
首先看一下 -o 輸出的組裝的轉(zhuǎn)錄本 gtf 文件。
下圖為文件的第 1 到 8 列:

下圖為文件的第 9 列:

從第一列到第九列分別為:
seqname: 染色體名;
source: GTF文件的來源;
feature: 類型,比如:exon, transcript, mRNA, 5'UTR;
start: 起始位置;
end: 終止位置;
score: A confidence score for the assembled transcript.
strand: 方向;
frame: Frame or phase of CDS features.
attributes: 以分號分隔的 tag-value pairs 列表,提供了每個 feature 的詳細(xì)信息;
另一個是 -A 指定的基因豐度的表格,這個表格簡單直接;

FPKM(Fragments Per Kilobase of exon model per Million mapped fragments):比對到的某個基因的Fragment數(shù)目,除以基因的長度,其比值再除以所有基因的總長度。注意,嚴(yán)格來講,這里的基因長度是指基因外顯子的總長度。
TPM(Transcripts Per Kilobase of exonmodel per Million mapped reads):與FPKM不同的地方在于,其基因的比值是再除以(基因的總數(shù)目/基因的總長度)。因此,其得到的結(jié)果是一個相對的比值。推薦使用。
4. 合并得到非冗余轉(zhuǎn)錄本(可選)
如果在上一步驟沒有指定 -e,即尋找了新的轉(zhuǎn)錄本,這一步可以可以增加 merge 再跑一遍,流程如下圖所示:

stringtie? ? --merge? ? -p? ? 4? ? -G? ? ref.gtf? ?? -o? ? merged.gtf? ? ? ?mergelist.txt
而后再重新跑一遍?stringtie;
stringtie?-p? ?8??-o? ?test.gtf? -B? -e? -A? ?test.tab? ?-G? ??merged.gtf?? ? test_sort.bam
而后進(jìn)行差異表達(dá)基因的分析。