StringTie 是用于 RNA-seq 的轉(zhuǎn)錄本組裝和定量軟件。

本文只是個筆記記錄，更詳細(xì)的內(nèi)容還是要看說明書。

StringTie: Transcript assembly and quantification for RNA-Seq

1. 輸入文件

StringTie takes as input a SAM, BAM or CRAM file sorted by coordinate (genomic location).?

其中，TopHat 的輸出文件已經(jīng)是排序的，而 HISAT2 的輸出文件需要進(jìn)行排序，HISTA2 處理測序得到的 fq 文件的流程見：

RNA-seq 數(shù)據(jù)處理（一）HISAT2 序列比對

假定這一步得到的輸出文件為?test_sort.bam，然后進(jìn)一步下一步。

2. 命令行格式及命令選項

默認(rèn)的命令行格式如下：

stringtie? ?[-o <output.gtf>]? ? [other_options]? ? <read_alignments.bam>

常用參數(shù)描述

-o? ? ? ? # 后跟輸出 gtf 文件名，可以指定完整目錄，將輸出 assembled 轉(zhuǎn)錄本；

-G? ? ? ? # 后跟注釋文件，需要 GTF 或 GFF3 格式；輸出將包括表達(dá)的 ref?transcripts 和其它新的轉(zhuǎn)錄本，該選項配合 -B、-b、-e、-C 使用；

-A? ? ? ? ?# 后跟 tab 文件名，在給定輸出文件中報告基因豐度；

-B? ? ? ? # 該選項允許輸出包含?reference transcripts 覆蓋數(shù)據(jù)的 *.ctab 文件；

-b? ? ? ? # 后跟目錄，同 -B 一樣，允許輸出 *.ctab 文件，但這些文件將在 -b 指定的目錄下創(chuàng)建，而非 -o 指定的目錄下；

-C? ? ? ? # 后跟一個 gtf 文件名，輸出一個具有給定名稱的文件，包含?reference transcripts 中被全覆蓋的所有轉(zhuǎn)錄本；

-e? ? ? ? ?# 允許進(jìn)行表達(dá)估計，將估計 -G 選項指定的轉(zhuǎn)錄本的覆蓋率，只統(tǒng)計可以匹配-G提交的參考 gtf 中的轉(zhuǎn)錄本，不再對新的轉(zhuǎn)錄本做預(yù)測；

-m? ? ? ?# 設(shè)置預(yù)測轉(zhuǎn)錄本的最小長度，默認(rèn)為 200；

-p? ? ? ? ?# 線程數(shù)，默認(rèn)為1；

-l? ? ? ? ? # 設(shè)置輸出轉(zhuǎn)錄本的前綴，默認(rèn)為 STRG；

舉例：

指定 8 個線程運(yùn)行，輸入文件為 test_sort.bam，組裝的轉(zhuǎn)錄本輸出文件為?test.gtf，轉(zhuǎn)錄豐度輸出文件為?test.tab，不再預(yù)測新的轉(zhuǎn)錄本。

stringtie? ??-p? ?8? ?-o? ?test.gtf? -B? -e? -A? ?test.tab? ?-G? ?ref.gtf? ?test_sort.bam

如果不需要尋找新的轉(zhuǎn)錄本，記得加 -e，否則可能會影響 reference 中轉(zhuǎn)錄本的統(tǒng)計。

3. 結(jié)果文件解讀

首先看一下 -o 輸出的組裝的轉(zhuǎn)錄本 gtf 文件。

下圖為文件的第 1 到 8 列：

下圖為文件的第 9 列：

從第一列到第九列分別為：

seqname: 染色體名；

source: GTF文件的來源；

feature: 類型，比如：exon, transcript, mRNA, 5'UTR；

start: 起始位置；

end: 終止位置；

score: A confidence score for the assembled transcript.

strand: 方向；

frame: Frame or phase of CDS features.

attributes: 以分號分隔的 tag-value pairs 列表，提供了每個 feature 的詳細(xì)信息；

另一個是 -A 指定的基因豐度的表格，這個表格簡單直接；

FPKM（Fragments Per Kilobase of exon model per Million mapped fragments）：比對到的某個基因的Fragment數(shù)目，除以基因的長度，其比值再除以所有基因的總長度。注意，嚴(yán)格來講，這里的基因長度是指基因外顯子的總長度。

TPM（Transcripts Per Kilobase of exonmodel per Million mapped reads）：與FPKM不同的地方在于，其基因的比值是再除以（基因的總數(shù)目/基因的總長度）。因此，其得到的結(jié)果是一個相對的比值。推薦使用。

4. 合并得到非冗余轉(zhuǎn)錄本（可選）

如果在上一步驟沒有指定 -e，即尋找了新的轉(zhuǎn)錄本，這一步可以可以增加 merge 再跑一遍，流程如下圖所示：

stringtie? ? --merge? ? -p? ? 4? ? -G? ? ref.gtf? ?? -o? ? merged.gtf? ? ? ?mergelist.txt

而后再重新跑一遍?stringtie；

stringtie?-p? ?8??-o? ?test.gtf? -B? -e? -A? ?test.tab? ?-G? ??merged.gtf?? ? test_sort.bam

而后進(jìn)行差異表達(dá)基因的分析。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

RNA-seq 數(shù)據(jù)處理（二）StringTie 轉(zhuǎn)錄本組裝

RNA-seq 數(shù)據(jù)處理（二）StringTie 轉(zhuǎn)錄本組裝

StringTie 是用于 RNA-seq 的轉(zhuǎn)錄本組裝和定量軟件。

StringTie: Transcript assembly and quantification for RNA-Seq

1. 輸入文件

2. 命令行格式及命令選項

3. 結(jié)果文件解讀

4. 合并得到非冗余轉(zhuǎn)錄本（可選）

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

RNA-seq 數(shù)據(jù)處理（二）StringTie 轉(zhuǎn)錄本組裝

StringTie 是用于 RNA-seq 的轉(zhuǎn)錄本組裝和定量軟件。

StringTie: Transcript assembly and quantification for RNA-Seq

1. 輸入文件

2. 命令行格式及命令選項

3. 結(jié)果文件解讀

4. 合并得到非冗余轉(zhuǎn)錄本（可選）

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av