短序列比對軟件參數(shù)和格式解讀Bowtie2/SAM

之前一貫使用的是BWA,根據(jù)文獻描述,BWA速度比較慢但是比較精確,Bowtie比較快消耗的內(nèi)存也比較小。目前用自己的8G筆記本,使用Bowtie比對二代測序reads到人類基因組上,的確是可以跑得開的。


首先,先區(qū)別一下這些大名鼎鼎的比對軟件。

TopHat: a fast splice junction mapper for RNA-seq reads

Cufflinks: a tool for transcriptome assembly and isoform quantitiation from RNA-seq reads

Crossbow: a cloud-enabled software tool for analyzing resequencing data

Myrna: a cloud-enabled software tool for aligning RNA-seq reads and measuring differential gene expression

Bowtie2 參數(shù):

參數(shù)如下:

第一步,是將你的reference進行index

Bowtie2結(jié)果文件 SAM格式解析:

SAM被tab鍵分割成12個列,tab分割有利于用shell腳本直接處理。當然SAMtools也可以承擔(dān)一些工作。

1??? 比對到參考基因組上的reads的ID

2??? 進行標注的Flag值:1.這個reads是paired reads里面的一個; 2.這個比對是paired-end比對中的一端;4.這個read,沒有任何比對上的結(jié)果;8.這個read是pair里面的一個,并且沒有比對上;16.比對到了反義鏈上;32.另外一條read比對到了反義鏈;64.它是pair里面的第一條;128.它是pair里面的第二條。

把這些條件進行加和:比如83=64+16+2+1,代表paired-end序列的第一條read,并且比對到了反義鏈上。

3??? 比對到基因組的位置的染色體或者scaffold

4??? 以正義鏈來算,比對上的最左邊的那個位置的bp數(shù)

5??? 比對的質(zhì)量值

6? ? CIGAR string representation of alignment???應(yīng)該是代表多少個Match多少個Mismatch

7??? 參考基因組被比上的序列,如果完全相同就是=,如果沒比上就是*

8???? 這個read的另一個pair的read比對上的最左邊的第一個氨基酸

9???? 它的pair read發(fā)生的位置在上下游的多少bp數(shù),正為下游,負數(shù)為上游。

10? ? read sequence(reverse-complemented if aligned to the reverse strand)

11??? ASCII碼標注的質(zhì)量

12??? 附加信息

AS:i:<N> 比對分數(shù)

XS:i:<N>在出現(xiàn)比對到多個位置的情況下,最佳比對的分數(shù)

用于Uniq過濾的參數(shù)!

YS:i:<N> 那個pair mate的比對分數(shù)

XN:i:<N> 多少個可疑的base

XM:i:<N> Mismatch的個數(shù)

XO:i:<N> gap open的個數(shù)? XE 是gap extension的個數(shù)

YF:Z:<S> read被過濾掉的原因。。。

NM:i:<N> The edit distance; that is, the minimal number of one-nucleotide edits

(substitutions, insertions and deletions) needed to transform the read

string into the reference string.? Only present if SAM record is for an

aligned read.

YT:Z:<S> Value of `UU` indicates the read was not part of a pair.? Value of `CP`

indicates the read was part of a pair and the pair aligned concordantly.

Value of `DP` indicates the read was part of a pair and the pair aligned

discordantly.? Value of `UP` indicates the read was part of a pair but the

pair failed to aligned either concordantly or discordantly.

MD : Z : <S>

A string representation of the mismatched reference bases in the alignment.

See [SAM] format specification for details.? Only present if SAM record is

for an aligned read.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • Introduction What is Bowtie 2? Bowtie 2 is an ultrafast a...
    wzz閱讀 6,250評論 0 5
  • 一季度評星被打回來了,沈yan妍操作的,坑爹
    mimikatz閱讀 394評論 0 0

友情鏈接更多精彩內(nèi)容