序列對比

  1. 序列模式
    sequence pattern: 以特定的規(guī)則來描述堿基序列,
    概率性的規(guī)則稱為motifs,如:GC后的堿基80%為A,20%為T
    Adapter是最簡單的一種規(guī)則
    K-mers:一段序列中所有字符串長度為k的組合,k小于等于序列長度
    如一段序列: ATGCA
    2-mers:AT, TG, GC, CA
    3-mers:ATG, TGC, GCA
    4-mers:ATGC, TGCA
    5-mers:ATGCA
    K-mers用處:
    指出錯誤:k-mers通常在序列出錯時出現(xiàn)
    分類:特定的k-mers可以識別基因
  2. 序列對比
    為確定兩個或多個序列之間的相似性以至于同源性,而將它們按照一定的規(guī)律排列。

將兩個或多個序列排列在一起,標(biāo)明其相似之處。序列中可以插入間隔(通常用短橫線“-”表示)。對應(yīng)的相同或相似的符號(在核酸中是A, T(或U), C, G,在蛋白質(zhì)中是氨基酸殘基的單字母表示)排列在同一列上。

符號:

"-": gap

"|": match

".": dismatch

CIGAR string: 在SAM文件中的一種對比格式

比如:4M3D3M1X1M2D

M: Match

D: Deletion

X: Mismatch

如何選擇最好的對比序列:沒有最好的結(jié)果,分?jǐn)?shù)越高越好

分?jǐn)?shù)判定:

5分:match

-4分:mismatch

-10分:gap

-0.5分:extending an open gap

分?jǐn)?shù)可以隨著打分規(guī)則的改變而改變

Global alignment:總序列對比是兩條序列的每一個堿基都互相配對,即使兩個堿基不匹配或者一個堿基與一個gap配對

Local alignment: 局部對比

局部對比是指尋找分?jǐn)?shù)最高的配對方式,為最后可能得到一條很短的配對序列但是是得分最高的

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容