基因組注釋主要包括四個(gè)方面:
重復(fù)序列識(shí)別
序列比對(duì)方法
? ? ? ? RepeatScout、LTR-finder、Tendem Repeat Finder、Piler、Repeatmoderler軟件 + Repbase數(shù)據(jù)庫(kù)比對(duì)
從頭預(yù)測(cè)方法
? ? ? ? Repeatmasker識(shí)別與已知重復(fù)序列相似的重復(fù)序列
非編碼RNA的預(yù)測(cè)
? ? ? ? ?一般專(zhuān)注于搜索單一種類(lèi)的ncRNA,如tRNAScan-SE 搜索tRNA、snoScan 搜索帶C/D盒的snoRNAs、SnoGps 搜索帶H/ACA 盒的snoRNAs、mirScan 搜索microRNA等等。
? ? ? ? ? 采用的非編碼RNA序列的預(yù)測(cè)方法都是基于序列比對(duì)和結(jié)構(gòu)預(yù)測(cè)
基因結(jié)構(gòu)預(yù)測(cè)
? ? ? ? 包括預(yù)測(cè)基因組中的基因位點(diǎn)、開(kāi)放性閱讀框架(ORF)、翻譯起始位點(diǎn)和終止位點(diǎn)、內(nèi)含子和外顯子區(qū)域、啟動(dòng)子、可變剪切位點(diǎn)以及蛋白質(zhì)編碼序列等等。
? ? ? ? ?Glimmer應(yīng)用最廣泛的原核生物基因結(jié)構(gòu)預(yù)測(cè)軟件。
? ? ? ? ? 真核生物:隱馬爾可夫模型-Genscan、SNAP、GeneMark、Twinscan
? ? ? ? ? ?基因結(jié)構(gòu)預(yù)測(cè)主要通過(guò)序列比對(duì)結(jié)合從頭預(yù)測(cè)方法進(jìn)行。序列比對(duì)方法采用blat和pasa等比對(duì)方法,將基因組序列與外部數(shù)據(jù)進(jìn)行比對(duì),以找到可能的基因位置信息。常用的數(shù)據(jù)包括物種自身或其近緣物種的蛋白質(zhì)序列、EST序列、全長(zhǎng)cDNA序列、unigene序列等等。這種方法對(duì)數(shù)據(jù)的依賴(lài)性很高,并且在選擇數(shù)據(jù)的同時(shí)要充分考慮到物種之間的親緣關(guān)系和進(jìn)化距離?;驈念^預(yù)測(cè)方法則是通過(guò)搜索基因組中的重要信號(hào)位點(diǎn)進(jìn)行的。常用的軟件有Genscan、SNAP、Augustus、Glimmer、GlimmerHMM等等。同時(shí)采用多種方法進(jìn)行基因預(yù)測(cè)將產(chǎn)生眾多結(jié)果,因此最后需要對(duì)結(jié)果進(jìn)行整合以得到基因的一致性序列。常用軟件有Glean,EVM等。
基因功能注釋
? ? ? ? ? ?現(xiàn)在多利用四個(gè)常用的數(shù)據(jù)庫(kù)進(jìn)行基因功能注釋。使用的數(shù)據(jù)庫(kù)有Uniprot蛋白質(zhì)序列數(shù)據(jù)庫(kù)、KEGG生物學(xué)通路數(shù)據(jù)庫(kù)、Interpro蛋白質(zhì)家族數(shù)據(jù)庫(kù)和Gene Ontology基因功能注釋數(shù)據(jù)庫(kù)。
1):與Uniprot蛋白質(zhì)序列數(shù)據(jù)庫(kù)比對(duì),獲得序列的初步信息。
2):與KEGG數(shù)據(jù)庫(kù)比對(duì),預(yù)測(cè)蛋白質(zhì)可能具有的生物學(xué)通路信息。
3):與Interpro數(shù)據(jù)庫(kù)比對(duì)將獲得蛋白質(zhì)的保守性序列,模序和結(jié)構(gòu)域等。
4):預(yù)測(cè)蛋白質(zhì)的功能。Interpro進(jìn)一步建立了與Gene Ontology的交互系統(tǒng):Interpro2GO。該系統(tǒng)記錄了每個(gè)蛋白質(zhì)家族與Gene Ontology中的功能節(jié)點(diǎn)的對(duì)應(yīng)關(guān)系,我們通過(guò)此系統(tǒng)便能預(yù)測(cè)蛋白質(zhì)執(zhí)行的生物學(xué)功能。
基因組注釋的三種策略:
從頭注釋(de novo prediction):通過(guò)已有的概率模型來(lái)預(yù)測(cè)基因結(jié)構(gòu),在預(yù)測(cè)剪切位點(diǎn)和UTR區(qū)準(zhǔn)確性較低
同源預(yù)測(cè)(homology-based prediction):有一些基因蛋白在相近物種間的保守型搞,所以可以使用已有的高質(zhì)量近緣物種注釋信息通過(guò)序列聯(lián)配的方式確定外顯子邊界和剪切位點(diǎn)
基于轉(zhuǎn)錄組預(yù)測(cè)(transcriptome-based prediction):通過(guò)物種的RNA-seq數(shù)據(jù)輔助注釋?zhuān)軌蜉^為準(zhǔn)確的確定剪切位點(diǎn)和外顯子區(qū)域。
最后需要用EvidenceModeler(EVM)和GLEAN工具進(jìn)行整合,合并成完整的基因結(jié)構(gòu)。
基因組自動(dòng)注釋軟件 CpGAThttp://bioservices.usd.edu/gsap.html