新版EvidenceModeler基因組注釋方法

EvidenceModeler用于將多種方法的注釋結(jié)果合并整理

從頭預(yù)測(cè)的結(jié)果,同源注釋結(jié)果,RNA-seq輔助注釋結(jié)果,EST注釋結(jié)果等等。

1.下載并配置環(huán)境

wget?https://github.com/EVidenceModeler/EVidenceModeler/releases/download/EVidenceModeler-v2.1.0/EVidenceModeler-v2.1.0.tar.gz

tar -zxvf? EVidenceModeler-v2.1.0.tar.gz

cd EVidenceModeler-v2.1.0/

make

#配置環(huán)境,如果運(yùn)行有問(wèn)題的話(huà)就在解壓縮的路徑里面make,運(yùn)行沒(méi)有問(wèn)題可以不make

2.準(zhǔn)備數(shù)據(jù)

ab into預(yù)測(cè)的結(jié)果:gene_prediction.gff3

同源注釋結(jié)果:protein_alignments.gff3

RNA-seq注釋結(jié)果:transcript_alignments.gff3

不管你有多少個(gè)文件,把它歸成這三種文件,第二列的信息不一致把它們合并到同一個(gè)文件中。根據(jù)第二列的信息創(chuàng)建權(quán)重值,生成結(jié)果文件。

其中從頭預(yù)測(cè)的文件要標(biāo)準(zhǔn)的gff3文件格式。如果后兩個(gè)文件的格式和官方給定的不同,也同樣做成和gene_prediction.gff3文件格式相同的文件(尤其是第九列的格式)。

gff3文件格式


同源蛋白注釋文件,如果第三列和不一樣的話(huà)也沒(méi)關(guān)系。


RNA-seq和EST的結(jié)果, 如果第三列和不一樣的話(huà)也沒(méi)關(guān)系。

3.創(chuàng)建權(quán)重文件weights.txt

PROTEIN nap-nr_minus_rice.fasta 1

PROTEIN genewise-nr_minus_rice.fasta 5

TRANSCRIPT gap2-plant_gene_index.11282006.fasta 1

TRANSCRIPT alignAssembly-rice_release4_gmapsim4_02152006 10

ABINITIO_PREDICTION fgenesh 1

ABINITIO_PREDICTION genemark 1

ABINITIO_PREDICTION glimmerHMM 1

(以制表符分開(kāi),包括三列,第一列確定是文件類(lèi)型,第二列就是注釋結(jié)果文件的第二列信息,劃分文件,第三列給定權(quán)重值。權(quán)重值官方文檔也沒(méi)有明確的定義,看到最大的就是10,一般認(rèn)為T(mén)RANSCRIPT>PROTEIN>ABINITIO;從頭預(yù)測(cè)的有1,同源蛋白的2-5,RNA-seq的6-10;大概這樣的區(qū)間。也可以多設(shè)置,看結(jié)果是否有區(qū)別。

4.運(yùn)行

$EVM_HOME/EVidenceModeler \

? ? ? ? --sample_id mySampleID \? # 給定生成文件名字

? ? ? ? --genome genome.fasta \? # 基因組文件

? ? ? ? --gene_predictions gene_predictions.gff3 \?

? ? ? ? --protein_alignments protein_alignments.gff3 \

? ? ? ? --transcript_alignments transcript_alignments.gff3 \

? ? ? ? --segmentSize 100000 \??

? ? ? ? --overlapSize 10000


5.生成文件

${mySampleID}.EVM.gff3 - EVM gene structure outputs in GFF3-gene-structure format.

${mySampleID}.EVM.pep and .cds - protein and CDS sequences for EVM predictions in FASTA format.

${mySampleID}.EVM.bed - EVM gene structure outputs in BED format for viewing in IGV.

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容