EvidenceModeler用于將多種方法的注釋結(jié)果合并整理
從頭預(yù)測(cè)的結(jié)果,同源注釋結(jié)果,RNA-seq輔助注釋結(jié)果,EST注釋結(jié)果等等。
1.下載并配置環(huán)境
wget?https://github.com/EVidenceModeler/EVidenceModeler/releases/download/EVidenceModeler-v2.1.0/EVidenceModeler-v2.1.0.tar.gz
tar -zxvf? EVidenceModeler-v2.1.0.tar.gz
cd EVidenceModeler-v2.1.0/
make
#配置環(huán)境,如果運(yùn)行有問(wèn)題的話(huà)就在解壓縮的路徑里面make,運(yùn)行沒(méi)有問(wèn)題可以不make
2.準(zhǔn)備數(shù)據(jù)
ab into預(yù)測(cè)的結(jié)果:gene_prediction.gff3
同源注釋結(jié)果:protein_alignments.gff3
RNA-seq注釋結(jié)果:transcript_alignments.gff3
不管你有多少個(gè)文件,把它歸成這三種文件,第二列的信息不一致把它們合并到同一個(gè)文件中。根據(jù)第二列的信息創(chuàng)建權(quán)重值,生成結(jié)果文件。
其中從頭預(yù)測(cè)的文件要標(biāo)準(zhǔn)的gff3文件格式。如果后兩個(gè)文件的格式和官方給定的不同,也同樣做成和gene_prediction.gff3文件格式相同的文件(尤其是第九列的格式)。



3.創(chuàng)建權(quán)重文件weights.txt
PROTEIN nap-nr_minus_rice.fasta 1
PROTEIN genewise-nr_minus_rice.fasta 5
TRANSCRIPT gap2-plant_gene_index.11282006.fasta 1
TRANSCRIPT alignAssembly-rice_release4_gmapsim4_02152006 10
ABINITIO_PREDICTION fgenesh 1
ABINITIO_PREDICTION genemark 1
ABINITIO_PREDICTION glimmerHMM 1
(以制表符分開(kāi),包括三列,第一列確定是文件類(lèi)型,第二列就是注釋結(jié)果文件的第二列信息,劃分文件,第三列給定權(quán)重值。權(quán)重值官方文檔也沒(méi)有明確的定義,看到最大的就是10,一般認(rèn)為T(mén)RANSCRIPT>PROTEIN>ABINITIO;從頭預(yù)測(cè)的有1,同源蛋白的2-5,RNA-seq的6-10;大概這樣的區(qū)間。也可以多設(shè)置,看結(jié)果是否有區(qū)別。
4.運(yùn)行
$EVM_HOME/EVidenceModeler \
? ? ? ? --sample_id mySampleID \? # 給定生成文件名字
? ? ? ? --genome genome.fasta \? # 基因組文件
? ? ? ? --gene_predictions gene_predictions.gff3 \?
? ? ? ? --protein_alignments protein_alignments.gff3 \
? ? ? ? --transcript_alignments transcript_alignments.gff3 \
? ? ? ? --segmentSize 100000 \??
? ? ? ? --overlapSize 10000
5.生成文件
${mySampleID}.EVM.gff3 - EVM gene structure outputs in GFF3-gene-structure format.
${mySampleID}.EVM.pep and .cds - protein and CDS sequences for EVM predictions in FASTA format.
${mySampleID}.EVM.bed - EVM gene structure outputs in BED format for viewing in IGV.