本文最后更新于97 天前,其中的信息可能已经过时,如有错误请发送邮件到wuyk@163.com
GeneMark-ES可用来预测真菌基因组的蛋白编码基因
GeneMark官网网址:GeneMark gene prediction
注意:真菌预测工具为GeneMark-ES,原核生物(细菌)预测工具为GeneMarkS
填写信息即可免费获得安装包,同时下载key文件
用tar命令解压GeneMark-ES的安装包,gunzip解压key文件安装包,gm_key文件是软件的通行证,需要拷贝到家目录下。
Cp gm_key ~/.gm_key
对于真菌基因组的预测,代码如下:
gmes_petap.pl --ES --cores 10--sequence genome.fa
但是,我运行的时候,遇到了一系列BUG:都是类似YAML模块未安装,通过cpan安装了模块后,运行还出现BUG,在重复安装了几次之后,通过查阅资料,发现可能是Perl调用模块路径不对的原因。随后我将Perl调用模块的路径添加到.bashrc文件才解决
export PERL5LIB=/root/miniconda3/lib/perl5/site_perl/:$PATH
随后运行就不会报错了。
使用nohup命令,将代码提交到后台运行,运行结束后,输出文件为genemark.gtf
nohup gmes_petap.pl --ES --cores 10 --sequence H.arabidopsis_Noks1.fna > output.log 2>&1 &
结果解析
获得GTF文件后,可用TBTOOLS提取基因组的cds序列,再用TBTOOLS将提取后的cds序列转换成蛋白序列。但是gtf文件的列名有基因组的基础信息,需要将基因组基础信息去除。
将GTF文件粘贴到excel表中,用*作为通配符,即可将基因组基础信息去除
将处理好的GTF文件和基因组文件用于TBTOOLS的序列提取,大功告成!