宏基因组之基因预测

简介: 12年有篇BMC的文献对几款预测的软件做了评估,其实参考大多数的文献中最常见的俩个软件也就是Prodigal和Metagenemark这俩个软件,分析过程中我这俩个软件都感受一下,现在将过程记录一下~~有兴趣的话可以看看这篇文献哦。

宏基因组之基因预测


12年有篇BMC的文献对几款预测的软件做了评估,其实参考大多数的文献中最常见的俩个软件也就是Prodigal和Metagenemark这俩个软件,分析过程中我这俩个软件都感受一下,现在将过程记录一下~~有兴趣的话可以看看这篇文献哦。

image.png

MetageneMark

安装地址

image.png

选择图中该版本,下面红*的选项填写完毕后,点击下方agree

image.png

跳出来该页面后,就可以选择下载了,上面是软件,下面是个64位的key,也需要下载,这个key会有期限,时间到了再进该网站重新下载下即可,我们将其放在软件目录下

image.png

接着操作

gunzip gm_key64.gz
    mv gm_key64 gm_key (重命名)
    拷贝权限:cp gm_key ~/.gm_key

现在就可以使用了,就是gmhmmp这个软件,用软件前先看下它的帮助文档,了解下参数的意义,我常用的命令行如下

gmhmmp -a -d  -m MetaGeneMark_v1.mod final.contigs.fa  -A protein.fasta -D nucleotide.fasta

-A 输出蛋白 -D输出CDS核酸序列,另外还有-f 可以控制输出gff文件,请自行了解.

image.png

感觉这个软件输出的结果不太友好,一是fa文件的ID有太多没用的信息,二是每个基因上的不同CDS名字竟然一样,至少给个1、 2区分一下吧,这里我想到了最近学的一个大神写的软件seqkit里的rename,大家可以去看下这个软件教程,地址里面的各个子软件真的能帮助走不少的弯路。先操作一下:

less F1_genemark.txt |sed '/^$/d;s/.*\t//g;s/ .*//g'|seqkit rename|sed 's/ .*//' |less

image.png

这样看上去就好多了,但是强迫症的我发现每个基因的第一个ID后面没有_1,只是从第二个相同的ID后开始加上了_2,3标识符进行了区分,所有我就写了个python小脚本改动一下,很简单思路就是ID里面如果只有一个符号的,ID后面加个1,^^shell还不是太精,如果有啥方法直接shell后面加几句改的话,可以告诉我。总之最后样子就是这样

image.png

软件输出的fa是多行的,这里改成单行看着舒服点,好了接下来拿着这个文件进行后续分析了。

Prodigal

这个软件是我最开始用的,因为它的结果输出就比较友好,不用像上面那样再多余的步骤。看下输出文件的样子

image.png

ID后面加了_1 _2区分,其他信息不想要了也可以sed一下删除了

这里也贴下我跑这个软件命令行

prodigal -p meta -a protein_seq.fasta -m -d nucleotide_seq.fasta -o genes.gff -f gff -s poteintial.stat -i /home/pub_guest/hekai/rawdata/D1_megahit.asm/final.contigs.fa

参数我就不解释了,还是那几个输出文件,直接-h 看吧,提醒下如果是宏基因组数据记得加上-p mate参数~~

至于选用哪个软件,实践是检验真理的唯一标准反正两个的结果还是有点差异的,用prodigal总是比metagenemark的结果要少一点 ,自己动手试试吧~~~

相关文章
|
10月前
|
机器学习/深度学习 人工智能 编解码
ByteDance Research登Nature子刊:AI+冷冻电镜,揭示蛋白质动态
在生物医学领域,蛋白质的结构与功能研究至关重要。ByteDance Research团队开发的CryoSTAR软件,结合AI与冷冻电镜技术,通过深度学习模型、结构先验和异质性重构算法,成功解析了蛋白质的动态行为,尤其在处理结构异质性方面表现出色。该软件已在多个蛋白质体系中取得显著成果,如TRPV1通道蛋白的动态变化研究,为理解蛋白质功能及疾病机制提供了新思路。论文链接:https://www.nature.com/articles/s41592-024-02486-1
326 26
|
10月前
|
存储 安全 数据管理
区块链在医疗数据管理中的应用:安全与隐私的新纪元
区块链在医疗数据管理中的应用:安全与隐私的新纪元
765 16
|
12月前
|
人工智能 测试技术 Apache
SmolVLM:Hugging Face推出的轻量级视觉语言模型
SmolVLM是Hugging Face推出的轻量级视觉语言模型,专为设备端推理设计。以20亿参数量,实现了高效内存占用和快速处理速度。SmolVLM提供了三个版本以满足不同需求,并完全开源,所有模型检查点、VLM数据集、训练配方和工具均在Apache 2.0许可证下发布。
895 7
SmolVLM:Hugging Face推出的轻量级视觉语言模型
|
机器学习/深度学习 数据采集 自然语言处理
注意力机制中三种掩码技术详解和Pytorch实现
**注意力机制中的掩码在深度学习中至关重要,如Transformer模型所用。掩码类型包括:填充掩码(忽略填充数据)、序列掩码(控制信息流)和前瞻掩码(自回归模型防止窥视未来信息)。通过创建不同掩码,如上三角矩阵,模型能正确处理变长序列并保持序列依赖性。在注意力计算中,掩码修改得分,确保模型学习的有效性。这些技术在现代NLP和序列任务中是核心组件。**
1145 12
|
存储 Kubernetes API
JuiceFS-开源分布式文件系统入门(一篇就够了)(上)
JuiceFS-开源分布式文件系统入门(一篇就够了)(上)
758 0
|
存储 Ubuntu 安全
如何在 Ubuntu 14.04 上安装和配置 Syncthing 来同步目录
如何在 Ubuntu 14.04 上安装和配置 Syncthing 来同步目录
336 0
|
编译器 开发工具 C语言
vscode安装+配置+使用+调试【保姆级教程】
vscode安装+配置+使用+调试【保姆级教程】
59051 9
|
数据采集 传感器 监控
LabVIEW的热门应用
LabVIEW的热门应用
318 0
|
数据库 网络架构 索引
宏基因组之基因丰度计算
目前有两种方式可计算宏基因组基因的丰度,一种是基于比对,比如bwa,bowtie,soapaligner等主流的比对软件,另一种是不比对快速估计基因丰度,可以用近俩年来流行的salmon软件,这个软件在转录组的数据比对中也经常用到,可以直接计算出原始的Counts值和标准化的TPM值,此外由于是基于非比对,计算的速度得到很大的提升,同时也节省了部分的内存(少了庞大的sam/bam文件),可以说是多快好省,但是目前的高分文章中也还是不少用基于比对的方法去计算宏基因组的基因丰度的,下面我就分别简单介绍一下基于比对的soapaligner和不比对快速估计的samlon俩个软件的操作流程!!
1530 0
|
人工智能 数据可视化 算法
实例解读:Python量化分析在投资中的应用
实例解读:Python量化分析在投资中的应用