宏基因组之基因预测

简介: 12年有篇BMC的文献对几款预测的软件做了评估,其实参考大多数的文献中最常见的俩个软件也就是Prodigal和Metagenemark这俩个软件,分析过程中我这俩个软件都感受一下,现在将过程记录一下~~有兴趣的话可以看看这篇文献哦。

宏基因组之基因预测


12年有篇BMC的文献对几款预测的软件做了评估,其实参考大多数的文献中最常见的俩个软件也就是Prodigal和Metagenemark这俩个软件,分析过程中我这俩个软件都感受一下,现在将过程记录一下~~有兴趣的话可以看看这篇文献哦。

image.png

MetageneMark

安装地址

image.png

选择图中该版本,下面红*的选项填写完毕后,点击下方agree

image.png

跳出来该页面后,就可以选择下载了,上面是软件,下面是个64位的key,也需要下载,这个key会有期限,时间到了再进该网站重新下载下即可,我们将其放在软件目录下

image.png

接着操作

gunzip gm_key64.gz
    mv gm_key64 gm_key (重命名)
    拷贝权限:cp gm_key ~/.gm_key

现在就可以使用了,就是gmhmmp这个软件,用软件前先看下它的帮助文档,了解下参数的意义,我常用的命令行如下

gmhmmp -a -d  -m MetaGeneMark_v1.mod final.contigs.fa  -A protein.fasta -D nucleotide.fasta

-A 输出蛋白 -D输出CDS核酸序列,另外还有-f 可以控制输出gff文件,请自行了解.

image.png

感觉这个软件输出的结果不太友好,一是fa文件的ID有太多没用的信息,二是每个基因上的不同CDS名字竟然一样,至少给个1、 2区分一下吧,这里我想到了最近学的一个大神写的软件seqkit里的rename,大家可以去看下这个软件教程,地址里面的各个子软件真的能帮助走不少的弯路。先操作一下:

less F1_genemark.txt |sed '/^$/d;s/.*\t//g;s/ .*//g'|seqkit rename|sed 's/ .*//' |less

image.png

这样看上去就好多了,但是强迫症的我发现每个基因的第一个ID后面没有_1,只是从第二个相同的ID后开始加上了_2,3标识符进行了区分,所有我就写了个python小脚本改动一下,很简单思路就是ID里面如果只有一个符号的,ID后面加个1,^^shell还不是太精,如果有啥方法直接shell后面加几句改的话,可以告诉我。总之最后样子就是这样

image.png

软件输出的fa是多行的,这里改成单行看着舒服点,好了接下来拿着这个文件进行后续分析了。

Prodigal

这个软件是我最开始用的,因为它的结果输出就比较友好,不用像上面那样再多余的步骤。看下输出文件的样子

image.png

ID后面加了_1 _2区分,其他信息不想要了也可以sed一下删除了

这里也贴下我跑这个软件命令行

prodigal -p meta -a protein_seq.fasta -m -d nucleotide_seq.fasta -o genes.gff -f gff -s poteintial.stat -i /home/pub_guest/hekai/rawdata/D1_megahit.asm/final.contigs.fa

参数我就不解释了,还是那几个输出文件,直接-h 看吧,提醒下如果是宏基因组数据记得加上-p mate参数~~

至于选用哪个软件,实践是检验真理的唯一标准反正两个的结果还是有点差异的,用prodigal总是比metagenemark的结果要少一点 ,自己动手试试吧~~~

相关文章
|
3月前
|
安全
三维基因组|基因组结构 (2)
三维基因组|基因组结构 (2)
43 0
|
3月前
|
人工智能 语音技术
人工智能语音信号预处理采样
人工智能语音信号预处理采样
52 2
|
3月前
|
编解码 人工智能 自然语言处理
扩散模型的多元化应用:药物发现、文本生成、时间序列预测等
AlphaFold3是DeepMind的蛋白质结构预测软件,它引入扩散模型以提升预测准确性。扩散模型通过逐步添加和去除噪声来理解和生成数据,应用广泛,包括图像、音频、文本和时间序列数据的处理。在图像领域,它们擅长合成、编辑和超分辨率;在文本处理中,扩散模型在代码合成和问答任务中表现出色;在音频和视频生成方面也有重要应用;同时,它们在时间序列预测和增强模型鲁棒性方面也展现出潜力。随着技术发展,扩散模型将在更多领域发挥作用。
48 0
|
3月前
|
芯片
基因测序的原理是什么
基因测序的原理是什么
|
12月前
|
算法 芯片
DNA测序原理:illumina和Pacbio对比介绍
DNA测序原理:illumina和Pacbio对比介绍
|
12月前
|
存储 Python
候选基因如何分析?
候选基因如何分析?
|
机器学习/深度学习 安全 数据挖掘
用于 DNA 测序的机器学习模型,理论上可以解码任何测序读数中所编码的数据值
用于 DNA 测序的机器学习模型,理论上可以解码任何测序读数中所编码的数据值
147 0
用于 DNA 测序的机器学习模型,理论上可以解码任何测序读数中所编码的数据值
|
数据库 网络架构 索引
宏基因组之基因丰度计算
目前有两种方式可计算宏基因组基因的丰度,一种是基于比对,比如bwa,bowtie,soapaligner等主流的比对软件,另一种是不比对快速估计基因丰度,可以用近俩年来流行的salmon软件,这个软件在转录组的数据比对中也经常用到,可以直接计算出原始的Counts值和标准化的TPM值,此外由于是基于非比对,计算的速度得到很大的提升,同时也节省了部分的内存(少了庞大的sam/bam文件),可以说是多快好省,但是目前的高分文章中也还是不少用基于比对的方法去计算宏基因组的基因丰度的,下面我就分别简单介绍一下基于比对的soapaligner和不比对快速估计的samlon俩个软件的操作流程!!
673 0
|
数据采集
宏基因组数据 数据预处理
宏基因组下载数据过程
260 2
|
算法 索引 Python
宏基因组之基因组装
宏基因组组装,即把短的reads拼装成连续的序列contig,再根据PE等关系将contig拼装成scaffold。与单个基因组组装不同,宏基因组组装最终得到的是环境样品中全部微生物的混合scaffold。理想情况下一条scaffold对应一个物种的全基因组。但由于序列太短或者覆盖度不够,很难拼出一条完整的基因组。针对高通量测序数据,出现了多种拼接算法和软件。
473 0