一条命令行区分Contigs中的真核原核序列

简介: 本文介绍一款可用于宏基因组中的分类小软件,简单一条命令可以将上游组装的Contigs进行原核与真核生物区分~

Github地址:https://github.com/patrickwest/EukRep

41b64f9b2f351bd31380bd0fff9b474.png

安装

  • Conda直接安装(python3环境)

conda create -y -n eukrep-env -c bioconda scikit-learn==0.19.2 eukrep

可以看到用到了python中的机器学习的包scikit-leran

  • 使用pip安装

$ pip install EukRep

使用

EukRep -h

cd8a23f6d566720030b110f9f2726c1.png

常用参数不多:

  • -i: 输入fasta文件
  • -o 输出文件
  • --min 设置最短序列,默认3kb
  • --model : 线性SVM训练模型
  • --seq_names:输出序列ID名称

默认-o 输出预测真核序列

EukRep -i <Sequences in Fasta format> -o <Eukaryote sequence output file>

加上--prokarya即可预测出原核生物的序列

EukRep -i <Sequences in Fasta format> -o <Eukaryote sequence output file> --prokarya <Prokaryote sequence output file>

获得真核生物Bins

Eukrep软件旨在用作后续Bining分析管道中的一部分,可用于获得高质量的真核生物的预测序列或者Binning,详细内容可以看“Genome-reconstruction for eukaryotes from complex natural microbial communities"(West et Al。)文中的方法部分(https://doi.org/10.1101/171355)

另外,作者也提供了一个workfolw例子:https://github.com/patrickwest/EukRep_Pipeline,有需要的可以试一下~~

相关文章
|
8月前
|
Shell Linux C++
shell脚本 | C/C++ 统计文件单词个数
shell脚本 | C/C++ 统计文件单词个数
|
Python
python字符串切分连接(输入一个包含多个单词的英文句子,单词间以空格分隔,标点符号后跟一个空格。定义一个函数,功能是用指定的符号把单词连接起来。)
python字符串切分连接(输入一个包含多个单词的英文句子,单词间以空格分隔,标点符号后跟一个空格。定义一个函数,功能是用指定的符号把单词连接起来。)
991 0
|
Python
Python|寻找比目标字母大的最小字母问题解决方法
Python|寻找比目标字母大的最小字母问题解决方法
139 4
|
11月前
|
iOS开发
快捷指令实现“随机单词”生成的指令
因为英语测试和日常工作需要,在记忆英语单词上煞费苦心,而且记忆单词是一件持之以恒的事情
234 0
Python应用专题 | 17:根据子字符列表过滤掉给定列表
根据子字符列表过滤掉给定列表,从而实现数据的筛查或者去除
|
算法 数据挖掘 Python
如何在 Python 中查找两个字符串之间的差异位置?
如何在 Python 中查找两个字符串之间的差异位置?
237 0
|
分布式计算
编写一个简单的程序,实现以下功能:统计文本文件中出现的单词的个数
编写一个简单的程序,实现以下功能:统计文本文件中出现的单词的个数
157 0
|
Shell
SHELL脚本递归循环,文件名包含空格的处理办法
SHELL脚本递归循环,文件名包含空格的处理办法
168 0
|
安全 网络协议 测试技术
|
Shell Linux Perl
linux shell之字符串的更具字符分割和删除字符和文本内容的删除以及内容是否匹配成功
linux shell之字符串的更具字符分割和删除字符和文本内容的删除以及内容是否匹配成功
178 0