一条命令行区分Contigs中的真核原核序列

简介: 本文介绍一款可用于宏基因组中的分类小软件,简单一条命令可以将上游组装的Contigs进行原核与真核生物区分~

Github地址:https://github.com/patrickwest/EukRep

41b64f9b2f351bd31380bd0fff9b474.png

安装

  • Conda直接安装(python3环境)

conda create -y -n eukrep-env -c bioconda scikit-learn==0.19.2 eukrep

可以看到用到了python中的机器学习的包scikit-leran

  • 使用pip安装

$ pip install EukRep

使用

EukRep -h

cd8a23f6d566720030b110f9f2726c1.png

常用参数不多:

  • -i: 输入fasta文件
  • -o 输出文件
  • --min 设置最短序列,默认3kb
  • --model : 线性SVM训练模型
  • --seq_names:输出序列ID名称

默认-o 输出预测真核序列

EukRep -i <Sequences in Fasta format> -o <Eukaryote sequence output file>

加上--prokarya即可预测出原核生物的序列

EukRep -i <Sequences in Fasta format> -o <Eukaryote sequence output file> --prokarya <Prokaryote sequence output file>

获得真核生物Bins

Eukrep软件旨在用作后续Bining分析管道中的一部分,可用于获得高质量的真核生物的预测序列或者Binning,详细内容可以看“Genome-reconstruction for eukaryotes from complex natural microbial communities"(West et Al。)文中的方法部分(https://doi.org/10.1101/171355)

另外,作者也提供了一个workfolw例子:https://github.com/patrickwest/EukRep_Pipeline,有需要的可以试一下~~

相关文章
|
2月前
|
存储 人工智能 资源调度
【windows批处理batch】.bat文件 字符串处理相关操作(字符串定义、分割、拼接、替换、切片、查找)
【windows批处理batch】.bat文件 字符串处理相关操作(字符串定义、分割、拼接、替换、切片、查找)
|
11月前
|
运维 Shell Python
【运维知识高级篇】超详细的Shell编程讲解2(变量切片+统计变量长度+字串删除+字串替换+七种方法进行数值运算+整数比较+多整数比较+文件判断+字符串比对+正则比对+配合三剑客的高阶用法)(一)
【运维知识高级篇】超详细的Shell编程讲解2(变量切片+统计变量长度+字串删除+字串替换+七种方法进行数值运算+整数比较+多整数比较+文件判断+字符串比对+正则比对+配合三剑客的高阶用法)
103 0
|
Python
Python|寻找比目标字母大的最小字母问题解决方法
Python|寻找比目标字母大的最小字母问题解决方法
139 4
|
11月前
|
运维 Shell Perl
【运维知识高级篇】超详细的Shell编程讲解2(变量切片+统计变量长度+字串删除+字串替换+七种方法进行数值运算+整数比较+多整数比较+文件判断+字符串比对+正则比对+配合三剑客的高阶用法)(二)
【运维知识高级篇】超详细的Shell编程讲解2(变量切片+统计变量长度+字串删除+字串替换+七种方法进行数值运算+整数比较+多整数比较+文件判断+字符串比对+正则比对+配合三剑客的高阶用法)(二)
101 0
|
11月前
[oeasy]python0079_控制序列_光标位置设置_ESC_逃逸字符_CSI
[oeasy]python0079_控制序列_光标位置设置_ESC_逃逸字符_CSI
65 0
Python应用专题 | 17:根据子字符列表过滤掉给定列表
根据子字符列表过滤掉给定列表,从而实现数据的筛查或者去除
|
算法 数据挖掘 Python
如何在 Python 中查找两个字符串之间的差异位置?
如何在 Python 中查找两个字符串之间的差异位置?
231 0
|
Unix
[oeasy]python0081_ANSI序列由来_终端机_VT100_DEC_VT选项_终端控制序列
[oeasy]python0081_ANSI序列由来_终端机_VT100_DEC_VT选项_终端控制序列
61 0
[oeasy]python0081_ANSI序列由来_终端机_VT100_DEC_VT选项_终端控制序列
[oeasy]python0066_控制序列_光标位置设置_ESC_逃逸字符_CSI
[oeasy]python0066_控制序列_光标位置设置_ESC_逃逸字符_CSI
111 0
[oeasy]python0066_控制序列_光标位置设置_ESC_逃逸字符_CSI
【读者来稿】在一串长序列中查找特定短序列
【读者来稿】在一串长序列中查找特定短序列
78 0