初步组装的杂合基因组如何去冗余

简介: redundans的目标是辅助杂合基因组的组装,输入文件可以是组装的contig,测序文库以及额外的参考基因组,最后用于搭建出scaffold级别的纯合基因组组装结果。

redundans的目标是辅助杂合基因组的组装,输入文件可以是组装的contig,测序文库以及额外的参考基因组,最后用于搭建出scaffold级别的纯合基因组组装结果。包括如下几个步骤:

  • 从头组装: 它会调用Platanus、SSPACE3进行组装
  • 去冗余: 从最初组装中去除冗余的序列
  • scaffolding: 利用双端测序将contig进行搭接
  • gap closing: 即填补scaffold中的N序列

对于我们三代组装的结果而言,我们只需要去冗余这一步即可。

软件安装

这一步一定要保证你的电脑上装了ZLIB库,不然就需要去修改BWA和LAST的Makefile, 手动添加"CFLAGS"和"LDFLAGS", 你或许不行。

git clone --recursive https://github.com/lpryszcz/redundans.git
cd redundans && bin/.compile.sh

结果输出"done"才算是成功.如果还需要作图,则需要安装 matplotlib numpy

pip install matplotlib numpy

最好用下面这行命令测试下。

./redundans.py -v -i test/*_?.fq.gz -f test/contigs.fa -o test/run1

软件的使用

这个软件就是在安装的时候让我折腾了下,使用倒是非常的方便,去冗余主要调整的参数就是相似度和重叠(overlap)度 默认相似度参数--identity 0.51,重叠比例是--overlap 0.80 越大越严格。

此外,如果你用-i参数提供了二代测序数据,redundans还会默认搭scaffold和补洞,但我只需要用到它的去冗余步骤, 另外的两步我不要,所以还要添加--noscaffolding--nogapclosing跳过这两步。

ident=0.55
ovl=0.80
contig=contig.fa
threads=10
redundans.py -v -f ${contig} -o ident_${ident}_ovl_${ovl} -t ${threads} \
    --log ident_${ident}_ovl_${ovl}.log \
    --identity ${ident} --overlap ${ovl} \
    --noscaffolding --nogapclosing

上面代码运行时如果不小心中断了,加上--resume就能断点重跑了。

参考资料

目录
相关文章
|
7月前
|
数据可视化
数量生态学冗余分析(RDA)分析植物多样性物种数据结果可视化|数据分享
数量生态学冗余分析(RDA)分析植物多样性物种数据结果可视化|数据分享
|
存储 数据可视化 数据挖掘
知识点丨重测序数据进行kinship亲缘关系分析、构建IBS矩阵的方法与介绍
知识点丨重测序数据进行kinship亲缘关系分析、构建IBS矩阵的方法与介绍
知识点丨重测序数据进行kinship亲缘关系分析、构建IBS矩阵的方法与介绍
|
存储 JSON Java
GATK4重测序数据怎么分析?
GATK4重测序数据怎么分析?
|
机器学习/深度学习 自然语言处理 算法
准确度高,适用性广,使用物理信息神经网络分析材料的内部结构和缺陷
准确度高,适用性广,使用物理信息神经网络分析材料的内部结构和缺陷
174 1
|
算法 索引 Python
宏基因组之基因组装
宏基因组组装,即把短的reads拼装成连续的序列contig,再根据PE等关系将contig拼装成scaffold。与单个基因组组装不同,宏基因组组装最终得到的是环境样品中全部微生物的混合scaffold。理想情况下一条scaffold对应一个物种的全基因组。但由于序列太短或者覆盖度不够,很难拼出一条完整的基因组。针对高通量测序数据,出现了多种拼接算法和软件。
548 0
|
数据采集 算法
测序质控和基因组组装原理
测序质控和基因组组装原理
|
数据采集 设计模式 存储
全基因组重测序流程【超细致!!】
全基因组重测序流程【超细致!!】
|
数据采集
冗余分析
上一次给大家介绍了如何用R语言进行主成分分析,今天介绍的主角也是PCA的好朋友噢,掌声欢迎我们的第二位小伙伴——冗余分析(RDA)。
1145 0
冗余分析
|
机器学习/深度学习 算法 数据可视化