安诺云联合阿里云国内首推批量计算,助力三代Canu组装加速

简介: 随着测序技术的不断发展,大量基因组学数据被积累,对于数据分析软件的要求也越来越高,尤其是在做基因组组装分析时,软件的计算资料消耗和分析周期往往是研究者不得不考虑的问题。Canu[1]是一款目前广泛使用的三代基因组组装软件,文章发表短短两年时间,引用的次数已接近1000次,其中不乏顶级的CNS期刊。

Canu软件同时适用于PacBio SMRT与纳米孔测序两款主流的单分子测序平台的数据,可以执行reads的纠错与组装部分的工作。Canu在做组装时,可获得更为准确的片段,其组装的准确性也是非常突出的[2]。

image.png

Dot plots of the evaluated assemblies of P. falciparum[2]


注:组装结果的共线性评价,横坐标与纵坐标分别是参考基因组序列与各组装软件组装的基因组序列,共线性呈现对角线排布认为共线性较好

可以说Canu软件是非常受基因组学研究者所认可的一个工具,其组装质量好,Contig N50也具备竞争力,但也有一个致命缺陷:计算资源消耗太大,周期较长。相比于节点资源的Wtdbg2软件[3],Canu的资源消耗大约是数十倍甚至百倍的提升,而且随着基因组测序数据量的增加,会愈发明显。

Canu、FALCON、Wtdbg2组装实例比较


image.png

阿里云批量计算团队对Canu软件进行了算法优化和调度优化,使用著名基因组学研究机构Broad Institute开发的流程编排语言Workflow Description Language(WDL)对Canu的调度重新进行了组织,提供WDL-Canu解决方案。首先,在不改变计算结果的前提下将Canu软件进行了计算的优化,在相同配置的计算资源上使得纯计算核时大幅缩减,同时后端改用cromwell工作流引擎解析Canu工作流,用阿里云批量计算弹性伸缩集群替代传统HPC后端,根据Canu全流程中的不同任务启动适配任务需求的弹性伸缩集群,极大提高资源使用率,并且相比于传统的固定HPC集群提供更大的弹性资源池,显著缩短总运算时间。

image.png

目前安诺优达已经部署了阿里云批量计算WDL-Canu应用,并进行了实际项目的运行测试,得益于阿里云批量计算团队的算法改写与阿里云服务,有效地解决了周期长这一难题。

批量计算Canu的周期与组装效果

image.png

注:原版Canu指官方1.8版本

通过阿里云批量计算的加速,不仅将周期成功的压缩了50%以上,而且基因组的组装质量也完全保持了原版Canu的特性,contig N50高达31 Mb,BUSCO评估为94.3%,表明基因组组装的连续性和完整性都非常好。

目前安诺已经推出基于阿里云批量计算的WDL-Canu组装服务,对于超过20 Gb的大型基因组组装,也有望在一至两周内完成,未来大型基因组的组装质量与长周期之痛,将不再是困扰。

目录
相关文章
|
对象存储 文件存储 存储
阿里云批量计算怎么在控制台提交和管理作业?
阿里云批量计算(BatchCompute)是一种适用于大规模并行批处理作业的分布式云服务。 用户可以提交一个任意的计算机程序,让它在阿里云的多个 VM 实例上同时运行,然后把结果写入到指定的持久化存储位置(如阿里云对象存储 OSS 或者文件存储 NAS)。
1680 0
阿里云批量计算推出预付费模式,最高节省用户60%成本
近日,阿里云批量计算推出预付费模式,适用于有稳定长期计算量需求的批量计算客户,用户通过包月方式创建集群,可以降低计算资源成本。
1816 0
|
调度 数据挖掘 编解码
一分钟了解阿里云产品:批量计算概述
  阿里云有很多产品,今天让我们来了解下批量计算(BatchCompute)这款产品吧。   什么是批量计算呢?   批量计算是一种适用于大规模并行批处理作业的分布式云服务。BatchCompute可支持海量作业并发规模,系统自动完成资源管理,作业调度和数据加载,并按实际使用量计费。Bat
5964 0
|
11月前
|
人工智能 数据挖掘
低代码 + AI 落地实践,让业务效率翻倍,解锁未来生产力!
2025年春节,DeepSeek引发AI讨论热潮,推动“数字化”到“数智化”的革新。低代码+AI组合降低了技术门槛,加速企业智能化升级。文中通过食品加工业原料溯源、家电售后管理、发票识别打印三个案例,展示其在效率提升和市场竞争力中的作用,并介绍钉钉宜搭举办的“低代码+AI”视频创作大赛,邀请读者参与探索更多实际应用。
1098 9
|
监控 供应链 BI
ERP系统中的现金流管理与资产负债管理解析
【7月更文挑战第25天】 ERP系统中的现金流管理与资产负债管理解析
422 2
|
存储 Java easyexcel
招行面试:100万级别数据的Excel,如何秒级导入到数据库?
本文由40岁老架构师尼恩撰写,分享了应对招商银行Java后端面试绝命12题的经验。文章详细介绍了如何通过系统化准备,在面试中展示强大的技术实力。针对百万级数据的Excel导入难题,尼恩推荐使用阿里巴巴开源的EasyExcel框架,并结合高性能分片读取、Disruptor队列缓冲和高并发批量写入的架构方案,实现高效的数据处理。此外,文章还提供了完整的代码示例和配置说明,帮助读者快速掌握相关技能。建议读者参考《尼恩Java面试宝典PDF》进行系统化刷题,提升面试竞争力。关注公众号【技术自由圈】可获取更多技术资源和指导。
|
搜索推荐 程序员 开发工具
Emacs Verilog mode 简单使用指南
【6月更文挑战第17天】Emacs Verilog mode 提升Verilog编程体验,提供语法高亮、代码补全、自动缩进等功能。安装可通过`M-x package-install RET verilog-mode`。常见问题包括补全不生效、高亮不准确,可通过调整配置解决。支持模板插入、代码折叠、错误高亮、代码跳转。通过个性化配置、整合Git、集成其他工具和社区资源,实现高效Verilog开发。Emacs学习曲线虽陡,但效能提升显著。
571 4
|
Linux Docker 容器
openEuler 安装 podman 和 podman compose
Podman Compose 是 Podman 的扩展,它提供了与 Docker Compose 类似的功能。如果你的版本中没有包含 Podman Compose,或者你需要单独管理它,你可以尝试从外部仓库安装 Podman Compose。比如:使用 pip3 安装 podman & compose
1489 0
openEuler 安装 podman 和 podman compose
|
Python
【Python】不小心卸载pip后(手动安装pip的两种方式)
【Python】不小心卸载pip后(手动安装pip的两种方式)
1548 0

热门文章

最新文章