生信分析场景下,如何将 BLAST 作业计算成本降低 91%

简介: Memory Machine Cloud 能够有效的为应用自动更换云主机实例,无需始终按照最高需求来设置固定的云主机类型。

客户名称:宏序生物
所属行业:医疗
客户简介:致力于在临床医学、生命健康提供一站式、全方位服务和系统解决方案。

宏序生物面临的挑战

宏序生物生信团队使用的主要计算分析工具之一是 BLAST,可将输入的核酸或蛋白质序列与数据库中的已知序列进行比对,获得序列相似度等信息。为实现IT资源的弹性伸缩和优化管理,宏序生物的大多数 BLAST 都已经在云服务器上运行。BLAST 工作负载在运行过程中并不会保持一直占用固定的算力资源比例,所需的云资源需求随时波动变化,包括 "高峰"和“低谷”的用量需求。
图片 1.png

应对这种业务上的起伏波动,最简单粗放的解决方案是以业务最高峰时的云资源用量来匹配对应的云主机实例,这种方式本质上是一种不顾成本的过度配置。

举个例子,在BLAST 运行过程中的云主机实例按照最高业务压力时刻的配置为 32 个 vCPU 和 64GB 云内存,此时任务可以在 11 小时 44 分钟内完成,成本高达 17.22 美元。而如果考虑成本节省改为较低配置(按照各个时刻的资源消耗的平均值),可以将云主机实例成本降低到 12.63 美元,便宜 27%。但是带来的代价则是性能下降,低配置云主机实例会导致运行时间增加了 53%,达到 18 小时 4 分钟。

另一方面,如果客户为了节省成本而选择 Spot 云主机实例,在 Spot 云主机实例中运行 BLAST 可以显著降低成本,但也同样存在问题,如果发生 Spot 实例被回收,将停止作业,需要从头开始运行,影响整体生产效率。

MemVerge提供的解决方案

Memory Machine Cloud 的 WaveRider 功能,能够在应用运行时,根据当前的云主机业务压力,有效的为应用自动更换云主机实例,因此可以有效解决 "高峰" 时对于云资源的弹性需求,无需始终按照最高需求来设置固定的云主机类型。

MemVerge 的 SpotSurfer 技术使得长时间运行的 BLAST 在 Spot 云主机实例上安全运行成为可能,因为它们可以在 Spot 云主机实例被回收时,将应用运行时刻的状态保护起来,并迁移到新的实例中继续运行。

下图显示了 WaveRider 如何使宏序生物的 BLAST 工作负载能够根据业务压力来自动调整云主机实例类型。

图片 2.png

云主机实例之间的变更和业务迁移是完全自动化的,不需要用户干预。自动化的相关策略(如设置限制最大云主机规格,设置变更时的步长等等)用户可以通过 Memory Machine Cloud 的 CLI 工具或者基于 Web 的 GUI 图形来设置。因此,这使得宏序生物团队可以根据需要自行调整 WaveRider 迁移规则以持续优化成本和性能。

图片 3.png

WaveRider 功能为用户的那些起伏波动的业务,在性能和成本之间提供了完美的平衡,与高规格的云主机类型选项(32vCPU,32GB RAM)相比,成本降低了 93%,但执行时间几乎相同,为 12 小时 23 分钟 vs 11 小时 44 分钟。对于每天在云中运行 1,000 个 BLAST 应用程序的企业来说,使用 Memory Machine Cloud的 WaveRider 功能可以节省每天 16,065 美元,年度节省 4,173,000 美元。

以上产品已上架云市场,Get宏旭生物同款体验,30天免费试用中。

目录
相关文章
|
机器学习/深度学习 存储 人工智能
DeepSpeed ZeRO++:降低4倍网络通信,显著提高大模型及类ChatGPT模型训练效率
DeepSpeed ZeRO++:降低4倍网络通信,显著提高大模型及类ChatGPT模型训练效率
330 0
DeepSpeed ZeRO++:降低4倍网络通信,显著提高大模型及类ChatGPT模型训练效率
|
2月前
|
机器学习/深度学习 运维 算法
【KDD2024】面向集群整体作业运行变慢的异常检测
阿里云计算平台大数据基础工程技术团队主导,与浙江大学合作的论文《Cluster-Wide Task Slowdown Detection in Cloud System》被数据挖掘领域顶会ACM SIGKDD2024接收。论文从新的视角分析云计算平台集群健康状态,实现了基于神经网络的集群作业整体变慢异常定向检测,与SOTA异常检测算法相比平均提升F1 score 5.3%。
|
2月前
|
数据可视化
高效的时间序列可视化:减少认知负荷获得更清晰的洞察
本文探讨了时间序列数据可视化中的挑战,特别是在处理多个数据集时。通过减少认知负荷,即处理信息所需的脑力,良好的可视化设计能帮助观察者更快理解数据趋势。文章以疫苗接种数据为例,展示了不同类型的图表(如无连线散点图、带连线散点图、纯折线图以及带有填充区域的折线图)在展示单一时间序列时的效果,并对比了多种多时间序列可视化方法,包括无连线散点图、带连线的折线图以及直接标注的图表,以突出最佳实践。通过这些例子,文章强调了减少认知负荷的重要性,它能帮助观察者快速理解趋势、避免误解并维持较高的参与度。最终目的是通过清晰且直观的设计来提升数据理解效率,支持更优的决策制定。
49 0
高效的时间序列可视化:减少认知负荷获得更清晰的洞察
|
5月前
|
存储 并行计算 算法
【深度挖掘Java性能调优】「底层技术原理体系」深入挖掘和分析如何提升服务的性能以及执行效率(性能三大定律)
【深度挖掘Java性能调优】「底层技术原理体系」深入挖掘和分析如何提升服务的性能以及执行效率(性能三大定律)
72 0
|
5月前
|
运维 算法 数据可视化
电力消耗模型构建、分析和预测
电力消耗模型构建、分析和预测
|
5月前
|
机器学习/深度学习 监控 自动驾驶
新视频分析技术TDViT发布:提升稠密视频分析效率
【2月更文挑战第16天】新视频分析技术TDViT发布:提升稠密视频分析效率
84 1
新视频分析技术TDViT发布:提升稠密视频分析效率
|
12月前
|
弹性计算 安全 数据库
生信分析场景下,如何将 BLAST 作业计算成本降低 91%
Memory Machine Cloud 能够有效的为应用自动更换云主机实例,无需始终按照最高需求来设置固定的云主机类型。
|
数据采集 机器学习/深度学习 弹性计算
【SIGMOD 2023】深度学习弹性数据流水线系统GoldMiner,大幅提升任务和集群效率
阿里云机器学习平台PAI和北京大学杨智老师团队合作的论文被SIGMOD 2023录用。
|
前端开发 算法 测试技术
【软考学习5】流水线基本概念、周期执行时间、吞吐率、加速比和效率的计算
【软考学习5】流水线基本概念、周期执行时间、吞吐率、加速比和效率的计算
880 0
|
机器学习/深度学习 算法
减少内存消耗、降低大模型训练成本,ACL杰出论文作者揭秘CAME优化器
减少内存消耗、降低大模型训练成本,ACL杰出论文作者揭秘CAME优化器
218 0
下一篇
无影云桌面