阿里云超算异构Spot集群,助力深势科技30%成本驱动MDaaS海量算力

简介: 本文主要介绍药物研发算法科技公司深势科技是如何实现低成本在阿里云上构建分子模拟MDaaS (Molecular Dynamics as a Service)超算集群。

本文主要介绍药物研发算法科技公司深势科技是如何实现低成本在阿里云上构建分子模拟MDaaS (Molecular Dynamics as a Service)超算集群。

image.png

客户简介

公司名称:深势科技

公司网址:http://dptech.deepmd.net/

公司介绍:

深势科技是一家成立于2018年的药物研发算法科技公司,致力于运用新一代分子模拟MDaaS (Molecular Dynamics as a Service)技术解决药物研发难题,实现药物分子的理性发现和设计。

企业的主要产品Hermite 药物研发套件,旨在帮助用户在第一性原理精度力场基础上,实现高通量药物筛选与优化;DP-Cloudserver软件,旨在帮助用户更便捷创建基于深度学习的原子间势能和力场模型和运行分子动力学模型,有效解决分子模拟中的准确性和效率性难以兼顾的问题。

公司由中科院院士领衔,核心团队来自北京大学、普林斯顿大学、上海药物研究所等高校和科研机构,在机器学习、第一性原理建模、RiD高效采样、生成算法、力场开发等方面有着深厚的技术积累,在小分子药物设计和大分子药物设计领域有着丰富的项目经验。

公司已在力场开发、小分子药物筛选与优化、药物ADMET性质预测、结合自由能微扰、多肽药物设计等领域提出更加高效和准确的解决方案,并与诸多来自学界和工业界的客户开展合作。目前已经获得来自知名投资机构的近2000万元天使投资。

业务痛点

深势科技的业务量波动较大,希望可以提供基于作业负载的弹性伸缩能力,最大化利用计算资源;

深势科技可以有效调度集群的计算资源,希望提供跨可用区的多规格实例弹性扩容,并且支持不同实例规格使用不同的镜像;

集群的作业量很大,所以深势科技希望可以提供作业粒度的费用账单便于计费;

深势科技作为一家初创企业,追求高性价比,以较低成本完成有效计算。

为什么选择阿里云?

主要是领先的产品与灵活的售卖模式。

阿里云是国内少有提供云上弹性高性能计算平台(EHPC)的云厂商,阿里云EHPC集群的自动伸缩功能,超越传统超算的“静态”资源分配,用户可根据负载实现按需扩容缩容。通过用户自定义设置,有效提升作业的吞吐量,加快作业处理速度,极大提升集群的利用率。

植根于阿里云自动运维与可视化管控技术,E-HPC提供集群管理、作业管理、用户管理和可视化等功能,帮助用户轻松使用云上HPC集群。阿里云后台实现对集群的主动运维、热升级与迁移,让HPC客户专注于应用与科研本身,无需费时费力于集群管理与运维,更加便捷地使用超算带来的便利。

同时基于费用中心的账单,EHPC提供开源计费工具,支持作业粒度的费用统计,高效解决计费需求。同时阿里云的抢占式实例提供了低成本的算力资源,价格最低达到按量付费的一折。

解决方案

image.png

方案细节:

深势科技通过阿里云弹性高性能计算的平台,调度下层多种算力资源。在选择算力资源时,深势科技多选用了具有低成本优势的抢占式实例,同时通过阿里云弹性供应解决方案,深势科技可以一次性获取所需的算力资源,无需关注底层实例。

由于客户需求多跟着项目周期走,深势科技的业务有不稳定的周期性,阿里云弹性高性能计算平台(EHPC)的自动伸缩功能,利用云上的弹性,根据作业负载自动管理计算资源,深势科技不需要自行管理资源规模,有助于深势科技降低运维成本。

深势科技需要计算每个用户、作业所用资源费用,帮助统计成本;阿里云EHPC的作业详情导出功能,可以查看每个作业的资源使用量。同时开发费用统计工具,结合费用中心账单可以统计每个作业的计算费用。

阿里云弹性供应组是一个使用抢占式实例和按量付费实例快速部署实例集群的方案,支持一键部署跨计费方式、跨可用区、跨实例规格族的实例集群,可以稳定提供计算力,在享受缓解抢占式实例的回收机制带来的不稳定因素,免去重复手动创建实例的繁琐操作。

因此,使用弹性供应的成本最优策略来调度抢占式实例资源,指定多个可用区和实例规格,确保以最优价格完成spot+按量计算资源的交付。按秒计费,价格最低至1折。

客户效益

1、满足了客户低成本构建高可用算力集群的需求:30%成本实现海量算力交付:深势科技利用弹性供应的成本优化策略,结合spot实例的价格巡检,以30%的成本完成日均3w+ vCPU资源的交付。

2、EHPC自动运维的易用特性,降低了深势科技的运维成本,提升了集群管理效率。

客户证言

分子模拟为我们提供了认识世界的重要工具,而具体实现这一过程一方面需要优质的算法,另一方面需要海量的计算资源。深势科技采用的“AI+物理建模+HPC”的研发范式,在算法层面取得了重大突破;而在资源层面,我们要感谢阿里云的弹性高性能计算服务在较低成本的基础上提供了海量的计算资源。接下来,深势科技会与阿里云进一步紧密合作,将“AI+物理建模+HPC+云计算”的MDaaS模式推及更多有需求的朋友们。——深势科技CEO孙伟杰

选用产品

弹性高性能计算E-HPC

弹性高性能计算(E-HPC)基于阿里云基础设施,为用户提供一站式公共云HPC/AI平台服务,面向科研,生产,教育和行业大计算,提供快捷,弹性,安全和与阿里云产品互通的云超算平台。

更多关于弹性高性能计算E-HPC的介绍,请参见弹性高性能计算E-HPC产品详情页。

云服务器ECS

云服务器(Elastic Compute Service,简称ECS)是阿里云提供的性能卓越、稳定可靠、弹性扩展的IaaS(Infrastructure as a Service)级别云计算服务。云服务器ECS免去了您采购IT硬件的前期准备,让您像使用水、电、天然气等公共资源一样便捷、高效地使用服务器,实现计算资源的即开即用和弹性伸缩。阿里云ECS持续提供创新型服务器,解决多种业务需求,助力您的业务发展。

更多关于云服务器ECS的介绍,参见云服务器ECS产品详情页。

抢占式实例

抢占式实例是云服务器ECS一种特殊的实例,相对于按量付费实例价格有一定的折扣,其价格以小时为周期根据供需情况不同而变化,最低可至按量付费的一折,旨在为用户降低部分场景下使用ECS实例的成本。

更多关于抢占式实例的介绍,参见抢占式实例文档页。

GPU 云服务器

提供 GPU 算力的弹性计算服务,具有超强的计算能力,服务于深度学习、科学计算、图形可视化、视频处理多种应用场景。阿里云作为亚洲第一的云服务提供商,随时为您提供触手可得的算力,有效缓解计算压力,提升您的业务效率,助您提高企业竞争力。

更多关于GPU云服务器的介绍,参见[GPU云服务器产品页面。
](https://www.aliyun.com/product/ecs/gpu?spm=a2c4g.11186623.2.23.147d4c07z464Zz)

弹性供应

弹性供应是一个使用抢占式实例和按量付费实例快速部署实例集群的方案,支持一键部署跨计费方式、跨可用区、跨实例规格族的实例集群。您可以通过弹性供应组稳定提供计算力,缓解抢占式实例的回收机制带来的不稳定因素,免去重复手动创建实例的繁琐操作。

更多关于弹性供应的介绍,参见弹性供应文档页。

原文链接:https://help.aliyun.com/document_detail/189683.html

相关实践学习
通义万相文本绘图与人像美化
本解决方案展示了如何利用自研的通义万相AIGC技术在Web服务中实现先进的图像生成。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
9月前
|
存储 人工智能 Cloud Native
科研+ AI :深势科技,全新科研范式引领者
深势科技作为AI for Science的引领者,专注于微观粒子行为研究,推动材料科学和生命科学领域的创新。通过AI技术,深势科技加速了药物研发、纳米药物微流控等技术的发展,显著提升了计算性能和实验效率。与阿里云合作,利用其云原生计算和存储服务,深势科技实现了资源弹性调度和高效管理,大幅提升了研发效率,服务于超过50万科研用户,并计划建设AI for Science超级实验室,推动更多科技创新。
423 0
|
人工智能 搜索推荐 算法
玩转通义星尘:体验定制化多样角色能力
在杭州云栖大会上,阿里云对外展示了一款个性化角色创作平台——**通义星尘**,其基于大规模高质量个性化对话数据,采用分阶段的个性化训练策略,使得模型在保持通用能力的基础上,延伸出拟人、具有情感、鲜明语言风格的能力,在角色的个性、风格遵循上具有更强的指令遵循能力。那么其能力展现到底如何?我们又能玩出哪些花样呢?今天开始测试通义星尘,争取年前把8个垂直模型都测试一遍,,加油!本文为原创,未经许可请勿搬运。
玩转通义星尘:体验定制化多样角色能力
|
18天前
|
人工智能 分布式计算 Cloud Native
阿里云大数据AI产品月刊-2025年9月
大数据& AI 产品技术月刊【2025年 9 月】,涵盖 9 月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
阿里云大数据AI产品月刊-2025年9月
|
2月前
|
存储 弹性计算 网络协议
阿里云服务器ECS实例规格族详细介绍:计算型c9i、经济型e和通用算力u1实例CPU参数说明
阿里云ECS实例规格族包括计算型c9i、经济型e和通用算力型u1等,各自针对不同场景优化。不同规格族在CPU型号、主频、网络性能、云盘IOPS等方面存在差异,即使CPU内存相同,性能和价格也不同。
220 0
|
11月前
|
人工智能 自然语言处理 搜索推荐
🤖【多Agent大爆炸】——灵活调用与实践指南,解锁AI协作新技能!
本文深入探讨了单Agent与多Agent在不同场景下的应用及优势,通过实例讲解多Agent如何实现高效协作,涵盖智能物流、教育、医疗等多个领域的实际应用,旨在帮助开发者掌握多Agent系统的调用与实践技巧。
902 5
|
数据采集 数据可视化 数据挖掘
数据清洗(Data Cleaning)
数据清洗(Data Cleaning)
768 1
|
人工智能 JSON API
|
存储 自然语言处理 NoSQL
深入解析Elasticsearch的内部数据结构和机制:行存储、列存储与倒排索引之倒排索引(三)
深入解析Elasticsearch的内部数据结构和机制:行存储、列存储与倒排索引之倒排索引(三)
|
监控 安全 Linux
【专栏】拿到一台新的物理服务器,有几项关键的准备工作和安全措施是必须要做的
【4月更文挑战第28天】新服务器部署前,需进行系统初始化(安装OS、网络配置、用户管理)、安全加固(更新补丁、关闭不必要的服务、防火墙设置)和性能优化(调整内核参数、文件系统优化)。同时,设置监控系统(如Nagios)以检查硬件和软件资源,制定备份策略确保数据安全。这些步骤确保服务器稳定、安全、高效运行。
482 1
|
编解码 C++ 流计算
探索C++与Live555实现RTSP服务器的艺术(三)
探索C++与Live555实现RTSP服务器的艺术
492 1