带你读《阿里云产品六月刊》——十二、阿里云工业仿真行业解决方案解读

简介: 阿里云工业仿真行业解决方案解读

引言:近日,全球领先的云计算厂商阿里云宣布最新HPC优化实例hpc8ae的正式商业化,该实例依托阿里云自研的「飞天+CIPU」架构体系,搭载第四代AMD EPYC处理器,专为高性能计算应用优化,特别适用于计算流体、有限元分析、多物理场模拟等仿真类应用,CAE场景下的性价比最少提升50%。

 

本文根据倪炜的主题分享整理而成。

 

工业仿真需求变更带来IT挑战

 

在本次分享中,我们把视角聚焦到工业仿真领域。

 

工业仿真领域的市场需求日新月异,同时也带来了日渐扩大的IT基础设施挑战。同时,由于仿真规模急速增长,IT基础设施也随之需要不断扩容,由此也暴露了IT基础设施前向兼容性及建设的高性价比问题。

 

另一方面,工业领域的竞争不断加剧也带来了需求不确定性的增加,需要在同等预算/可执行预算空间内满足更大的不确定性。

 

最后,随着竞争越来越高,工业产品面市周期缩短(Time To Market),因此需要仿真结果可以直接作用于生产,减少物理样品生产带来的耗时,这也就要求迭代次数、精度不断增加,总迭代时间又要大幅缩短,以便降低license费用支出。

 

image.png

 

 

以上3个需求都对IT基础设施形成了巨大的挑战。

 

阿里云E-HPC产品架构:现代化的云超算

 

这里,先介绍一下阿里云E-HPC平台,这个平台整体分为三层。

 

首先,是高性能基础设施层。高性能基础设施层提供了高性能计算、存储和网络。

 

在计算方面,阿里云ECS计算实例可以提供小规格计算能力,对于小算力而言,能够带来更好性价比。同时,阿里云也提供弹性裸金属服务,可以将整机性能和规格直接给到客户侧,在一些大算力作业、并发作业上能获得更好的性能。针对复杂的3D前后处理场景以及一些GPU加速的工业仿真场景,阿里云还提供了各种类型的GPU实例满足客户要求。

 

image.png

 

在网络方面,阿里云最新的实例已经可以支持100G的VPC,也有兼容各RDMA协议的eRDMA能力,eRDMA能够获得更好的性能也带来了更佳的性价比。对于一些时延极其敏感的业务,阿里云提供了基于RoCE网络的实例和能力。

在存储方面,提供了OSS作为持久化存储能力以及NAS/CPFS作为分布式存储能力,多种规格的产品能够在各种应用上获得更好的适配,从而带来最优性价比。如果客户考虑将线下IDC数据上云,我们还提供了闪电立方产品能力,能够帮助客户快速地将IDC数据上传到云端。

 

E-HPC产品兼容线下计算、存储和网络,能够实现云上云下统一的混合云调度。

 

其次,在高性能基础设施层之上是HPCaaS层产品。HPCaaS层产品由集群资源管理组件、统一作业调度组件和API三个组件组成。

 

集群资源管理组件。集群资源管理包括三个部分,首先是集群创建和管理,其能够实现一键创建集群和管理生命周期。另一方面,基于阿里云弹性能力可以提供基于调度器的负载自动伸缩。最后,阿里云E-HPC也能够提供基于集群节点和作业维度的可观测能力,可以分析集群的利用率以及每个作业的使用效率,从而帮助IT运维人员更好的使用IT基础设施能力。

统一作业调度组件。在这一部分一般分为两块,首先可以使用传统HPC调度器,例如SLURM,PBS,SGE等等,同时也支持商业版的调度器,可以为客户提供更多可选择性。另一方面阿里云提供了Serverless Batch能力,可以完全忽略laas层和E-HPC管理层,只需要将作业脚本传递到云上接口就可以直接运行,节省了IT基础设施的运维和管控层维护需求。

API层。API可以调用集群、节点、队列、模板和作业,将API和整个生产业务、研发业务结合,即可实现完全统一的自动化流程。

 

最后,HPCaaS层之上是行业应用。

 

基于阿里云多年在工业仿真领域的沉淀,已经和各大行业主流软件进行了兼容性适配,保障软件运行效率。

 

HPCaaS,一键创建、使用和扩容

 

HPCaaS层支持一键创建使用的扩容集群,可以将现有的超算中心/线下机房的建设模型一比一复制到云上,客户可以通过云上的GPU实例/无影产品来实现图形节点的能力,也可以直接在E-HPC控制台上创建登录节点和管理节点。

 

image.png

 

同时,基于阿里云弹性计算众多ECS实例规格族,可以创建不同的计算节点池,支撑各种类型的仿真业务。阿里云提供了丰富的文件存储能力,因此客户可以基于业务的需求使用NAS或者CPFS。所有的计算节点和图形节点之间可以通过阿里云eRDMA网络实现高速连接。整个部署可以从原来线下建设的数月时间缩短到仅仅半个小时,在业务高峰期和弹性需求来临时,快速扩容E-HPC集群从而满足业务需求。

 

基于混合云架构的弹性供应方案

 

阿里云E-HPC平台还支持混合云架构,客户可以通过专线或者VPN直接实现云上、云下两个集群互联。下图左侧是IDC网络架构,无论它是基于IB网络,还是RoCE网络都可以和云上现有的高性能E-HPC集群进行互通。

 

image.png

 

通过阿里云E-HPC调度器的兼容性能力,可以将云上的计算节点直接添加到线下的HPC队列中,从而直接将作业投递到云上的弹性计算节点。这样能保证CAE工程师可以在统一的环境内进行工作,无需理解资源及重新适应新环境。

 

基于应用负载的弹性伸缩

 

阿里云E-HPC可以支持基于应用负载的弹性伸缩,下图展示的是弹性伸缩的过程。

 

可以看到,在T0时间点没有任何作业提交,因此整个云上没有任何计算节点,客户无需为计算节点支付任何费用。等到T1时间点,工程师提交作业,这个作业声明需要4个节点运行,因此E-HPC平台自动在计算集群内扩容了4个节点,开始承载作业。

 

image.png

 

等到T2时间点,另一个作业需要额外两个节点满足,因此E-HPC平台在T2时间点进行计算节点扩容,最终达到整个计算集群六台的能力。等到T3时间点,作业一、二已经完成并且已经达到了预设的冷却时间,此时,E-HPC将所有的计算节点都进行了自动释放,T3时间点,计算节点数量已经又归零。整个过程只在T1和T2时间点进行计费,最大程度地去运用弹性能力,同时支付最少的账单来满足业务需求,整个扩容过程都是完全自动化,因此IT工程师无需再守在屏幕面前为作业需求进行扩容和缩容。

 

性价比进一步提升

 

本次最新发布的高性能计算实例hpc8ae,它在原有的基础之上进一步提升了在工业仿真领域的性价比。经过分析发现,在工业仿真领域中,计算、存储和网络都有非常高的要求,因此hpc8ae在计算上定向增强了CPU主频和运算能力;在网络上提供了免费的eRDMA能力实现低成本的RDMA网络;在存储层面,通过全面支持NvME云盘实现更好的IOPS。通过以上方面的定向增强,发现对比普通的c8ae实例,在STAR-CCM+或者fluent等流体应用上,hpc8ae带来45%以上的性价比提升。

image.png

 

E2E性能全面领先

 

hpc8ae全面实现了性能领先,在Dyna、Abqus、Fluent等多个场景上,和其他算力进行对比,至少能够提供20%以上的性能提升,因此hpc8ae将为仿真业务带来更高性能,同时能够带来更好的成本效应。

 

image.png  

 

基于业务的一站式前后可视化处理

 

E-HPC平台可以支持一站式前后可视化处理。下方演示为整个PORTAL页面。大家可以看到在PORTAL页面上已经预设了一些软件和应用模板,也可以根据自己的需求进行一些模板和软件应用的上传。

 

 PORTAL demo演示

 

这里做fluent的应用测试,将测试名称定义为fluent_VNC_demo,选择作业队列,选择作业所需要的进程数以及节点数量,选择fluent所需要的计算文件,提交作业。随后,可以看到整个的提交作业的内容以及用户信息,点击作业可以进入到VNC。经过一段时间的等待,作业完成,这是一个二维的fluent的测试结果。

 

通过PORTAL可以非常简单地构建一个可视化的处理页面,在简单的二维场景上实现可视化一站式结果的呈现和获取。如果要进行的仿真场景非常复杂,需要大量3D运算,建议采购阿里云GPU实例和阿里云无影产品来实现更高性能的可视化处理能力。

 

工业仿真案例解析

 

第一个案例是上汽乘用车。

 

上汽集团整体采用了阿里云E-HPC混合云架构。将阿里云的E-HPC平台和第三方管控平台进行兼容和适配。在底层,通过一条专线,实现了云和IDC互联,从而将云上的E-HPC实例加载到线下调度器队列当中,实现统一调度和运行。

 

image.png

 

在上汽的应用过程中,将之前使用的scch5s实例在线升级到hpc8ae实例,同时将原有的NAS产品升级到了cpfs。通过以上产品能力的升级,仿真效率提升了30%。通过云计算不断迭代的性能,可以为客户在CAE仿真场景中提供更高性价比,同时也能满足后项的持续扩容和各类兼容性能力。

 

接下来可以看到某手机厂商业务场景中使用阿里云弹性计算来实现仿真上云的案例。

 

image.png

 

我们为该厂商提供了基于eRDMA网络的hpc8ae实例,对比于客户线下的资源,在同等核数、abaqus应用场景上,hpc8ae实现了25%的性价比提升。近几年手机厂商竞争激烈,客户有大量的CAE运算需求,云上即开即用的业务特性,满足了客户突发算力的需求,保障了产品TTM进度。

 

阿里云工业仿真方案优势解析

 

首先,阿里云提供了hpc8ae实例,它是拥有极高性能的计算实例,在计算、存储和网络上针对工业仿真领域进行了定向增强。其次,阿里云提供了大量的弹性资源,在CAE仿真的高峰期,客户可以通过弹性算力满足业务需求。第三,阿里云E-HPC产品具备极强的兼容性能力,可以适配线下各类调度器和各类的第三方门户,为CAE仿真工程师提供更易使用的工作环境;最后,通过云上按需计费能力,可以降低客户侧IT投入和成本。  

 

image.png

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
目录
相关文章
|
7月前
|
程序员 定位技术 开发者
试了试阿里云的通义灵码 2.5 版
通义灵码 2.5 版是个特别实用的工具,无论是个人开发者还是企业团队,都能从中受益。如果你也在找能提升开发效率的工具,通义灵码绝对值得一试!
288 33
试了试阿里云的通义灵码 2.5 版
|
JavaScript 前端开发 API
007 Umi 使用 TypeScript 提升开发者体验
007 Umi 使用 TypeScript 提升开发者体验
1399 0
007 Umi 使用 TypeScript 提升开发者体验
|
5月前
|
运维 算法 机器人
阿里云AnalyticDB具身智能方案:破解机器人仿真数据、算力与运维之困
本文将介绍阿里云瑶池旗下的云原生数据仓库AnalyticDB MySQL推出的全托管云上仿真解决方案,方案采用云原生架构,为开发者提供从开发环境、仿真计算到数据管理的全链路支持。
|
4月前
|
传感器 人工智能 机器人
具身智能9大开源工具全景解析:人形机器人开发必备指南
本文旨在对具身智能、人形机器人、协作机器人、AI机器人、端到端AI系统、AI Agent、AI Agentic、空间智能或世界模型等前沿领域中具有重要影响力的开源软件产品或工具进行深入分析,重点聚焦于支持这些先进AI能力实现的工具、平台和框架。
1588 8
|
5月前
|
人工智能 自然语言处理 算法
AI时代,ETL真的不行了吗?
本文探讨了AI技术如何深度参与数据处理与分析,推动企业数据集成从传统ETL向“ETL for AI”转型。通过分析AI与ETL的协作关系,指出未来数据集成将实现高效处理、安全流转与智能价值挖掘,助力企业迈向数智化转型。
AI时代,ETL真的不行了吗?
|
5月前
|
Web App开发 Linux Shell
CuteHTTPFileServer下载,局域网文件传输工具下载,chfs支持的最低SSL版本为SSLv3
FinalShell是一款支持多平台的SSH客户端工具,提供一体化服务器管理功能,支持shell与sftp同屏显示、命令自动提示和访问加速,操作简单高效。
389 12
|
IDE 搜索推荐 Devops
|
Ubuntu 关系型数据库 数据库
在Ubuntu 18.04上安装和使用PostgreSQL的方法
在Ubuntu 18.04上安装和使用PostgreSQL的方法
326 1
2071 verbose node v16.6.0 2072 verbose npm v7.19.1或者 no such file or directory, lstat ‘D:\wor
该博客文章提供了解决在使用npm版本7.19.1时出现的"no such file or directory"错误的具体方法,建议通过降级npm到6.14.8版本来解决问题,并确认了该方法可以成功安装node_modules。
2071 verbose node v16.6.0 2072 verbose npm v7.19.1或者 no such file or directory, lstat ‘D:\wor
|
Kubernetes API 索引