高效、弹性,阿里云工业仿真行业解决方案解读

简介: 近日,全球领先的云计算厂商阿里云宣布最新HPC优化实例hpc8ae的正式商业化,该实例依托阿里云自研的「飞天+CIPU」架构体系,搭载第四代AMD EPYC处理器,专为高性能计算应用优化,特别适用于计算流体、有限元分析、多物理场模拟等仿真类应用,CAE场景下的性价比最少提升50%。

引言:近日,全球领先的云计算厂商阿里云宣布最新HPC优化实例hpc8ae的正式商业化,该实例依托阿里云自研的「飞天+CIPU」架构体系,搭载第四代AMD EPYC处理器,专为高性能计算应用优化,特别适用于计算流体、有限元分析、多物理场模拟等仿真类应用,CAE场景下的性价比最少提升50%。


本文根据倪炜的主题分享整理而成。

 

工业仿真需求变更带来IT挑战


在本次分享中,我们把视角聚焦到工业仿真领域。


工业仿真领域的市场需求日新月异,同时也带来了日渐扩大的IT基础设施挑战。同时,由于仿真规模急速增长,IT基础设施也随之需要不断扩容,由此也暴露了IT基础设施前向兼容性及建设的高性价比问题。


另一方面,工业领域的竞争不断加剧也带来了需求不确定性的增加,需要在同等预算/可执行预算空间内满足更大的不确定性。



最后,随着竞争越来越高,工业产品面市周期缩短(Time To Market),因此需要仿真结果可以直接作用于生产,减少物理样品生产带来的耗时,这也就要求迭代次数、精度不断增加,总迭代时间又要大幅缩短,以便降低license费用支出。


以上3个需求都对IT基础设施形成了巨大的挑战。

 

阿里云E-HPC产品架构:现代化的云超算


这里,先介绍一下阿里云E-HPC平台,这个平台整体分为三层


首先,是高性能基础设施层。高性能基础设施层提供了高性能计算、存储和网络。


  • 在计算方面,阿里云ECS计算实例可以提供小规格计算能力,对于小算力而言,能够带来更好性价比。同时,阿里云也提供弹性裸金属服务,可以将整机性能和规格直接给到客户侧,在一些大算力作业、并发作业上能获得更好的性能。针对复杂的3D前后处理场景以及一些GPU加速的工业仿真场景,阿里云还提供了各种类型的GPU实例满足客户要求。



  • 在网络方面,阿里云最新的实例已经可以支持100G的VPC,也有兼容各RDMA协议的eRDMA能力,eRDMA能够获得更好的性能也带来了更佳的性价比。对于一些时延极其敏感的业务,阿里云提供了基于RoCE网络的实例和能力。


  • 在存储方面,提供了OSS作为持久化存储能力以及NAS/CPFS作为分布式存储能力,多种规格的产品能够在各种应用上获得更好的适配,从而带来最优性价比。如果客户考虑将线下IDC数据上云,我们还提供了闪电立方产品能力,能够帮助客户快速地将IDC数据上传到云端。


E-HPC产品兼容线下计算、存储和网络,能够实现云上云下统一的混合云调度。


其次,在高性能基础设施层之上是HPCaaS层产品。HPCaaS层产品由集群资源管理组件、统一作业调度组件和API三个组件组成。


  1. 集群资源管理组件。集群资源管理包括三个部分,首先是集群创建和管理,其能够实现一键创建集群和管理生命周期。另一方面,基于阿里云弹性能力可以提供基于调度器的负载自动伸缩。最后,阿里云E-HPC也能够提供基于集群节点和作业维度的可观测能力,可以分析集群的利用率以及每个作业的使用效率,从而帮助IT运维人员更好的使用IT基础设施能力。
  2. 统一作业调度组件。在这一部分一般分为两块,首先可以使用传统HPC调度器,例如SLURM,PBS,SGE等等,同时也支持商业版的调度器,可以为客户提供更多可选择性。另一方面阿里云提供了Serverless Batch能力,可以完全忽略laas层和E-HPC管理层,只需要将作业脚本传递到云上接口就可以直接运行,节省了IT基础设施的运维和管控层维护需求。
  3. API层。API可以调用集群、节点、队列、模板和作业,将API和整个生产业务、研发业务结合,即可实现完全统一的自动化流程。


最后,HPCaaS层之上是行业应用。


基于阿里云多年在工业仿真领域的沉淀,已经和各大行业主流软件进行了兼容性适配,保障软件运行效率。

 

HPCaaS,一键创建、使用和扩容


HPCaaS层支持一键创建使用的扩容集群,可以将现有的超算中心/线下机房的建设模型一比一复制到云上,客户可以通过云上的GPU实例/无影产品来实现图形节点的能力,也可以直接在E-HPC控制台上创建登录节点和管理节点。



同时,基于阿里云弹性计算众多ECS实例规格族,可以创建不同的计算节点池,支撑各种类型的仿真业务。阿里云提供了丰富的文件存储能力,因此客户可以基于业务的需求使用NAS或者CPFS。所有的计算节点和图形节点之间可以通过阿里云eRDMA网络实现高速连接。整个部署可以从原来线下建设的数月时间缩短到仅仅半个小时,在业务高峰期和弹性需求来临时,快速扩容E-HPC集群从而满足业务需求。


基于混合云架构的弹性供应方案


阿里云E-HPC平台还支持混合云架构,客户可以通过专线或者VPN直接实现云上、云下两个集群互联。下图左侧是IDC网络架构,无论它是基于IB网络,还是RoCE网络都可以和云上现有的高性能E-HPC集群进行互通。



通过阿里云E-HPC调度器的兼容性能力,可以将云上的计算节点直接添加到线下的HPC队列中,从而直接将作业投递到云上的弹性计算节点。这样能保证CAE工程师可以在统一的环境内进行工作,无需理解资源及重新适应新环境。

 

基于应用负载的弹性伸缩


阿里云E-HPC可以支持基于应用负载的弹性伸缩,下图展示的是弹性伸缩的过程。


可以看到,在T0时间点没有任何作业提交,因此整个云上没有任何计算节点,客户无需为计算节点支付任何费用。等到T1时间点,工程师提交作业,这个作业声明需要4个节点运行,因此E-HPC平台自动在计算集群内扩容了4个节点,开始承载作业。



等到T2时间点,另一个作业需要额外两个节点满足,因此E-HPC平台在T2时间点进行计算节点扩容,最终达到整个计算集群六台的能力。等到T3时间点,作业一、二已经完成并且已经达到了预设的冷却时间,此时,E-HPC将所有的计算节点都进行了自动释放,T3时间点,计算节点数量已经又归零。整个过程只在T1和T2时间点进行计费,最大程度地去运用弹性能力,同时支付最少的账单来满足业务需求,整个扩容过程都是完全自动化,因此IT工程师无需再守在屏幕面前为作业需求进行扩容和缩容。

 

性价比进一步提升


本次最新发布的高性能计算实例hpc8ae,它在原有的基础之上进一步提升了在工业仿真领域的性价比。经过分析发现,在工业仿真领域中,计算、存储和网络都有非常高的要求,因此hpc8ae在计算上定向增强了CPU主频和运算能力;在网络上提供了免费的eRDMA能力实现低成本的RDMA网络;在存储层面,通过全面支持NvME云盘实现更好的IOPS。通过以上方面的定向增强,发现对比普通的c8ae实例,在STAR-CCM+或者fluent等流体应用上,hpc8ae带来45%以上的性价比提升。


 

E2E性能全面领先


hpc8ae全面实现了性能领先,在Dyna、Abqus、Fluent等多个场景上,和其他算力进行对比,至少能够提供20%以上的性能提升,因此hpc8ae将为仿真业务带来更高性能,同时能够带来更好的成本效应。



基于业务的一站式前后可视化处理


E-HPC平台可以支持一站式前后可视化处理。下方演示为整个PORTAL页面。大家可以看到在PORTAL页面上已经预设了一些软件和应用模板,也可以根据自己的需求进行一些模板和软件应用的上传。


【 PORTAL demo演示】


这里做fluent的应用测试,将测试名称定义为fluent_VNC_demo,选择作业队列,选择作业所需要的进程数以及节点数量,选择fluent所需要的计算文件,提交作业。随后,可以看到整个的提交作业的内容以及用户信息,点击作业可以进入到VNC。经过一段时间的等待,作业完成,这是一个二维的fluent的测试结果。


通过PORTAL可以非常简单地构建一个可视化的处理页面,在简单的二维场景上实现可视化一站式结果的呈现和获取。如果要进行的仿真场景非常复杂,需要大量3D运算,建议采购阿里云GPU实例和阿里云无影产品来实现更高性能的可视化处理能力。


工业仿真案例解析


第一个案例是上汽乘用车。


上汽集团整体采用了阿里云E-HPC混合云架构。将阿里云的E-HPC平台和第三方管控平台进行兼容和适配。在底层,通过一条专线,实现了云和IDC互联,从而将云上的E-HPC实例加载到线下调度器队列当中,实现统一调度和运行。



在上汽的应用过程中,将之前使用的scch5s实例在线升级到hpc8ae实例,同时将原有的NAS产品升级到了cpfs。通过以上产品能力的升级,仿真效率提升了30%。通过云计算不断迭代的性能,可以为客户在CAE仿真场景中提供更高性价比,同时也能满足后项的持续扩容和各类兼容性能力。


接下来可以看到某手机厂商业务场景中使用阿里云弹性计算来实现仿真上云的案例。



我们为该厂商提供了基于eRDMA网络的hpc8ae实例,对比于客户线下的资源,在同等核数、abaqus应用场景上,hpc8ae实现了25%的性价比提升。近几年手机厂商竞争激烈,客户有大量的CAE运算需求,云上即开即用的业务特性,满足了客户突发算力的需求,保障了产品TTM进度。

 

阿里云工业仿真方案优势解析


首先,阿里云提供了hpc8ae实例,它是拥有极高性能的计算实例,在计算、存储和网络上针对工业仿真领域进行了定向增强。其次,阿里云提供了大量的弹性资源,在CAE仿真的高峰期,客户可以通过弹性算力满足业务需求。第三,阿里云E-HPC产品具备极强的兼容性能力,可以适配线下各类调度器和各类的第三方门户,为CAE仿真工程师提供更易使用的工作环境;最后,通过云上按需计费能力,可以降低客户侧IT投入和成本。  




相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
弹性计算 人工智能 架构师
阿里云携手Altair共拓云上工业仿真新机遇
2024年9月12日,「2024 Altair 技术大会杭州站」成功召开,阿里云弹性计算产品运营与生态负责人何川,与Altair中国技术总监赵阳在会上联合发布了最新的“云上CAE一体机”。
阿里云携手Altair共拓云上工业仿真新机遇
|
2月前
|
存储 弹性计算 人工智能
【2025云栖精华内容】 打造持续领先,全球覆盖的澎湃算力底座——通用计算产品发布与行业实践专场回顾
2025年9月24日,阿里云弹性计算团队多位产品、技术专家及服务器团队技术专家共同在【2025云栖大会】现场带来了《通用计算产品发布与行业实践》的专场论坛,本论坛聚焦弹性计算多款通用算力产品发布。同时,ECS云服务器安全能力、资源售卖模式、计算AI助手等用户体验关键环节也宣布升级,让用云更简单、更智能。海尔三翼鸟云服务负责人刘建锋先生作为特邀嘉宾,莅临现场分享了关于阿里云ECS g9i推动AIoT平台的场景落地实践。
【2025云栖精华内容】 打造持续领先,全球覆盖的澎湃算力底座——通用计算产品发布与行业实践专场回顾
|
11月前
|
供应链 监控 安全
对话|企业如何构建更完善的容器供应链安全防护体系
随着云计算和DevOps的兴起,容器技术和自动化在软件开发中扮演着愈发重要的角色,但也带来了新的安全挑战。阿里云针对这些挑战,组织了一场关于云上安全的深度访谈,邀请了内部专家穆寰、匡大虎和黄竹刚,深入探讨了容器安全与软件供应链安全的关系,分析了当前的安全隐患及应对策略,并介绍了阿里云提供的安全解决方案,包括容器镜像服务ACR、容器服务ACK、网格服务ASM等,旨在帮助企业构建涵盖整个软件开发生命周期的安全防护体系。通过加强基础设施安全性、技术创新以及倡导协同安全理念,阿里云致力于与客户共同建设更加安全可靠的软件供应链环境。
150513 32
|
4月前
|
人工智能 自然语言处理 Serverless
Vibecoding 新体验:实测 Qwen3 Coder 代码生成效果
Qwen3 Coder 是全球领先的开源编程大模型,具备强大的代码生成能力与1M超长上下文支持,适用于构建复杂应用。本文通过实际案例展示其在电商网站开发中的应用,并详解提示词设计、技术拆解与部署方案,探讨Agentic AI落地的挑战与经验。
1186 13
|
8月前
|
存储 人工智能 安全
AI 驱动下的阿里云基础设施:技术创新与产品演进
本文整理自阿里云智能集团副总裁、阿里云弹性计算产品线与存储产品线负责人吴结生在“2025 AI势能大会”上的演讲,重点介绍了阿里云在AI基础设施领域的技术创新与产品演进。内容涵盖CIPU架构、盘古存储系统、高性能网络HPN等关键技术,以及第九代英特尔企业实例、ESSD同城冗余云盘等新产品发布。同时,文章详细阐述了灵骏集群的优化措施和可观测能力的提升,展示阿里云如何通过持续创新为AI负载提供强大支持,助力企业在AI时代实现智能化转型。
AI 驱动下的阿里云基础设施:技术创新与产品演进
|
9月前
|
机器学习/深度学习 编解码 人工智能
Qwen2.5-VL Technical Report
Qwen2.5-VL是阿里云团队推出的Qwen系列最新旗舰模型,具备显著提升的基础能力和创新功能。它在视觉识别、对象定位、文档解析和长视频理解等方面实现突破,支持精准的边界框/点定位及复杂输入处理。通过技术创新如窗口注意力、动态帧率采样和绝对时间编码,该模型在多模态任务中表现出色,在多个基准测试中超越顶级闭源模型,适用于从边缘AI到高性能计算的广泛场景。
|
存储 弹性计算 人工智能
阿里云弹性计算_通用计算专场精华概览 | 2024云栖大会回顾
阿里云弹性计算产品线、存储产品线产品负责人Alex Chen(陈起鲲)及团队内多位专家,和中国电子技术标准化研究院云计算标准负责人陈行、北京望石智慧科技有限公司首席架构师王晓满两位嘉宾,一同带来了题为《通用计算新品发布与行业实践》的专场Session。本次专场内容包括阿里云弹性计算全新发布的产品家族、阿里云第 9 代 ECS 企业级实例、CIPU 2.0技术解读、E-HPC+超算融合、倚天云原生算力解析等内容,并发布了国内首个云超算国家标准。
阿里云弹性计算_通用计算专场精华概览 | 2024云栖大会回顾
|
人工智能 并行计算 监控
性价比提升50%,阿里云HPC优化实例hpc8ae正式商业化
近日,全球领先的云计算厂商阿里云宣布正式开启最新HPC优化实例hpc8ae 的商业化发布,该实例依托阿里云自研的「飞天+CIPU」架构体系,搭载第四代 AMD EPYC处理器,专为高性能计算应用优化,特别适用于计算流体、有限元分析、多物理场模拟等仿真类应用,CAE 场景下的性价比最少提升 50%。
|
人工智能 JavaScript 数据可视化
Cursor、v0 和 Bolt.new:当今 AI 编程工具的全面解析与对比
本文深入解析了 Cursor AI、v0 和 Bolt.new 三大 AI 编程工具的特点与应用场景。Cursor 适合日常编码与团队协作,v0 专注于 UI 原型设计,Bolt.new 擅长全栈原型开发。各工具在功能上互为补充,开发者可根据需求灵活选择,以提升工作效率。
5235 1
|
缓存 监控 负载均衡
在使用CDN时,如何配置缓存规则以优化性能
在使用CDN时,如何配置缓存规则以优化性能

热门文章

最新文章