高效、弹性,阿里云工业仿真行业解决方案解读

本文涉及的产品
云服务器 ECS,u1 4核16GB 1个月
云服务器 ECS,u1 2核4GB 3个月
云服务器 ECS,u1 4核8GB 1个月
简介: 近日,全球领先的云计算厂商阿里云宣布最新HPC优化实例hpc8ae的正式商业化,该实例依托阿里云自研的「飞天+CIPU」架构体系,搭载第四代AMD EPYC处理器,专为高性能计算应用优化,特别适用于计算流体、有限元分析、多物理场模拟等仿真类应用,CAE场景下的性价比最少提升50%。

引言:近日,全球领先的云计算厂商阿里云宣布最新HPC优化实例hpc8ae的正式商业化,该实例依托阿里云自研的「飞天+CIPU」架构体系,搭载第四代AMD EPYC处理器,专为高性能计算应用优化,特别适用于计算流体、有限元分析、多物理场模拟等仿真类应用,CAE场景下的性价比最少提升50%。


本文根据倪炜的主题分享整理而成。

 

工业仿真需求变更带来IT挑战


在本次分享中,我们把视角聚焦到工业仿真领域。


工业仿真领域的市场需求日新月异,同时也带来了日渐扩大的IT基础设施挑战。同时,由于仿真规模急速增长,IT基础设施也随之需要不断扩容,由此也暴露了IT基础设施前向兼容性及建设的高性价比问题。


另一方面,工业领域的竞争不断加剧也带来了需求不确定性的增加,需要在同等预算/可执行预算空间内满足更大的不确定性。



最后,随着竞争越来越高,工业产品面市周期缩短(Time To Market),因此需要仿真结果可以直接作用于生产,减少物理样品生产带来的耗时,这也就要求迭代次数、精度不断增加,总迭代时间又要大幅缩短,以便降低license费用支出。


以上3个需求都对IT基础设施形成了巨大的挑战。

 

阿里云E-HPC产品架构:现代化的云超算


这里,先介绍一下阿里云E-HPC平台,这个平台整体分为三层


首先,是高性能基础设施层。高性能基础设施层提供了高性能计算、存储和网络。


  • 在计算方面,阿里云ECS计算实例可以提供小规格计算能力,对于小算力而言,能够带来更好性价比。同时,阿里云也提供弹性裸金属服务,可以将整机性能和规格直接给到客户侧,在一些大算力作业、并发作业上能获得更好的性能。针对复杂的3D前后处理场景以及一些GPU加速的工业仿真场景,阿里云还提供了各种类型的GPU实例满足客户要求。



  • 在网络方面,阿里云最新的实例已经可以支持100G的VPC,也有兼容各RDMA协议的eRDMA能力,eRDMA能够获得更好的性能也带来了更佳的性价比。对于一些时延极其敏感的业务,阿里云提供了基于RoCE网络的实例和能力。


  • 在存储方面,提供了OSS作为持久化存储能力以及NAS/CPFS作为分布式存储能力,多种规格的产品能够在各种应用上获得更好的适配,从而带来最优性价比。如果客户考虑将线下IDC数据上云,我们还提供了闪电立方产品能力,能够帮助客户快速地将IDC数据上传到云端。


E-HPC产品兼容线下计算、存储和网络,能够实现云上云下统一的混合云调度。


其次,在高性能基础设施层之上是HPCaaS层产品。HPCaaS层产品由集群资源管理组件、统一作业调度组件和API三个组件组成。


  1. 集群资源管理组件。集群资源管理包括三个部分,首先是集群创建和管理,其能够实现一键创建集群和管理生命周期。另一方面,基于阿里云弹性能力可以提供基于调度器的负载自动伸缩。最后,阿里云E-HPC也能够提供基于集群节点和作业维度的可观测能力,可以分析集群的利用率以及每个作业的使用效率,从而帮助IT运维人员更好的使用IT基础设施能力。
  2. 统一作业调度组件。在这一部分一般分为两块,首先可以使用传统HPC调度器,例如SLURM,PBS,SGE等等,同时也支持商业版的调度器,可以为客户提供更多可选择性。另一方面阿里云提供了Serverless Batch能力,可以完全忽略laas层和E-HPC管理层,只需要将作业脚本传递到云上接口就可以直接运行,节省了IT基础设施的运维和管控层维护需求。
  3. API层。API可以调用集群、节点、队列、模板和作业,将API和整个生产业务、研发业务结合,即可实现完全统一的自动化流程。


最后,HPCaaS层之上是行业应用。


基于阿里云多年在工业仿真领域的沉淀,已经和各大行业主流软件进行了兼容性适配,保障软件运行效率。

 

HPCaaS,一键创建、使用和扩容


HPCaaS层支持一键创建使用的扩容集群,可以将现有的超算中心/线下机房的建设模型一比一复制到云上,客户可以通过云上的GPU实例/无影产品来实现图形节点的能力,也可以直接在E-HPC控制台上创建登录节点和管理节点。



同时,基于阿里云弹性计算众多ECS实例规格族,可以创建不同的计算节点池,支撑各种类型的仿真业务。阿里云提供了丰富的文件存储能力,因此客户可以基于业务的需求使用NAS或者CPFS。所有的计算节点和图形节点之间可以通过阿里云eRDMA网络实现高速连接。整个部署可以从原来线下建设的数月时间缩短到仅仅半个小时,在业务高峰期和弹性需求来临时,快速扩容E-HPC集群从而满足业务需求。


基于混合云架构的弹性供应方案


阿里云E-HPC平台还支持混合云架构,客户可以通过专线或者VPN直接实现云上、云下两个集群互联。下图左侧是IDC网络架构,无论它是基于IB网络,还是RoCE网络都可以和云上现有的高性能E-HPC集群进行互通。



通过阿里云E-HPC调度器的兼容性能力,可以将云上的计算节点直接添加到线下的HPC队列中,从而直接将作业投递到云上的弹性计算节点。这样能保证CAE工程师可以在统一的环境内进行工作,无需理解资源及重新适应新环境。

 

基于应用负载的弹性伸缩


阿里云E-HPC可以支持基于应用负载的弹性伸缩,下图展示的是弹性伸缩的过程。


可以看到,在T0时间点没有任何作业提交,因此整个云上没有任何计算节点,客户无需为计算节点支付任何费用。等到T1时间点,工程师提交作业,这个作业声明需要4个节点运行,因此E-HPC平台自动在计算集群内扩容了4个节点,开始承载作业。



等到T2时间点,另一个作业需要额外两个节点满足,因此E-HPC平台在T2时间点进行计算节点扩容,最终达到整个计算集群六台的能力。等到T3时间点,作业一、二已经完成并且已经达到了预设的冷却时间,此时,E-HPC将所有的计算节点都进行了自动释放,T3时间点,计算节点数量已经又归零。整个过程只在T1和T2时间点进行计费,最大程度地去运用弹性能力,同时支付最少的账单来满足业务需求,整个扩容过程都是完全自动化,因此IT工程师无需再守在屏幕面前为作业需求进行扩容和缩容。

 

性价比进一步提升


本次最新发布的高性能计算实例hpc8ae,它在原有的基础之上进一步提升了在工业仿真领域的性价比。经过分析发现,在工业仿真领域中,计算、存储和网络都有非常高的要求,因此hpc8ae在计算上定向增强了CPU主频和运算能力;在网络上提供了免费的eRDMA能力实现低成本的RDMA网络;在存储层面,通过全面支持NvME云盘实现更好的IOPS。通过以上方面的定向增强,发现对比普通的c8ae实例,在STAR-CCM+或者fluent等流体应用上,hpc8ae带来45%以上的性价比提升。


 

E2E性能全面领先


hpc8ae全面实现了性能领先,在Dyna、Abqus、Fluent等多个场景上,和其他算力进行对比,至少能够提供20%以上的性能提升,因此hpc8ae将为仿真业务带来更高性能,同时能够带来更好的成本效应。



基于业务的一站式前后可视化处理


E-HPC平台可以支持一站式前后可视化处理。下方演示为整个PORTAL页面。大家可以看到在PORTAL页面上已经预设了一些软件和应用模板,也可以根据自己的需求进行一些模板和软件应用的上传。


【 PORTAL demo演示】


这里做fluent的应用测试,将测试名称定义为fluent_VNC_demo,选择作业队列,选择作业所需要的进程数以及节点数量,选择fluent所需要的计算文件,提交作业。随后,可以看到整个的提交作业的内容以及用户信息,点击作业可以进入到VNC。经过一段时间的等待,作业完成,这是一个二维的fluent的测试结果。


通过PORTAL可以非常简单地构建一个可视化的处理页面,在简单的二维场景上实现可视化一站式结果的呈现和获取。如果要进行的仿真场景非常复杂,需要大量3D运算,建议采购阿里云GPU实例和阿里云无影产品来实现更高性能的可视化处理能力。


工业仿真案例解析


第一个案例是上汽乘用车。


上汽集团整体采用了阿里云E-HPC混合云架构。将阿里云的E-HPC平台和第三方管控平台进行兼容和适配。在底层,通过一条专线,实现了云和IDC互联,从而将云上的E-HPC实例加载到线下调度器队列当中,实现统一调度和运行。



在上汽的应用过程中,将之前使用的scch5s实例在线升级到hpc8ae实例,同时将原有的NAS产品升级到了cpfs。通过以上产品能力的升级,仿真效率提升了30%。通过云计算不断迭代的性能,可以为客户在CAE仿真场景中提供更高性价比,同时也能满足后项的持续扩容和各类兼容性能力。


接下来可以看到某手机厂商业务场景中使用阿里云弹性计算来实现仿真上云的案例。



我们为该厂商提供了基于eRDMA网络的hpc8ae实例,对比于客户线下的资源,在同等核数、abaqus应用场景上,hpc8ae实现了25%的性价比提升。近几年手机厂商竞争激烈,客户有大量的CAE运算需求,云上即开即用的业务特性,满足了客户突发算力的需求,保障了产品TTM进度。

 

阿里云工业仿真方案优势解析


首先,阿里云提供了hpc8ae实例,它是拥有极高性能的计算实例,在计算、存储和网络上针对工业仿真领域进行了定向增强。其次,阿里云提供了大量的弹性资源,在CAE仿真的高峰期,客户可以通过弹性算力满足业务需求。第三,阿里云E-HPC产品具备极强的兼容性能力,可以适配线下各类调度器和各类的第三方门户,为CAE仿真工程师提供更易使用的工作环境;最后,通过云上按需计费能力,可以降低客户侧IT投入和成本。  




相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
相关文章
|
14天前
|
Web App开发 编解码 资源调度
在阿里云直播解决方案中,当使用ARTC协议观看直播并进行清晰度切换时出现画面卡顿或马赛克现象,可能存在以下几种原因
【6月更文挑战第30天】阿里云直播中,ARTC协议下清晰度切换出现卡顿或马赛克可能由网络带宽、缓冲策略、转码效率、播放器解码、协议特点及服务器资源调度引起。解决措施包括优化网络、智能切换算法、播放器与服务器优化。通过监控和日志分析定位问题,参照官方最佳实践进行优化。
38 1
|
24天前
|
Linux 网络安全
杨老师课堂之关于阿里云Centos7 如何设置权限的解决方案
杨老师课堂之关于阿里云Centos7 如何设置权限的解决方案
23 0
|
23天前
|
人工智能 API
阿里云的通义万相文本绘图与人像美化解决方案的体验感受
通义万相文本绘图与人像美化解决方案是一个非常有潜力的产品,它不仅能够提高设计师和艺术家的创作效率,也为AI图像生成领域带来了新的可能性。非常期待它未来的发展和应用。
86 40
|
19天前
|
弹性计算
阿里云服务器99元和199元提示“不符合活动条件”或显示价格为原价的解决方案
2024年阿里云推出了两款长效特惠云服务器,经济型e实例2核2G配置3M固定带宽40G ESSD Entry云盘,价格只要99元1年,通用算力型u1实例2核4G配置5M固定带宽80G ESSD Entry云盘,价格只要199元1年,而且购买之后还能享受续费同价的政策,这两款云服务器的购买资格为新老用户同享,但是还是有部分用户在购买时会提示“不符合活动条件”或者显示的价格是原价,本文为大家解析出现这一情况的原因是什么呢,以及我们应该如何解决。
阿里云服务器99元和199元提示“不符合活动条件”或显示价格为原价的解决方案
|
1月前
|
弹性计算 运维 持续交付
构建与部署企业门户网站:阿里云云效解决方案评测
在数字化时代,企业门户网站作为企业形象的线上窗口,其建设和运维效率直接影响着企业的在线品牌形象与用户体验。阿里云提供的“构建企业门户网站”解决方案,借助云效平台实现从代码到云端的无缝部署,为开发者和企业带来了前所未有的便捷性与效率。
360 5
构建与部署企业门户网站:阿里云云效解决方案评测
|
11天前
|
关系型数据库 分布式数据库 数据库
PolarDB,阿里云的开源分布式数据库,与微服务相结合,提供灵活扩展和高效管理解决方案。
【7月更文挑战第3天】PolarDB,阿里云的开源分布式数据库,与微服务相结合,提供灵活扩展和高效管理解决方案。通过数据分片和水平扩展支持微服务弹性,保证高可用性,且兼容MySQL协议,简化集成。示例展示了如何使用Spring Boot配置PolarDB,实现服务动态扩展。PolarDB缓解了微服务数据库挑战,加速了开发部署,为云原生应用奠定基础。
84 3
|
11天前
|
存储 弹性计算 大数据
阿里云ECS以其强大的弹性计算与存储能力,为大数据处理提供了灵活、高效、成本优化的解决方案
阿里云ECS在大数据处理中发挥关键作用,提供多样化实例规格适应不同需求,如大数据型实例适合离线计算。ECS与OSS集成实现大规模存储,通过Auto Scaling动态调整资源,确保高效运算。案例显示,使用ECS处理TB级数据,速度提升3倍,成本降低40%,展现其在弹性、效率和成本优化方面的优势。结合阿里云生态系统,ECS助力企业数据驱动创新。
26 1
|
15天前
|
弹性计算 Serverless 调度
《阿里云产品四月刊》—享道出行:容器弹性技术驱动下的智慧出行稳定性实践(3)
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
|
20天前
|
域名解析 弹性计算 网络协议
阿里云云效企业门户网站部署解决方案全面测评
测评范围:账号注册、ECS实例创建、代码管理、流水线配置、域名解析。 优点: 注册登录简便,ECS创建直观,代码托管顺畅,云效项目创建与配置流程清晰,一键部署便捷。 改进点: 提供更多操作提示,增强新手引导,增加模板和最佳实践,优化大文件上传性能,完善容错机制。 结论: 云效提供高效企业门户解决方案,适合快速部署,需进一步优化高级功能和用户体验。
|
1月前
|
弹性计算 安全 持续交付
深度评测:阿里云“高效构建企业门户网站”解决方案
阿里云的“高效构建企业门户网站”解决方案在操作便捷性、系统稳定性、扩展性以及成本控制等方面都表现出色,为企业用户提供了一站式的网站建设和托管服务。
56 3