云布道师
引言:本文整理自阿里云弹性计算解决方案架构师倪炜在【HPC 优化实例商业化发布会】中的分享。
近日,全球领先的云计算厂商阿里云宣布最新 HPC 优化实例 hpc8ae 的正式商业化,该实例依托阿里云自研的「飞天+CIPU」架构体系,搭载第四代 AMD EPYC 处理器,专为高性能计算应用优化,特别适用于计算流体、有限元分析、多物理场模拟等仿真类应用,CAE 场景下的性价比最少提升 50%。
本文根据倪炜的主题分享整理而成。
工业仿真需求变更带来 IT 挑战
在本次分享中,我们把视角聚焦到工业仿真领域。
工业仿真领域的市场需求日新月异,同时也带来了日渐扩大的 IT 基础设施挑战。同时,由于仿真规模急速增长,IT 基础设施也随之需要不断扩容,由此也暴露了 IT 基础设施前向兼容性及建设的高性价比问题。
另一方面,工业领域的竞争不断加剧也带来了需求不确定性的增加,需要在同等预算/可执行预算空间内满足更大的不确定性。
最后,随着竞争越来越高,工业产品面市周期缩短(Time To Market),因此需要仿真结果可以直接作用于生产,减少物理样品生产带来的耗时,这也就要求迭代次数、精度不断增加,总迭代时间又要大幅缩短,以便降低 license 费用支出。
以上 3 个需求都对 IT 基础设施形成了巨大的挑战。
阿里云 E-HPC 产品架构:现代化的云超算
这里,先介绍一下阿里云 E-HPC 平台,这个平台整体分为三层。
首先,是高性能基础设施层。高性能基础设施层提供了高性能计算、存储和网络。
- 在计算方面,阿里云 ECS 计算实例可以提供小规格计算能力,对于小算力而言,能够带来更好性价比。同时,阿里云也提供弹性裸金属服务,可以将整机性能和规格直接给到客户侧,在一些大算力作业、并发作业上能获得更好的性能。针对复杂的 3D 前后处理场景以及一些 GPU 加速的工业仿真场景,阿里云还提供了各种类型的 GPU 实例满足客户要求。
- 在网络方面,阿里云最新的实例已经可以支持 100G 的 VPC,也有兼容各 RDMA 协议的 eRDMA 能力,eRDMA 能够获得更好的性能也带来了更佳的性价比。对于一些时延极其敏感的业务,阿里云提供了基于 RoCE 网络的实例和能力。
- 在存储方面,提供了 OSS 作为持久化存储能力以及 NAS/CPFS 作为分布式存储能力,多种规格的产品能够在各种应用上获得更好的适配,从而带来最优性价比。如果客户考虑将线下 IDC 数据上云,我们还提供了闪电立方产品能力,能够帮助客户快速地将 IDC 数据上传到云端。
E-HPC 产品兼容线下计算、存储和网络,能够实现云上云下统一的混合云调度。
其次,在高性能基础设施层之上是 HPCaaS 层产品。HPCaaS 层产品由集群资源管理组件、统一作业调度组件和 API 三个组件组成。
- 集群资源管理组件。集群资源管理包括三个部分,首先是集群创建和管理,其能够实现一键创建集群和管理生命周期。另一方面,基于阿里云弹性能力可以提供基于调度器的负载自动伸缩。最后,阿里云E-HPC也能够提供基于集群节点和作业维度的可观测能力,可以分析集群的利用率以及每个作业的使用效率,从而帮助IT运维人员更好的使用IT基础设施能力。
- 统一作业调度组件。在这一部分一般分为两块,首先可以使用传统HPC调度器,例如
- SLURM,PBS,SGE等等,同时也支持商业版的调度器,可以为客户提供更多可选择性。另一方面阿里云提供了Serverless Batch能力,可以完全忽略laas层和E-HPC管理层,只需要将作业脚本传递到云上接口就可以直接运行,节省了IT基础设施的运维和管控层维护需求。
- API层。API可以调用集群、节点、队列、模板和作业,将API和整个生产业务、研发业务结合,即可实现完全统一的自动化流程。
最后,HPCaaS层之上是行业应用。
基于阿里云多年在工业仿真领域的沉淀,已经和各大行业主流软件进行了兼容性适配,保障软件运行效率。
HPCaaS,一键创建、使用和扩容
HPCaaS 层支持一键创建使用的扩容集群,可以将现有的超算中心/线下机房的建设模型一比一复制到云上,客户可以通过云上的 GPU 实例/无影产品来实现图形节点的能力,也可以直接在 E-HPC 控制台上创建登录节点和管理节点。
同时,基于阿里云弹性计算众多 ECS 实例规格族,可以创建不同的计算节点池,支撑各种类型的仿真业务。阿里云提供了丰富的文件存储能力,因此客户可以基于业务的需求使用 NAS 或者 CPFS。所有的计算节点和图形节点之间可以通过阿里云eRDMA 网络实现高速连接。整个部署可以从原来线下建设的数月时间缩短到仅仅半个小时,在业务高峰期和弹性需求来临时,快速扩容 E-HPC 集群从而满足业务需求。
基于混合云架构的弹性供应方案
阿里云 E-HPC 平台还支持混合云架构,客户可以通过专线或者 VPN 直接实现云上、云下两个集群互联。下图左侧是 IDC 网络架构,无论它是基于 IB 网络,还是RoCE 网络都可以和云上现有的高性能 E-HPC 集群进行互通。
通过阿里云 E-HPC 调度器的兼容性能力,可以将云上的计算节点直接添加到线下的HPC 队列中,从而直接将作业投递到云上的弹性计算节点。这样能保证 CAE 工程师可以在统一的环境内进行工作,无需理解资源及重新适应新环境。
基于应用负载的弹性伸缩
阿里云 E-HPC 可以支持基于应用负载的弹性伸缩,下图展示的是弹性伸缩的过程。
可以看到,在 T0 时间点没有任何作业提交,因此整个云上没有任何计算节点,客户无需为计算节点支付任何费用。等到 T1 时间点,工程师提交作业,这个作业声明需要 4 个节点运行,因此 E-HPC 平台自动在计算集群内扩容了 4 个节点,开始承载作业。
等到 T2 时间点,另一个作业需要额外两个节点满足,因此 E-HPC 平台在 T2 时间点进行计算节点扩容,最终达到整个计算集群六台的能力。等到 T3 时间点,作业一、二已经完成并且已经达到了预设的冷却时间,此时,E-HPC 将所有的计算节点都进行了自动释放,T3 时间点,计算节点数量已经又归零。整个过程只在 T1 和 T2时间点进行计费,最大程度地去运用弹性能力,同时支付最少的账单来满足业务需求,整个扩容过程都是完全自动化,因此IT工程师无需再守在屏幕面前为作业需求进行扩容和缩容。
性价比进一步提升
本次最新发布的高性能计算实例 hpc8ae,它在原有的基础之上进一步提升了在工业仿真领域的性价比。经过分析发现,在工业仿真领域中,计算、存储和网络都有非常高的要求,因此 hpc8ae 在计算上定向增强了 CPU 主频和运算能力;在网络上提供了免费的 eRDMA 能力实现低成本的 RDMA 网络;在存储层面,通过全面支持 NvME 云盘实现更好的 IOPS。通过以上方面的定向增强,发现对比普通的 c8ae 实例,在 STAR-CCM+或者 fluent 等流体应用上,hpc8ae 带来 45% 以上的性价比提升。
E2E 性能全面领先
hpc8ae 全面实现了性能领先,在 Dyna、Abqus、Fluent 等多个场景上,和其他算力进行对比,至少能够提供 20% 以上的性能提升,因此 hpc8ae 将为仿真业务带来更高性能,同时能够带来更好的成本效应。
基于业务的一站式前后可视化处理
E-HPC 平台可以支持一站式前后可视化处理。下方演示为整个 PORTAL 页面。大家可以看到在 PORTAL 页面上已经预设了一些软件和应用模板,也可以根据自己的需求进行一些模板和软件应用的上传。
这里做 fluent 的应用测试,将测试名称定义为 fluent_VNC_demo,选择作业队列,选择作业所需要的进程数以及节点数量,选择 fluent 所需要的计算文件,提交作业。随后,可以看到整个的提交作业的内容以及用户信息,点击作业可以进入到VNC。经过一段时间的等待,作业完成,这是一个二维的 fluent 的测试结果。
通过 PORTAL 可以非常简单地构建一个可视化的处理页面,在简单的二维场景上实现可视化一站式结果的呈现和获取。如果要进行的仿真场景非常复杂,需要大量 3D运算,建议采购阿里云 GPU 实例和阿里云无影产品来实现更高性能的可视化处理能力。
工业仿真案例解析
第一个案例是上汽乘用车。
上汽集团整体采用了阿里云 E-HPC 混合云架构。将阿里云的 E-HPC 平台和第三方管控平台进行兼容和适配。在底层,通过一条专线,实现了云和 IDC 互联,从而将云上的 E-HPC 实例加载到线下调度器队列当中,实现统一调度和运行。
在上汽的应用过程中,将之前使用的 scch5s 实例在线升级到 hpc8ae 实例,同时将原有的 NAS 产品升级到了 cpfs。通过以上产品能力的升级,仿真效率提升了30%。通过云计算不断迭代的性能,可以为客户在 CAE 仿真场景中提供更高性价比,同时也能满足后项的持续扩容和各类兼容性能力。
接下来可以看到某手机厂商业务场景中使用阿里云弹性计算来实现仿真上云的案例。
我们为该厂商提供了基于 eRDMA 网络的 hpc8ae 实例,对比于客户线下的资源,在同等核数、abaqus 应用场景上,hpc8ae 实现了 25% 的性价比提升。近几年手机厂商竞争激烈,客户有大量的 CAE 运算需求,云上即开即用的业务特性,满足了客户突发算力的需求,保障了产品 TTM 进度。
阿里云工业仿真方案优势解析
首先,阿里云提供了 hpc8ae 实例,它是拥有极高性能的计算实例,在计算、存储和网络上针对工业仿真领域进行了定向增强。其次,阿里云提供了大量的弹性资源,在 CAE 仿真的高峰期,客户可以通过弹性算力满足业务需求。第三,阿里云 E-HPC产品具备极强的兼容性能力,可以适配线下各类调度器和各类的第三方门户,为 CAE 仿真工程师提供更易使用的工作环境;最后,通过云上按需计费能力,可以降低客户侧 IT 投入和成本。