引言:近日,全球领先的云计算厂商阿里云宣布最新HPC优化实例hpc8ae的正式商业化,该实例依托阿里云自研的「飞天+CIPU」架构体系,搭载第四代AMD EPYC处理器,专为高性能计算应用优化,特别适用于计算流体、有限元分析、多物理场模拟等仿真类应用,CAE场景下的性价比最少提升50%。
本文根据黄泽辉的主题分享整理而成。
高性能计算无所不在
过去多年,高性能计算在很多专业领域解决着各种各样的大型复杂计算问题,如分析地震数据、模拟汽车碰撞、设计药物靶点等等,以上的场景都需要巨大的计算能力才能够在可预期的时间内解决问题。
通过使用高性能计算能够有效加速科学研究发现的进展,帮助对日常使用的产品设计和研发上实现创新,高性能计算也成为了在当今社会无所不在且推动技术进步和经济发展的关键工具。
云上高性能计算正在加速普及
采用传统的自建线下HPC集群,采购及建设周期冗长,集群容量有限,在业务高峰时往往面临着资源不足和需要排队,浪费研发时间,集群硬件相对老旧,难更新,计算效率较低,性能上无法完全满足业务上的需求。这些都制约了高性能计算在全行业中发挥更大的作用。
基于云的高性能计算(Cloud HPC),与传统HPC相比更加灵活、高效。用户可以利用云计算多样化、最新、最符合业务需求的计算硬件,保证计算效率最高。并可以根据业务负载动态增加/减少计算资源。用户只用为已使用的资源付费,具有更好的成本效益;同时,不需要专业IT人员创建、部署集群,也不需要管理维护底层基础设施,用户使用起来更加简单和可靠。
Cloud HPC 是一种更加普惠、更加民主化的HPC使用方式。任何一个初创企业,都可以通过云使用高性能计算,进行产品研发和设计,而不是只有大型企业/政府机构才具备这个能力。根据Hyperion Research的研究报告,2022年Cloud HPC的市场份额已经能够占到整个市场份额的17%,接下来的5年,都会以18%/年复合增长率继续快速增长。 所以说, Cloud HPC 正在加速普及,并成为线下超算的重要补充。
针对HPC工作负载专门优化云的基础设施
如何在云上开展高性能计算,是一件十分有挑战的事情。HPC作为计算机科学皇冠上的明珠,对于计算性能、存储性能、网络性能都有极高的要求。以工业仿真最常用的Fluent 软件为例,它属于计算密集型的应用,需要很高的CPU主频。同时它的性能也受内存带宽大小约束,只有内存带宽足够大,才能快速处理数据。
使用 Fluent进行整车仿真时,需要多个节点并行计算。这些计算节点之间,必须要有低延时、高带宽的网络通信能力;计算集群使用的存储也必须需要有更强的I/O读写能力才能不阻塞计算的进行。云厂商目前更多考虑的还是互联网类的应用,性能更加通用和均衡,难以满足高性能计算的要求,特别是一些计算流体、气象预报等高精尖场景。
在摩尔定律逐渐放缓甚至失效的今天,已经很难只凭芯片的先进制程,来应对各行各业的算力爆发性增长。云计算厂商必须能够围绕特定的应用场景,比如典型的HPC、AI领域,来针对性优化云的基础设施。只有这样才能既最大限度的提升应用性能,又降低大规模使用的成本。
阿里云弹性计算技术持续创新
阿里云作为国内最早的云计算服务厂商,在过去十几年间。一直在持续不断的进行技术创新。从最早的Xen架构,KVM架构,演变到自主研发的神龙架构,以及最新专为数据中心研发的CIPU架构。对于这些产品技术,阿里云一直都是最成熟和领先的云服务商。借助这些技术创新,也成功的将高性能计算融入到云计算领域,满足所有主流HPC主流应用的性能需求。
从2017年的神龙架构开始,包括上汽、吉利在内的汽车行业客户,就开始在阿里云上进行云上的工业仿真。2021年发布的CIPU架构,能够让我们的客户,进一步用更低成本、更高效率、更大规模的方式来运行 HPC 业务,大大增强阿里云Cloud HPC的产品竞争力。
高性能计算优化实例hpc8ae规格族
基于CIPU架构,专为HPC设计和优化的高性能计算实例hpc8ae,采用第四代的AMD EPYC处理器,能够提供64个物理核心,256GiB内存,基础频率3.4GHz,最高可以到3.75,还有500GB/s的内存带宽优化。整体超强配置使得hpc8ae特别适用于包含计算流体、有线元分析在内的典型工业仿真应用。
与其他通用计算类实例不同的是,hpc8ae有两大专为HPC应用设计的重要功能特性:
第一,hpc8ae直接提供物理核心,性能更加稳定,而且不支持启用超线程,避免了超线程切换影响到HPC应用性能。虽然hpc8ae是虚拟机,但借助CIPU架构,虚拟机的性能基本零损耗,和物理机等同。和其他 ECS 企业级实例一样,hpc8ae 的可靠性为99.975%,能够实现自动的故障切换和自愈恢复,非常稳定可靠。
第二,hpc8ae提供了高带宽、低延时,低抖动的eRDMA网络,最低时延达到8us。能够兼容传统的 RDMA ,应用的软件不需要改动可以直接使用。从应用的 E2E 的性能角度来说,eRDMA能在云上完全替代传统的 RDMA 网络,支持用户在阿里云的任意可用区,就可以构建云上大规模仿真集群,加速并行计算的任务。
依赖 CIPU 的强大性能和普惠特性,hpc8ae实例对CAE类应用至少实现50%以上性价比提升,是用户HPC工作负载的最佳选择。
全新CIPU架构提供高性能计算、网络和存储
作为阿里云弹性计算最重要的技术创新CIPU,即云基础设施的处理单元,它是一种DPU 的实现,专门设计用来提高云计算的效率和安全。CIPU可以将包含虚拟化在内的网络、安全、存储等等,非计算密集型的任务卸载到一个专用的软硬件上,不占用主CPU处理能力,让其只应用于核心应用逻辑处理,大大提升整体云计算在网络、存储、性能以及安全方面的表现。
例如实例的存储IOPS可以达到300万,本盘接近零的延迟损耗,网络的PPS也可以到4000万水平。CIPU在阿里云已经得到了大规模应用,所有的CPU、GPU存储网络都是通过CIPU统一管理和调度。通过CIPU,阿里云在通用计算性能方面优于同类产品20%-60%,大数据AI也比同类产品高30%以上。同样的, 在 HPC领域,基于CIPU架构的 hpc8ae实例也实现了大幅度的性能提升和成本优化。
免费eRDMA网络提供低延时、低抖动的节点通信
Cloud HPC另外一个关键点就是网络。传统的TCP/IP一直是业界主流的网络通信实例。很多应用都是基于TPC/IP构建,但是HPC的应用对于网络的性能,比如延迟、吞吐要求很高,TCP/IP的网络通信能力是一个瓶颈。传统的线下HPC集群会使用 RDMA 网络解决以上痛点,相比TCP/IP,eRDMA可以实现零拷贝,bypass内核等特性,可以减少频繁上下文切换带来的开销,实现低延迟,高吞吐的网络通信。
但是RDMA网络建设成本很高,受限于物理网络,它的扩展性和弹性能力也不足,因此无法在云上大规模使用。eRDMA是阿里云自研的云上弹性RDMA网络,底层链路复用VPC网络,利用CIPU卸载网络通信开销,bypass操作系统,并结合自研的拥塞算法可以提供最低8us的低时延,有着很多长尾抖动。通过对libfabric 的支持,传统应用也不需要改动就能够直接使用。
和传统RDMA网络不同,阿里云的eRDMA网络基于数据中心的VPC网络,所以用户在阿里云的任何一个可用区,比如北京、上海,秒级实现大规模eRDMA组网。同时,为了保证所有计算节点的低延时网络通信性能,用户可以使用ECS部署集能力,来保证创建的hpc8ae 实例紧凑放置。也就是说,同一个部署集的ECS 实例,在创建时会保证物理距离接近,从而来保证eRDMA低延时通信效果。
CAE应用性能提升30%,性价比提升50%
了解hpc8ae的实例规格参数以及背后的技术创新之后,我们来看一下hpc8ae的具体性能表现如何:
使用常见的HPC软件进行单节点benchmark 性能测试中,相比八代通用计算实例,专门优化的hpc8ae实例,WRF性能提升了40%,STAR-CCM提升了47%,Fluent提升了35%,普遍至少提升了30%以上。使用STAR-CCM+测试超过512核的多节点作业,应用性能基本上都可以实现线性提升,具有非常好的扩展效率。
使用E—HPC一键创建hpc8ae仿真集群
不仅是计算实例hpc8ae的超高性价比优势,阿里云还为hpc客户提供了功能完善的弹性高性能计算产品E-HPC。通过E-HPC,用户可以自动化创建HPC集群,提供SLURM、PBS等常见调度器调度作业。
同时,E-HPC还提供完整的云上运维、监控、告警、报表等服务,与阿里云其他云产品无缝对接,能够实现完整业务流程上云。对用户来说,E-HPC可以安装部署软件,使用部署集创建hpc8ae实例集群,集成包含并行文件存储CPFS、无影可视化节点等其他云产品,从而端到端的提供包含前处理、后处理、仿真在内的完整CAE云上方案,简单易用。
高性能计算优化实例hpc8ae规格族正式商业化
阿里云的高性能计算优化实例hpc8ae规格族正式商业化发布,支持北京、上海、杭州地域的开放购买。