阿里云高性能计算HPC优化实例商业化发布详解

简介: 基于云的高性能计算(Cloud HPC),与传统HPC相比更加灵活、高效。

【阅读原文】戳:阿里云高性能计算HPC优化实例商业化发布详解


引言:本文整理自阿里云高性能计算产品负责人黄泽辉在【HPC优化实例商业化发布会】中的分享。

 

近日,全球领先的云计算厂商阿里云宣布最新HPC优化实例hpc8ae的正式商业化,该实例依托阿里云自研的「飞天+CIPU」架构体系,搭载第四代AMD EPYC处理器,专为高性能计算应用优化,特别适用于计算流体、有限元分析、多物理场模拟等仿真类应用,CAE场景下的性价比最少提升50%。

 

本文根据黄泽辉的主题分享整理而成。

 

 

高性能计算无所不在

 

 

过去多年,高性能计算在很多专业领域解决着各种各样的大型复杂计算问题,如分析地震数据、模拟汽车碰撞、设计药物靶点等等,以上的场景都需要巨大的计算能力才能够在可预期的时间内解决问题。

 

 

通过使用高性能计算能够有效加速科学研究发现的进展,帮助对日常使用的产品设计和研发上实现创新,高性能计算也成为了在当今社会无所不在且推动技术进步和经济发展的关键工具。

 

 

 

云上高性能计算正在加速普及


 

采用传统的自建线下HPC集群,采购及建设周期冗长,集群容量有限,在业务高峰时往往面临着资源不足和需要排队,浪费研发时间,集群硬件相对老旧,难更新,计算效率较低,性能上无法完全满足业务上的需求。这些都制约了高性能计算在全行业中发挥更大的作用。

 

 

基于云的高性能计算(Cloud HPC),与传统HPC相比更加灵活、高效。用户可以利用云计算多样化、最新、最符合业务需求的计算硬件,保证计算效率最高。并可以根据业务负载动态增加/减少计算资源。用户只用为已使用的资源付费,具有更好的成本效益;同时,不需要专业IT人员创建、部署集群,也不需要管理维护底层基础设施,用户使用起来更加简单和可靠。

 

 

Cloud HPC是一种更加普惠、更加民主化的HPC使用方式。任何一个初创企业,都可以通过云使用高性能计算,进行产品研发和设计,而不是只有大型企业/政府机构才具备这个能力。根据Hyperion Research的研究报告,2022年Cloud HPC的市场份额已经能够占到整个市场份额的17%,接下来的5年,都会以18%/年复合增长率继续快速增长。所以说,Cloud HPC正在加速普及,并成为线下超算的重要补充。

 

 

 

针对HPC工作负载专门优化云的基础设施

 

 

如何在云上开展高性能计算,是一件十分有挑战的事情。HPC作为计算机科学皇冠上的明珠,对于计算性能、存储性能、网络性能都有极高的要求。以工业仿真最常用的Fluent 软件为例,它属于计算密集型的应用,需要很高的CPU主频。同时它的性能也受内存带宽大小约束,只有内存带宽足够大,才能快速处理数据。

 

 

使用Fluent进行整车仿真时,需要多个节点并行计算。这些计算节点之间,必须要有低延时、高带宽的网络通信能力;计算集群使用的存储也必须需要有更强的I/O读写能力才能不阻塞计算的进行。云厂商目前更多考虑的还是互联网类的应用,性能更加通用和均衡,难以满足高性能计算的要求,特别是一些计算流体、气象预报等高精尖场景。

 

 

在摩尔定律逐渐放缓甚至失效的今天,已经很难只凭芯片的先进制程,来应对各行各业的算力爆发性增长。云计算厂商必须能够围绕特定的应用场景,比如典型的HPC、AI领域,来针对性优化云的基础设施。只有这样才能既最大限度的提升应用性能,又降低大规模使用的成本。

 

 

阿里云弹性计算技术持续创新

 

 

阿里云作为国内最早的云计算服务厂商,在过去十几年间。一直在持续不断的进行技术创新。从最早的Xen架构,KVM架构,演变到自主研发的神龙架构,以及最新专为数据中心研发的CIPU架构。对于这些产品技术,阿里云一直都是最成熟和领先的云服务商。借助这些技术创新,也成功的将高性能计算融入到云计算领域,满足所有主流HPC主流应用的性能需求。

 

 

从2017年的神龙架构开始,包括上汽、吉利在内的汽车行业客户,就开始在阿里云上进行云上的工业仿真。2021年发布的CIPU架构,能够让我们的客户,进一步用更低成本、更高效率、更大规模的方式来运行HPC业务,大大增强阿里云Cloud HPC的产品竞争力。

 

 

 

高性能计算优化实例hpc8ae规格族

 

 

基于CIPU架构,专为HPC设计和优化的高性能计算实例hpc8ae,采用第四代的AMD EPYC处理器,能够提供64个物理核心,256GiB内存,基础频率3.4GHz,最高可以到3.75,还有500GB/s的内存带宽优化。整体超强配置使得hpc8ae特别适用于包含计算流体、有线元分析在内的典型工业仿真应用。

 

 

与其他通用计算类实例不同的是,hpc8ae有两大专为HPC应用设计的重要功能特性:

 

第一,hpc8ae直接提供物理核心,性能更加稳定,而且不支持启用超线程,避免了超线程切换影响到HPC应用性能。虽然hpc8ae是虚拟机,但借助CIPU架构,虚拟机的性能基本零损耗,和物理机等同。和其他ECS企业级实例一样,hpc8ae的可靠性为99.975%,能够实现自动的故障切换和自愈恢复,非常稳定可靠。

 

第二,hpc8ae提供了高带宽、低延时,低抖动的eRDMA网络,最低时延达到8us。能够兼容传统的RDMA,应用的软件不需要改动可以直接使用。从应用的E2E的性能角度来说,eRDMA能在云上完全替代传统的RDMA网络,支持用户在阿里云的任意可用区,就可以构建云上大规模仿真集群,加速并行计算的任务。

 

依赖CIPU的强大性能和普惠特性,hpc8ae实例对CAE类应用至少实现50%以上性价比提升,是用户HPC工作负载的最佳选择。

 

 

 

全新CIPU架构提供高性能计算、网络和存储

 

 

作为阿里云弹性计算最重要的技术创新CIPU,即云基础设施的处理单元,它是一种DPU的实现,专门设计用来提高云计算的效率和安全。CIPU可以将包含虚拟化在内的网络、安全、存储等等,非计算密集型的任务卸载到一个专用的软硬件上,不占用主CPU处理能力,让其只应用于核心应用逻辑处理,大大提升整体云计算在网络、存储、性能以及安全方面的表现。

 

 

例如实例的存储IOPS可以达到300万,本盘接近零的延迟损耗,网络的PPS也可以到4000万水平。CIPU在阿里云已经得到了大规模应用,所有的CPU、GPU存储网络都是通过CIPU统一管理和调度。通过CIPU,阿里云在通用计算性能方面优于同类产品20%-60%,大数据AI也比同类产品高30%以上。同样的,在HPC领域,基于CIPU架构的hpc8ae实例也实现了大幅度的性能提升和成本优化。

 

 

 

免费eRDMA网络提供低延时、低抖动的节点通信

 

 

Cloud HPC另外一个关键点就是网络。传统的TCP/IP一直是业界主流的网络通信实例。很多应用都是基于TPC/IP构建,但是HPC的应用对于网络的性能,比如延迟、吞吐要求很高,TCP/IP的网络通信能力是一个瓶颈。传统的线下HPC集群会使用RDMA网络解决以上痛点,相比TCP/IP,eRDMA可以实现零拷贝,bypass内核等特性,可以减少频繁上下文切换带来的开销,实现低延迟,高吞吐的网络通信。

 

 

但是RDMA网络建设成本很高,受限于物理网络,它的扩展性和弹性能力也不足,因此无法在云上大规模使用。eRDMA是阿里云自研的云上弹性RDMA网络,底层链路复用VPC网络,利用CIPU卸载网络通信开销,bypass操作系统,并结合自研的拥塞算法可以提供最低8us的低时延,有着很多长尾抖动。通过对libfabric的支持,传统应用也不需要改动就能够直接使用。

 

 

和传统RDMA网络不同,阿里云的eRDMA网络基于数据中心的VPC网络,所以用户在阿里云的任何一个可用区,比如北京、上海,秒级实现大规模eRDMA组网。同时,为了保证所有计算节点的低延时网络通信性能,用户可以使用ECS部署集能力,来保证创建的hpc8ae实例紧凑放置。也就是说,同一个部署集的ECS实例,在创建时会保证物理距离接近,从而来保证eRDMA低延时通信效果。

 

 

 

CAE应用性能提升30%,性价比提升50%

 

 

了解hpc8ae的实例规格参数以及背后的技术创新之后,我们来看一下hpc8ae的具体性能表现如何:

 

 

使用常见的HPC软件进行单节点benchmark性能测试中,相比八代通用计算实例,专门优化的hpc8ae实例,WRF性能提升了40%,STAR-CCM提升了47%,Fluent提升了35%,普遍至少提升了30%以上。使用STAR-CCM+测试超过512核的多节点作业,应用性能基本上都可以实现线性提升,具有非常好的扩展效率。

 

 

 

使用E-HPC一键创建hpc8ae仿真集群

 

 

不仅是计算实例hpc8ae的超高性价比优势,阿里云还为hpc客户提供了功能完善的弹性高性能计算产品E-HPC。通过E-HPC,用户可以自动化创建HPC集群,提供SLURM、PBS等常见调度器调度作业。

 

 

同时,E-HPC还提供完整的云上运维、监控、告警、报表等服务,与阿里云其他云产品无缝对接,能够实现完整业务流程上云。对用户来说,E-HPC可以安装部署软件,使用部署集创建hpc8ae实例集群,集成包含并行文件存储CPFS、无影可视化节点等其他云产品,从而端到端的提供包含前处理、后处理、仿真在内的完整CAE云上方案,简单易用。

 

 

 

高性能计算优化实例hpc8ae规格族正式商业化

 

 

阿里云的高性能计算优化实例hpc8ae规格族正式商业化发布,支持北京、上海、杭州地域的开放购买。

 




我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微博知乎

获取关于我们的更多信息~

相关文章
|
19天前
|
存储 人工智能 调度
阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求
在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。
|
14天前
|
存储 人工智能 大数据
阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求
在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。
|
21天前
|
存储 人工智能 弹性计算
对话阿里云吴结生:AI时代,云上高性能计算的创新发展
在阿里云智能集团副总裁,弹性计算产品线负责人、存储产品线负责人 吴结生看来,如今已经有很多行业应用了高性能计算,且高性能计算的负载正呈现出多样化发展的趋势,“当下,很多基础模型的预训练、自动驾驶、生命科学,以及工业制造、半导体芯片等行业和领域都应用了高性能计算。”吴结生指出。
|
19天前
|
机器学习/深度学习 人工智能 弹性计算
阿里云AI服务器价格表_GPU服务器租赁费用_AI人工智能高性能计算推理
阿里云AI服务器提供多种配置选项,包括CPU+GPU、CPU+FPGA等组合,支持高性能计算需求。本文汇总了阿里云GPU服务器的价格信息,涵盖NVIDIA A10、V100、T4、P4、P100等多款GPU卡,适用于人工智能、机器学习和深度学习等场景。详细价格表和实例规格见文内图表。
|
3月前
|
机器学习/深度学习 人工智能 弹性计算
阿里云AI服务器价格表_GPU服务器租赁费用_AI人工智能高性能计算推理
阿里云AI服务器提供多样化的选择,包括CPU+GPU、CPU+FPGA等多种配置,适用于人工智能、机器学习和深度学习等计算密集型任务。其中,GPU服务器整合高性能CPU平台,单实例可实现最高5PFLOPS的混合精度计算能力。根据不同GPU类型(如NVIDIA A10、V100、T4等)和应用场景(如AI训练、推理、科学计算等),价格从数百到数千元不等。详情及更多实例规格可见阿里云官方页面。
255 1
|
5月前
|
存储 弹性计算 网络协议
阿里云hpc8ae服务器ECS高性能计算优化型实例性能详解
阿里云ECS的HPC优化型hpc8ae实例搭载3.75 GHz AMD第四代EPYC处理器,配备64 Gbps eRDMA网络,专为工业仿真、EDA、地质勘探等HPC工作负载设计。实例提供1:4的CPU内存配比,支持ESSD存储和IPv4/IPv6,操作系统限于特定版本的CentOS和Alibaba Cloud Linux。ecs.hpc8ae.32xlarge实例拥有64核和256 GiB内存,网络带宽和eRDMA带宽均为64 Gbit/s。适用于CFD、FEA、气象预报等场景。
|
6月前
|
存储 机器学习/深度学习 网络协议
阿里云高性能计算实例规格族有哪些?各自特点、适用场景介绍
阿里云高性能计算是的阿里云服务器ECS的架构之一,高性能计算实例规格族主要应用于各种需要超高性能、网络和存储能力的应用场景,例如人工智能、机器学习、科学计算、地质勘探、气象预报等场景。高性能计算实例规格族有高性能计算优化型实例规格族hpc8ae、高性能计算优化型实例规格族hpc7ip、计算型超级计算集群实例规格族sccc7等。下面是阿里云高性能计算实例规格族特点、适用场景介绍。
阿里云高性能计算实例规格族有哪些?各自特点、适用场景介绍
|
6月前
|
存储 机器学习/深度学习 并行计算
阿里云服务器X86计算、Arm计算、GPU/FPGA/ASIC、高性能计算架构区别
在我们选购阿里云服务器的时候,云服务器架构有X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器、高性能计算可选,有的用户并不清楚他们之间有何区别,本文主要简单介绍下不同类型的云服务器有何不同,主要特点及适用场景有哪些。
阿里云服务器X86计算、Arm计算、GPU/FPGA/ASIC、高性能计算架构区别
|
存储 弹性计算 并行计算
在高性能计算(HPC)场景下,阿里云存储的文件存储产品的实践
在高性能计算(HPC)场景下,阿里云存储的文件存储产品具有以下的应用需求和实践
444 4
|
机器学习/深度学习 弹性计算 编解码
阿里云服务器架构弹性裸金属和超级计算集群有什么区别?
阿里云服务器架构弹性裸金属和超级计算集群有什么区别?
192 1
下一篇
无影云桌面