阿里云高性能计算HPC优化实例商业化发布详解

简介: 基于云的高性能计算(Cloud HPC),与传统HPC相比更加灵活、高效。

【阅读原文】戳:阿里云高性能计算HPC优化实例商业化发布详解

引言:本文整理自阿里云高性能计算产品负责人黄泽辉在【HPC优化实例商业化发布会】中的分享。

 

近日,全球领先的云计算厂商阿里云宣布最新HPC优化实例hpc8ae的正式商业化,该实例依托阿里云自研的「飞天+CIPU」架构体系,搭载第四代AMD EPYC处理器,专为高性能计算应用优化,特别适用于计算流体、有限元分析、多物理场模拟等仿真类应用,CAE场景下的性价比最少提升50%。

 

本文根据黄泽辉的主题分享整理而成。

 

 

高性能计算无所不在

 

 

过去多年,高性能计算在很多专业领域解决着各种各样的大型复杂计算问题,如分析地震数据、模拟汽车碰撞、设计药物靶点等等,以上的场景都需要巨大的计算能力才能够在可预期的时间内解决问题。

 

 

通过使用高性能计算能够有效加速科学研究发现的进展,帮助对日常使用的产品设计和研发上实现创新,高性能计算也成为了在当今社会无所不在且推动技术进步和经济发展的关键工具。

 

 

 

云上高性能计算正在加速普及

 

采用传统的自建线下HPC集群,采购及建设周期冗长,集群容量有限,在业务高峰时往往面临着资源不足和需要排队,浪费研发时间,集群硬件相对老旧,难更新,计算效率较低,性能上无法完全满足业务上的需求。这些都制约了高性能计算在全行业中发挥更大的作用。

 

 

基于云的高性能计算(Cloud HPC),与传统HPC相比更加灵活、高效。用户可以利用云计算多样化、最新、最符合业务需求的计算硬件,保证计算效率最高。并可以根据业务负载动态增加/减少计算资源。用户只用为已使用的资源付费,具有更好的成本效益;同时,不需要专业IT人员创建、部署集群,也不需要管理维护底层基础设施,用户使用起来更加简单和可靠。

 

 

Cloud HPC是一种更加普惠、更加民主化的HPC使用方式。任何一个初创企业,都可以通过云使用高性能计算,进行产品研发和设计,而不是只有大型企业/政府机构才具备这个能力。根据Hyperion Research的研究报告,2022年Cloud HPC的市场份额已经能够占到整个市场份额的17%,接下来的5年,都会以18%/年复合增长率继续快速增长。所以说,Cloud HPC正在加速普及,并成为线下超算的重要补充。

 

 

 

针对HPC工作负载专门优化云的基础设施

 

 

如何在云上开展高性能计算,是一件十分有挑战的事情。HPC作为计算机科学皇冠上的明珠,对于计算性能、存储性能、网络性能都有极高的要求。以工业仿真最常用的Fluent 软件为例,它属于计算密集型的应用,需要很高的CPU主频。同时它的性能也受内存带宽大小约束,只有内存带宽足够大,才能快速处理数据。

 

 

使用Fluent进行整车仿真时,需要多个节点并行计算。这些计算节点之间,必须要有低延时、高带宽的网络通信能力;计算集群使用的存储也必须需要有更强的I/O读写能力才能不阻塞计算的进行。云厂商目前更多考虑的还是互联网类的应用,性能更加通用和均衡,难以满足高性能计算的要求,特别是一些计算流体、气象预报等高精尖场景。

 

 

在摩尔定律逐渐放缓甚至失效的今天,已经很难只凭芯片的先进制程,来应对各行各业的算力爆发性增长。云计算厂商必须能够围绕特定的应用场景,比如典型的HPC、AI领域,来针对性优化云的基础设施。只有这样才能既最大限度的提升应用性能,又降低大规模使用的成本。

 

 

阿里云弹性计算技术持续创新

 

 

阿里云作为国内最早的云计算服务厂商,在过去十几年间。一直在持续不断的进行技术创新。从最早的Xen架构,KVM架构,演变到自主研发的神龙架构,以及最新专为数据中心研发的CIPU架构。对于这些产品技术,阿里云一直都是最成熟和领先的云服务商。借助这些技术创新,也成功的将高性能计算融入到云计算领域,满足所有主流HPC主流应用的性能需求。

 

 

从2017年的神龙架构开始,包括上汽、吉利在内的汽车行业客户,就开始在阿里云上进行云上的工业仿真。2021年发布的CIPU架构,能够让我们的客户,进一步用更低成本、更高效率、更大规模的方式来运行HPC业务,大大增强阿里云Cloud HPC的产品竞争力。

 

 

 

高性能计算优化实例hpc8ae规格族

 

 

基于CIPU架构,专为HPC设计和优化的高性能计算实例hpc8ae,采用第四代的AMD EPYC处理器,能够提供64个物理核心,256GiB内存,基础频率3.4GHz,最高可以到3.75,还有500GB/s的内存带宽优化。整体超强配置使得hpc8ae特别适用于包含计算流体、有线元分析在内的典型工业仿真应用。

 

 

与其他通用计算类实例不同的是,hpc8ae有两大专为HPC应用设计的重要功能特性:

 

第一,hpc8ae直接提供物理核心,性能更加稳定,而且不支持启用超线程,避免了超线程切换影响到HPC应用性能。虽然hpc8ae是虚拟机,但借助CIPU架构,虚拟机的性能基本零损耗,和物理机等同。和其他ECS企业级实例一样,hpc8ae的可靠性为99.975%,能够实现自动的故障切换和自愈恢复,非常稳定可靠。

 

第二,hpc8ae提供了高带宽、低延时,低抖动的eRDMA网络,最低时延达到8us。能够兼容传统的RDMA,应用的软件不需要改动可以直接使用。从应用的E2E的性能角度来说,eRDMA能在云上完全替代传统的RDMA网络,支持用户在阿里云的任意可用区,就可以构建云上大规模仿真集群,加速并行计算的任务。

 

依赖CIPU的强大性能和普惠特性,hpc8ae实例对CAE类应用至少实现50%以上性价比提升,是用户HPC工作负载的最佳选择。

 

 

 

全新CIPU架构提供高性能计算、网络和存储

 

 

作为阿里云弹性计算最重要的技术创新CIPU,即云基础设施的处理单元,它是一种DPU的实现,专门设计用来提高云计算的效率和安全。CIPU可以将包含虚拟化在内的网络、安全、存储等等,非计算密集型的任务卸载到一个专用的软硬件上,不占用主CPU处理能力,让其只应用于核心应用逻辑处理,大大提升整体云计算在网络、存储、性能以及安全方面的表现。

 

 

例如实例的存储IOPS可以达到300万,本盘接近零的延迟损耗,网络的PPS也可以到4000万水平。CIPU在阿里云已经得到了大规模应用,所有的CPU、GPU存储网络都是通过CIPU统一管理和调度。通过CIPU,阿里云在通用计算性能方面优于同类产品20%-60%,大数据AI也比同类产品高30%以上。同样的,在HPC领域,基于CIPU架构的hpc8ae实例也实现了大幅度的性能提升和成本优化。

 

 

 

免费eRDMA网络提供低延时、低抖动的节点通信

 

 

Cloud HPC另外一个关键点就是网络。传统的TCP/IP一直是业界主流的网络通信实例。很多应用都是基于TPC/IP构建,但是HPC的应用对于网络的性能,比如延迟、吞吐要求很高,TCP/IP的网络通信能力是一个瓶颈。传统的线下HPC集群会使用RDMA网络解决以上痛点,相比TCP/IP,eRDMA可以实现零拷贝,bypass内核等特性,可以减少频繁上下文切换带来的开销,实现低延迟,高吞吐的网络通信。

 

 

但是RDMA网络建设成本很高,受限于物理网络,它的扩展性和弹性能力也不足,因此无法在云上大规模使用。eRDMA是阿里云自研的云上弹性RDMA网络,底层链路复用VPC网络,利用CIPU卸载网络通信开销,bypass操作系统,并结合自研的拥塞算法可以提供最低8us的低时延,有着很多长尾抖动。通过对libfabric的支持,传统应用也不需要改动就能够直接使用。

 

 

和传统RDMA网络不同,阿里云的eRDMA网络基于数据中心的VPC网络,所以用户在阿里云的任何一个可用区,比如北京、上海,秒级实现大规模eRDMA组网。同时,为了保证所有计算节点的低延时网络通信性能,用户可以使用ECS部署集能力,来保证创建的hpc8ae实例紧凑放置。也就是说,同一个部署集的ECS实例,在创建时会保证物理距离接近,从而来保证eRDMA低延时通信效果。

 

 

 

CAE应用性能提升30%,性价比提升50%

 

 

了解hpc8ae的实例规格参数以及背后的技术创新之后,我们来看一下hpc8ae的具体性能表现如何:

 

 

使用常见的HPC软件进行单节点benchmark性能测试中,相比八代通用计算实例,专门优化的hpc8ae实例,WRF性能提升了40%,STAR-CCM提升了47%,Fluent提升了35%,普遍至少提升了30%以上。使用STAR-CCM+测试超过512核的多节点作业,应用性能基本上都可以实现线性提升,具有非常好的扩展效率。

 

 

 

使用E-HPC一键创建hpc8ae仿真集群

 

 

不仅是计算实例hpc8ae的超高性价比优势,阿里云还为hpc客户提供了功能完善的弹性高性能计算产品E-HPC。通过E-HPC,用户可以自动化创建HPC集群,提供SLURM、PBS等常见调度器调度作业。

 

 

同时,E-HPC还提供完整的云上运维、监控、告警、报表等服务,与阿里云其他云产品无缝对接,能够实现完整业务流程上云。对用户来说,E-HPC可以安装部署软件,使用部署集创建hpc8ae实例集群,集成包含并行文件存储CPFS、无影可视化节点等其他云产品,从而端到端的提供包含前处理、后处理、仿真在内的完整CAE云上方案,简单易用。

 

 

 

高性能计算优化实例hpc8ae规格族正式商业化

 

 

阿里云的高性能计算优化实例hpc8ae规格族正式商业化发布,支持北京、上海、杭州地域的开放购买。

 




我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关文章
|
1天前
|
IDE 搜索推荐 Devops
|
1天前
|
人工智能 并行计算 网络协议
|
15天前
|
存储 弹性计算 大数据
阿里云ECS以其强大的弹性计算与存储能力,为大数据处理提供了灵活、高效、成本优化的解决方案
阿里云ECS在大数据处理中发挥关键作用,提供多样化实例规格适应不同需求,如大数据型实例适合离线计算。ECS与OSS集成实现大规模存储,通过Auto Scaling动态调整资源,确保高效运算。案例显示,使用ECS处理TB级数据,速度提升3倍,成本降低40%,展现其在弹性、效率和成本优化方面的优势。结合阿里云生态系统,ECS助力企业数据驱动创新。
31 1
|
19天前
|
存储 弹性计算 网络协议
阿里云hpc8ae服务器ECS高性能计算优化型实例性能详解
阿里云ECS的HPC优化型hpc8ae实例搭载3.75 GHz AMD第四代EPYC处理器,配备64 Gbps eRDMA网络,专为工业仿真、EDA、地质勘探等HPC工作负载设计。实例提供1:4的CPU内存配比,支持ESSD存储和IPv4/IPv6,操作系统限于特定版本的CentOS和Alibaba Cloud Linux。ecs.hpc8ae.32xlarge实例拥有64核和256 GiB内存,网络带宽和eRDMA带宽均为64 Gbit/s。适用于CFD、FEA、气象预报等场景。
|
20天前
|
敏捷开发 缓存 前端开发
阿里云云效产品使用问题之流水线构建前端项目比较慢。该如何优化
云效作为一款全面覆盖研发全生命周期管理的云端效能平台,致力于帮助企业实现高效协同、敏捷研发和持续交付。本合集收集整理了用户在使用云效过程中遇到的常见问题,问题涉及项目创建与管理、需求规划与迭代、代码托管与版本控制、自动化测试、持续集成与发布等方面。
|
2天前
|
SQL 运维 监控
|
2天前
|
监控 网络安全 定位技术
|
23天前
|
NoSQL Java 数据库
优化基于阿里云的微服务架构下的数据库访问性能
在应对大型电商项目中数据库访问性能瓶颈问题时,团队通过阿里云工具分析发现高QPS、慢查询和不合理数据交互是关键。优化措施包括:1) 索引优化,针对慢查询添加或调整索引;2) 开启读写分离,使用RDS读写分离功能和DRDS进行水平拆分;3) 引入Redis缓存热点数据,减少直接数据库访问;4) 服务化数据访问,降低跨服务数据库调用;5) 使用Sentinel进行限流和熔断,保护数据库资源。这些改进显著提升了系统响应速度和用户体验。
|
1天前
|
弹性计算 Linux 网络安全
使用阿里云服务器迁移中心SMC将其他云平台业务迁移至阿里云教程参考
现在越来越多的个人和企业用户选择将其他云平台或者服务商的业务迁移到阿里云,但是如何快速且安全完成迁移是很多用户比较关注的问题,我们可以选择使用阿里云提供的服务器迁移中心(Server Migration Center,简称SMC),这个产品是阿里云提供给您的迁移平台,专注于提供能力普惠、体验一致、效率至上的迁移服务,满足您在阿里云的迁移需求。本文为大家展示使用阿里云服务器迁移中心SMC将其他云平台业务迁移至阿里云的教程,以供参考。
使用阿里云服务器迁移中心SMC将其他云平台业务迁移至阿里云教程参考

热门文章

最新文章