阿里云hpc8ae实例商业化发布详解

本文涉及的产品
云服务器 ECS,u1 2核4GB 3个月
云服务器 ECS,u1 4核8GB 1个月
云服务器 ECS,每月免费额度200元 3个月
简介: 近日,全球领先的云计算厂商阿里云宣布最新HPC优化实例hpc8ae的正式商业化,该实例依托阿里云自研的「飞天+CIPU」架构体系,搭载第四代AMD EPYC处理器,专为高性能计算应用优化,特别适用于计算流体、有限元分析、多物理场模拟等仿真类应用,CAE场景下的性价比最少提升50%。

引言:近日,全球领先的云计算厂商阿里云宣布最新HPC优化实例hpc8ae的正式商业化,该实例依托阿里云自研的「飞天+CIPU」架构体系,搭载第四代AMD EPYC处理器,专为高性能计算应用优化,特别适用于计算流体、有限元分析、多物理场模拟等仿真类应用,CAE场景下的性价比最少提升50%。


本文根据黄泽辉的主题分享整理而成。


高性能计算无所不在


过去多年,高性能计算在很多专业领域解决着各种各样的大型复杂计算问题,如分析地震数据、模拟汽车碰撞、设计药物靶点等等,以上的场景都需要巨大的计算能力才能够在可预期的时间内解决问题。



通过使用高性能计算能够有效加速科学研究发现的进展,帮助对日常使用的产品设计和研发上实现创新,高性能计算也成为了在当今社会无所不在且推动技术进步和经济发展的关键工具。

 

云上高性能计算正在加速普及

 

采用传统的自建线下HPC集群,采购及建设周期冗长,集群容量有限,在业务高峰时往往面临着资源不足和需要排队,浪费研发时间,集群硬件相对老旧,难更新,计算效率较低,性能上无法完全满足业务上的需求。这些都制约了高性能计算在全行业中发挥更大的作用。



基于云的高性能计算(Cloud HPC),与传统HPC相比更加灵活、高效。用户可以利用云计算多样化、最新、最符合业务需求的计算硬件,保证计算效率最高。并可以根据业务负载动态增加/减少计算资源。用户只用为已使用的资源付费,具有更好的成本效益;同时,不需要专业IT人员创建、部署集群,也不需要管理维护底层基础设施,用户使用起来更加简单和可靠。


Cloud HPC 是一种更加普惠、更加民主化的HPC使用方式。任何一个初创企业,都可以通过云使用高性能计算,进行产品研发和设计,而不是只有大型企业/政府机构才具备这个能力。根据Hyperion Research的研究报告,2022年Cloud HPC的市场份额已经能够占到整个市场份额的17%,接下来的5年,都会以18%/年复合增长率继续快速增长。 所以说, Cloud HPC 正在加速普及,并成为线下超算的重要补充。

 

针对HPC工作负载专门优化云的基础设施

 

如何在云上开展高性能计算,是一件十分有挑战的事情。HPC作为计算机科学皇冠上的明珠,对于计算性能、存储性能、网络性能都有极高的要求。以工业仿真最常用的Fluent 软件为例,它属于计算密集型的应用,需要很高的CPU主频。同时它的性能也受内存带宽大小约束,只有内存带宽足够大,才能快速处理数据。



使用 Fluent进行整车仿真时,需要多个节点并行计算。这些计算节点之间,必须要有低延时、高带宽的网络通信能力;计算集群使用的存储也必须需要有更强的I/O读写能力才能不阻塞计算的进行。云厂商目前更多考虑的还是互联网类的应用,性能更加通用和均衡,难以满足高性能计算的要求,特别是一些计算流体、气象预报等高精尖场景。

在摩尔定律逐渐放缓甚至失效的今天,已经很难只凭芯片的先进制程,来应对各行各业的算力爆发性增长。云计算厂商必须能够围绕特定的应用场景,比如典型的HPC、AI领域,来针对性优化云的基础设施。只有这样才能既最大限度的提升应用性能,又降低大规模使用的成本。

 

阿里云弹性计算技术持续创新

 

阿里云作为国内最早的云计算服务厂商,在过去十几年间。一直在持续不断的进行技术创新。从最早的Xen架构,KVM架构,演变到自主研发的神龙架构,以及最新专为数据中心研发的CIPU架构。对于这些产品技术,阿里云一直都是最成熟和领先的云服务商。借助这些技术创新,也成功的将高性能计算融入到云计算领域,满足所有主流HPC主流应用的性能需求。



从2017年的神龙架构开始,包括上汽、吉利在内的汽车行业客户,就开始在阿里云上进行云上的工业仿真。2021年发布的CIPU架构,能够让我们的客户,进一步用更低成本、更高效率、更大规模的方式来运行 HPC 业务,大大增强阿里云Cloud HPC的产品竞争力。

 

高性能计算优化实例hpc8ae规格族

 

基于CIPU架构,专为HPC设计和优化的高性能计算实例hpc8ae,采用第四代的AMD EPYC处理器,能够提供64个物理核心,256GiB内存,基础频率3.4GHz,最高可以到3.75,还有500GB/s的内存带宽优化。整体超强配置使得hpc8ae特别适用于包含计算流体、有线元分析在内的典型工业仿真应用。



与其他通用计算类实例不同的是,hpc8ae有两大专为HPC应用设计的重要功能特性:


第一,hpc8ae直接提供物理核心,性能更加稳定,而且不支持启用超线程,避免了超线程切换影响到HPC应用性能。虽然hpc8ae是虚拟机,但借助CIPU架构,虚拟机的性能基本零损耗,和物理机等同。和其他 ECS 企业级实例一样,hpc8ae 的可靠性为99.975%,能够实现自动的故障切换和自愈恢复,非常稳定可靠。


第二,hpc8ae提供了高带宽、低延时,低抖动的eRDMA网络,最低时延达到8us。能够兼容传统的 RDMA ,应用的软件不需要改动可以直接使用。从应用的 E2E 的性能角度来说,eRDMA能在云上完全替代传统的 RDMA 网络,支持用户在阿里云的任意可用区,就可以构建云上大规模仿真集群,加速并行计算的任务。


依赖 CIPU 的强大性能和普惠特性,hpc8ae实例对CAE类应用至少实现50%以上性价比提升,是用户HPC工作负载的最佳选择。

 

全新CIPU架构提供高性能计算、网络和存储

 

作为阿里云弹性计算最重要的技术创新CIPU,即云基础设施的处理单元,它是一种DPU 的实现,专门设计用来提高云计算的效率和安全。CIPU可以将包含虚拟化在内的网络、安全、存储等等,非计算密集型的任务卸载到一个专用的软硬件上,不占用主CPU处理能力,让其只应用于核心应用逻辑处理,大大提升整体云计算在网络、存储、性能以及安全方面的表现。



例如实例的存储IOPS可以达到300万,本盘接近零的延迟损耗,网络的PPS也可以到4000万水平。CIPU在阿里云已经得到了大规模应用,所有的CPU、GPU存储网络都是通过CIPU统一管理和调度。通过CIPU,阿里云在通用计算性能方面优于同类产品20%-60%,大数据AI也比同类产品高30%以上。同样的, 在 HPC领域,基于CIPU架构的 hpc8ae实例也实现了大幅度的性能提升和成本优化。

 

免费eRDMA网络提供低延时、低抖动的节点通信

 

Cloud HPC另外一个关键点就是网络。传统的TCP/IP一直是业界主流的网络通信实例。很多应用都是基于TPC/IP构建,但是HPC的应用对于网络的性能,比如延迟、吞吐要求很高,TCP/IP的网络通信能力是一个瓶颈。传统的线下HPC集群会使用 RDMA 网络解决以上痛点,相比TCP/IP,eRDMA可以实现零拷贝,bypass内核等特性,可以减少频繁上下文切换带来的开销,实现低延迟,高吞吐的网络通信。



但是RDMA网络建设成本很高,受限于物理网络,它的扩展性和弹性能力也不足,因此无法在云上大规模使用。eRDMA是阿里云自研的云上弹性RDMA网络,底层链路复用VPC网络,利用CIPU卸载网络通信开销,bypass操作系统,并结合自研的拥塞算法可以提供最低8us的低时延,有着很多长尾抖动。通过对libfabric 的支持,传统应用也不需要改动就能够直接使用。


和传统RDMA网络不同,阿里云的eRDMA网络基于数据中心的VPC网络,所以用户在阿里云的任何一个可用区,比如北京、上海,秒级实现大规模eRDMA组网。同时,为了保证所有计算节点的低延时网络通信性能,用户可以使用ECS部署集能力,来保证创建的hpc8ae 实例紧凑放置。也就是说,同一个部署集的ECS 实例,在创建时会保证物理距离接近,从而来保证eRDMA低延时通信效果。

 

CAE应用性能提升30%,性价比提升50%

 

了解hpc8ae的实例规格参数以及背后的技术创新之后,我们来看一下hpc8ae的具体性能表现如何:



使用常见的HPC软件进行单节点benchmark 性能测试中,相比八代通用计算实例,专门优化的hpc8ae实例,WRF性能提升了40%,STAR-CCM提升了47%,Fluent提升了35%,普遍至少提升了30%以上。使用STAR-CCM+测试超过512核的多节点作业,应用性能基本上都可以实现线性提升,具有非常好的扩展效率。

 

使用E—HPC一键创建hpc8ae仿真集群

 

不仅是计算实例hpc8ae的超高性价比优势,阿里云还为hpc客户提供了功能完善的弹性高性能计算产品E-HPC。通过E-HPC,用户可以自动化创建HPC集群,提供SLURM、PBS等常见调度器调度作业。



同时,E-HPC还提供完整的云上运维、监控、告警、报表等服务,与阿里云其他云产品无缝对接,能够实现完整业务流程上云。对用户来说,E-HPC可以安装部署软件,使用部署集创建hpc8ae实例集群,集成包含并行文件存储CPFS、无影可视化节点等其他云产品,从而端到端的提供包含前处理、后处理、仿真在内的完整CAE云上方案,简单易用。

 

高性能计算优化实例hpc8ae规格族正式商业化

 

阿里云的高性能计算优化实例hpc8ae规格族正式商业化发布,支持北京、上海、杭州地域的开放购买。


 

相关文章
|
16小时前
|
人工智能 并行计算 网络协议
|
2天前
|
弹性计算 供应链 并行计算
阿里云ECS服务器五种计费模式有啥区别?包年包月、按量付费、抢占式实例、节省计划和预留实例券
阿里云服务器计费多样化:包年包月适合长期稳定服务,如Web网站;按量付费适合短期或波动需求,如测试、扩展;抢占式实例享折扣但可能被释放,适合无状态任务;预留实例券抵扣按量付费账单;节省计划提供资源使用承诺的折扣,适用于用量稳定的业务。
|
9天前
|
存储 编解码 网络协议
阿里云服务器计算型和通用型四代云服务器实例区别及选择参考
目前阿里云在售的云服务器中,计算型和通用型实例规格都包含了第5代、第6代、第7代和最新第八代倚天云服务器产品,例如计算型实例中有c5、c6、c7、c8y实例,而通用型实例有g5、g6、g7、g8y等实例,有的新手用户并不清楚这四代产品之间的差别,本文为大家展示这四代云服务器实例在规格、CPU(核)、内存(G)、计算、存储、内存以及不同配置的指标数据等方面为大家做个对比,让大家了解一下他们之间的不同,以供参考和选择。
阿里云服务器计算型和通用型四代云服务器实例区别及选择参考
|
14天前
|
存储 弹性计算 大数据
阿里云ECS在大数据处理中展现高效存储与计算实力,提供多样化实例规格适应不同需求
【7月更文挑战第3天】阿里云ECS在大数据处理中展现高效存储与计算实力,提供多样化实例规格适应不同需求,如大数据型实例配备高吞吐硬盘。与OSS集成实现大规模存储,通过Auto Scaling动态调整资源,确保任务高效运行。案例显示,使用ECS能提升处理速度、降低成本,为企业数据驱动创新提供有力支持。
32 1
|
14天前
|
存储 弹性计算 人工智能
阿里云服务器五代、六代、七代、八代实例区别及选择参考
目前阿里云服务器的实例规格经过多次升级之后,最新一代已经升级到第八代实例,当下主售的云服务器实例规格也以七代和八代云服务器为主,对于初次接触阿里云服务器实例规格的用户来说,可能并不是很清楚阿里云服务器五代、六代、七代、八代实例有哪些,他们之间有何区别,下面小编为大家介绍下阿里云五代、六代、七代、八代云服务器实例规格分别有哪些以及每一代云服务器在性能方面具体有哪些提升,以供大家参考和了解。
阿里云服务器五代、六代、七代、八代实例区别及选择参考
|
14天前
|
弹性计算 供应链 并行计算
阿里云ECS包年包月、按量付费、抢占式实例、节省计划和预留实例券付费类型详细说明
阿里云服务器计费多样化:包年包月适合长期服务,预付费且划算;按量付费适合短期项目,后付费、按小时结算;抢占式实例享折扣但可能被释放,适合无状态任务;预留实例券抵扣按量付费账单;节省计划提供承诺使用量的折扣,适用于资源用量稳定或周期性变化的业务。
16 0
|
1天前
|
安全 Linux 网络安全
|
2天前
|
运维 安全 数据挖掘
阿里云轻量应用服务器82元和298元与云服务器99元和199元简介
目前阿里云推出了几款价格极为实惠的轻量应用服务器和云服务器产品,轻量应用服务器有2核2G3M 50GB高效云盘,价格为82元1年;2核4G4M 60GB高效云盘,价格为298元1年;经济型e实例2核2G,40G ESSD Entry盘,3M带宽,价格为99元1年;通用算力型u1实例2核4G,80G ESSD Entry盘,5M带宽,价格为199元1年。这几款云服务器究竟如何?本文将为您进行详细分析,以供参考。
阿里云轻量应用服务器82元和298元与云服务器99元和199元简介
|
7天前
|
存储 关系型数据库 数据库
给阿里云的建议和意见 一个云服务器架构是否可行
摘要(Markdown格式): 在修复阿里云服务器IPv4设置错误时遇到困难,导致服务器远程登录失败及外网访问受阻,耗时三天解决。建议阿里云更新文档,确保设置指导与实际情况一致,例如只需在路由表添加条目关联IPv4。此外,建议优化帮助页面,如采用折叠式设计减少干扰。服务器主要任务是数据分析、存储和分发,文中提出简化服务器框架,消除硬件软件复杂配置,利于初学者和独立开发者快速上手,降低时间成本。该设计旨在减少无用组件,节省资源,同时降低云服务商的人力和支持成本。期望云服务商考虑此类架构创新。目前未知是否有类似产品,期待业界反馈。
374 0
给阿里云的建议和意见 一个云服务器架构是否可行
|
8天前
|
弹性计算 网络安全 数据安全/隐私保护
阿里云服务器新手入门:注册账号、实名认证申请免费云服务器全流程
注册阿里云账号,选择注册方式如密码、扫码或手机号,并完成验证码验证。接着进行实名认证,提供必要个人信息或企业证件。然后,在控制台选择云服务器ECS,点击“免费试用”申请,配置实例并设置登录密码。创建后,通过远程连接工具如SSH登录,开始使用服务器进行软件安装、应用部署等操作。阿里云提供详细文档支持。别忘了点击链接以直接试用。
31 0