阿里云贺荣徽:阿里云弹性高性能计算E-HPC产品介绍

简介: 全方位了解阿里云EHPC

导语2022920日,“阿里云EDA上云解决方案”节目正式上线,三位来自阿里云的专家从多个角度带大家了解阿里云如何助力芯片设计驶入“云端高速路”。阿里云高性能计算高级技术专家-贺荣徽带来了题为《阿里云弹性高性能计算E-HPC产品介绍》的主题分享,以下是他的演讲内容整理,供阅览:

图片1.jpg

一、弹性高性能计算E-HPC产品概述

1. E-HPC产品设计出发点

弹性高性能计算E-HPC产品旨在帮助客户在云上快速搭建HPC环境,并充分体验云服务的优势。

图片2.png

E-HPC产品设计主要考虑以下三个方面:

  • HPC客户的理解构建云上超算环境:客户对HPC环境的理解是一个部署好相应软件的紧耦合集群,而不是离散的服务器、存储网络;
  • HPC客户的习惯提供超算服务:客户对HPC使用有长期固化的业务工作流,云服务需要匹配其现有的使用流程;
  • 组合服务能力提供新模式/新体验:通过云服务的特点,提供线下HPC不常见或不存在的模式,形成云超算的特征。

2. HPC产品解决方案视图

图片3.png

 

  • 集群资源生命周期管理:包括集群创建、集群扩缩容、基于应用负载的自动伸缩、集群管理与运维;
  • 集群作业管理与调度:包括调度器管理与配置、作业调度、作业负载监控与报表、第三方调度器集成、云上云下混合调度;
  • ISV应用软件与运行环境管理:包括应用软件部署、集群账户管理、Estack
  • E-HPC性能服务:包括性能数据可视化、性能剖析和优化、数据缓存;

 

最后,通过OpenAPI的方式提供业务入口,用户可以通过云桌面或本地客户端来使用E-HPC服务。

 

二、E-HPC产品功能

E-HPC产品主要有四大功能:集群管理、自动伸缩、业务报表和性能分析。

图片4.png

 

集群管理:以HPC集群的方式帮助客户编排、使用云上IaaS资源,包括:

  • 集群资源管理;
  • 集群用户管理;
  • 集群作业与调度器管理;
  • 云上云下资源打通;

自动伸缩:根据HPC作业负载实际需求,动态伸缩集群资源,包括:

  • 作业负载检测与统计;
  • 资源加入/离开调度器;
  • 多种维度的伸缩策略;

业务报表:监控HPC集群维度的业务数据,形成时序图表和统计报表,包括:

  • HPC作业实时监控与统计;
  • HPC集群资源监控与统计;
  • 作业/资源运行事件通知与告警联动;

性能分析:针对HPC作业进行硬件级、进程级及函数级的性能分析与性能报告,包括:

  • HPC作业性能监控;
  • HPC作业性能剖析;


1. E-HPC集群管理

E-HPC提供集群资源创建、部署、集群节点状态管理等集群管理服务。

 

图片5.png

 

如图,左侧是常见的集群图,包括:图形节点、头节点、计算节点和文件存储;图右是将集群对应到云上,结合阿里云服务组件:ECS实例、GPU实例、无影云桌面,在E-HPC控制台一键创建集群。


E-HPC管控服务帮助客户管理一个地域下一个或多个集群,监控集群状态,实现报表、告警、性能剖析等业务。

 

2. E-HPC集群资源扩缩容

F-HPC的集群资源扩缩容分为两种:手动扩缩容和自动扩缩容。

 

  • 手动扩缩容:由用户指定所需要的资源类型和数量直接扩容,E-HPC会负责创建对应的资源,并完成相关的软件部署、加入调度器对应队列、设置资源状态可用等操作;缩容时也会完成调度器的相应配置,从调度器清理相关计算节点信息等操作;
  • 自动扩缩容:会与调度器结合,自动伸缩的触发不需要用户直接参与,用户只需要配置好自动伸缩策略,E-HPC会与调度器打通感知作业负载,按照配置好的策略进行扩缩容。

图片6.png

 

自动伸缩最佳实践:https://help.aliyun.com/document_detail/257919.html

 

负载感知:

  • 感知并行资源需求:核数、节点数、内存、GPU等;
  • 感知并行管理需求:需扩容的队列、vnode等;
  • 阈值限定:用户资源上限、集群资源上限、队列资源上限等;
  • 调度策略:调度优先级、作业间依赖关系限制等;


E-HPC提供多种扩容策略,包括:

  • 扩容实例规格优先级;
  • AZ/跨地域;
  • 分队列扩容;
  • 分批次扩容;
  • 扩容等待时间;
  • 保留实例;
  • 自动回收等待时间/等待策略;
  • 成本优化;
  • 库存策略;
  •  ……

 

3. E-HPC集群事件监控与业务报表

 

由于E-HPC服务和HPC调度器紧密结合,E-HPC可以将调度器层面、作业层面的细粒度事件生成监控数据和报表数据,方便用户分析业务状态,获取业务瓶颈,优化业务流程。

图片7.png

 

基于事件实现扩容水位超量告警:https://help.aliyun.com/document_detail/450081.html

 

4. E-HPC混合集群方案(云下管控为主)

 

在以云下管控为主的组网方案中,头节点在线下机房,E-HPC负责与线下机房调度器打通,实现根据调度器负载扩缩容云上资源的能力。


同样,客户可以选择手动扩缩容,E-HPC根据客户需求将云上的计算节点进行扩展并加入线下调度器。

 

图片8.png

代理模式架构图


a.  方案特点

  • 习惯一致:原有本地HPC 集群无需变更,不改变原有用户使用习惯及调度器脚本;
  • 一键创建:云上一键创建E-HPC 集群,Proxy 节点代管理云上资源,融合云上自动伸缩及报表服务;
  • 弹性伸缩:业务高峰期扩容线上资源,按需计费;业务低谷线上资源自动释放,节省成本;

b.  适用场景

继续使用原线下机房的已有HPC集群,基于业务的高峰低谷来进行云上资源的灵活扩容即释放,快速供应并节省成本。

 

创建混合云集群:https://help.aliyun.com/document_detail/84850.html

 

5. E-HPC混合集群方案(云上管控为主)

以云上管控为主的组网方案被称作纳管线下节点,以云上HPC集群为主集群,头节点和登录节点都在云上,线下节点作为辅助和利旧。

 

图片9.png

主控模式架构图

 

a.  方案特点

  • 云上代运维:云上E-HPC 管控,HPC调度器维度的资源管理,节省线下集群的运维成本;
  • 纳管云下:云上一键创建E-HPC 集群,纳管本地线下计算资源,利旧原线下设备;
  • 弹性伸缩:业务高峰扩容线上资源,按需计费;业务低谷线上资源自动释放,节省成本;

b.  适用场景

原有线下机房HPC集群资源老旧,希望弹性灵活使用云上资源,逐步向云上过渡,同时纳管原有线下计算资源,高效节省成本。


混合云主控模式最佳实践:https://help.aliyun.com/document_detail/451757.html

 

6. E-HPC集群调度器兼容方案

E-HPC提供了调度器插件作为平台的外扩组件,在E-HPC现有调度器类型或版本不满足当前业务时,客户可以通过该插件构建自定义调度器并接入E-HPC平台的能力。


通过插件机制实现第三方/商业调度器集成:

  • E-HPC管控通过插件框架接口进行集群管理,包括作业管理、资源管理、负载监控、扩缩容等;
  • 插件代码自定义实现插件框架定义函数,完成与调度器的适配;
  • E-HPC集群创建流程支持自定义插件安装部署
  • 支持通过配置文件方式配置插件支持的功能
  • E-HPC提供插件模版及PBSLSF等调度器插件样例。

 

图片10.png

E-HPC集群调度器插件:https://help.aliyun.com/document_detail/424726.html

 

以上就是我本次的分享,谢谢大家。


点击这里,观看嘉宾精彩视频回放。

相关文章
|
1月前
|
存储 人工智能 弹性计算
产品技术能力飞跃,阿里云E-HPC荣获“CCF 产品创新奖”!
9月24日,在中国计算机学会举办的“2024 CCF 全国高性能计算学术年会”中,阿里云弹性高性能计算(E-HPC)荣获「 CCF HPC China 2024 产品创新奖」。这也是继 2022 年之后,阿里云E-HPC 再次荣获此奖项,代表着阿里云在云超算领域的持续创新结果,其产品能力和技术成果得到了业界的一致认可。
101039 61
|
14天前
|
存储 人工智能 调度
阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求
在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。
|
9天前
|
存储 人工智能 大数据
阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求
在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。
|
16天前
|
存储 人工智能 弹性计算
对话阿里云吴结生:AI时代,云上高性能计算的创新发展
在阿里云智能集团副总裁,弹性计算产品线负责人、存储产品线负责人 吴结生看来,如今已经有很多行业应用了高性能计算,且高性能计算的负载正呈现出多样化发展的趋势,“当下,很多基础模型的预训练、自动驾驶、生命科学,以及工业制造、半导体芯片等行业和领域都应用了高性能计算。”吴结生指出。
|
13天前
|
机器学习/深度学习 人工智能 弹性计算
阿里云AI服务器价格表_GPU服务器租赁费用_AI人工智能高性能计算推理
阿里云AI服务器提供多种配置选项,包括CPU+GPU、CPU+FPGA等组合,支持高性能计算需求。本文汇总了阿里云GPU服务器的价格信息,涵盖NVIDIA A10、V100、T4、P4、P100等多款GPU卡,适用于人工智能、机器学习和深度学习等场景。详细价格表和实例规格见文内图表。
|
1月前
|
存储 人工智能 弹性计算
产品技术能力飞跃,阿里云E-HPC荣获“CCF 产品创新奖”!
9月24日,在中国计算机学会举办的“2024 CCF全国高性能计算学术年会”中,阿里云弹性高性能计算(E-HPC)荣获「CCF HPC China 2024产品创新奖」。这也是继2022年之后,阿里云E-HPC再次荣获此奖项,代表着阿里云在云超算领域的持续创新结果,其产品能力和技术成果得到了业界的一致认可。
|
3月前
|
机器学习/深度学习 人工智能 弹性计算
阿里云AI服务器价格表_GPU服务器租赁费用_AI人工智能高性能计算推理
阿里云AI服务器提供多样化的选择,包括CPU+GPU、CPU+FPGA等多种配置,适用于人工智能、机器学习和深度学习等计算密集型任务。其中,GPU服务器整合高性能CPU平台,单实例可实现最高5PFLOPS的混合精度计算能力。根据不同GPU类型(如NVIDIA A10、V100、T4等)和应用场景(如AI训练、推理、科学计算等),价格从数百到数千元不等。详情及更多实例规格可见阿里云官方页面。
241 1
|
5月前
|
存储 弹性计算 网络协议
阿里云hpc8ae服务器ECS高性能计算优化型实例性能详解
阿里云ECS的HPC优化型hpc8ae实例搭载3.75 GHz AMD第四代EPYC处理器,配备64 Gbps eRDMA网络,专为工业仿真、EDA、地质勘探等HPC工作负载设计。实例提供1:4的CPU内存配比,支持ESSD存储和IPv4/IPv6,操作系统限于特定版本的CentOS和Alibaba Cloud Linux。ecs.hpc8ae.32xlarge实例拥有64核和256 GiB内存,网络带宽和eRDMA带宽均为64 Gbit/s。适用于CFD、FEA、气象预报等场景。
|
5月前
|
存储 弹性计算 网络协议
阿里云高性能计算HPC优化实例商业化发布详解
基于云的高性能计算(Cloud HPC),与传统HPC相比更加灵活、高效。
|
6月前
|
存储 机器学习/深度学习 网络协议
阿里云高性能计算实例规格族有哪些?各自特点、适用场景介绍
阿里云高性能计算是的阿里云服务器ECS的架构之一,高性能计算实例规格族主要应用于各种需要超高性能、网络和存储能力的应用场景,例如人工智能、机器学习、科学计算、地质勘探、气象预报等场景。高性能计算实例规格族有高性能计算优化型实例规格族hpc8ae、高性能计算优化型实例规格族hpc7ip、计算型超级计算集群实例规格族sccc7等。下面是阿里云高性能计算实例规格族特点、适用场景介绍。
阿里云高性能计算实例规格族有哪些?各自特点、适用场景介绍

相关产品

  • 弹性高性能计算