阿里云超算集群报表:高效管理计算资源

简介: 弹性高性能计算(E-HPC)基于阿里云基础设施,为用户提供公共云之上的HPC服务。与传统HPC有限计算资源不同的是,E-HPC通过利用云的弹性可以做到资源的动态伸缩,从而根据实时的作业负载情况调整硬件计算资源,自动优化用户的成本资源。 集群管理员最为关心的应该是集群计算资源的利用率。传统超算往往是自建机房,一旦落成,核时数就随着时间线性增长。相较于传统超算的“静态”资源,云上的“动态”资源调

弹性高性能计算(E-HPC)基于阿里云基础设施,为用户提供公共云之上的HPC服务。与传统HPC有限计算资源不同的是,E-HPC通过利用云的弹性可以做到资源的动态伸缩,从而根据实时的作业负载情况调整硬件计算资源,自动优化用户的成本资源。

集群管理员最为关心的应该是集群计算资源的利用率。传统超算往往是自建机房,一旦落成,核时数就随着时间线性增长。相较于传统超算的“静态”资源,云上的“动态”资源调度就显得更加灵活。尤其是配合Spot实例,可以帮助用户大大地降低成本。为了更加直观地获取这些“动态”资源的使用情况,E-HPC的报表功能就呼之欲出了。

E-HPC报表简介

E-HPC报表通过整合用户的作业执行情况,结合用户集群的硬件资源配置,分别从用户、队列和实例维度进行统计,将计算资源的利用率直观地呈现给用户,帮助用户更好地进行计算资源的划分和调度,提升计算节点的利用率,降低成本。

总览

image-20191226095831022的副本.png

上图是从用户角度呈现集群的总体利用率,右侧是指定用户在查询时间内已完成的作业。此时如果发现集群的空闲率较高,就可以考虑将空闲节点分配给利用率高(计算需求大)的用户,或者可以将部分空闲节点释放,降低计算资源的浪费。如上图,userNo1的利用率约为16%,userNo2的利用率约为12%,而集群的空闲率约为71%。如果此时userNo1或者userNo2有很多等待资源的排队作业,用户就可以将空闲节点暂时划分给两个用户,加大他们的资源数量,缩短作业处理周期。

手动进行资源编排来提升利用率是管理“静态”资源的有效方式,但是“动态”资源还有更有效的方式,就是E-HPC的自动伸缩。不同于手动调整资源,自动伸缩可以自行帮助用户进行计算节点的申请和释放。因此当集群中没有排队作业,但仍有空闲节点时,自动伸缩将会按照用户配置的规则来决定如何释放空闲节点,从而降低集群中节点的空置率。当集群中有等待计算资源的排队作业时,自动伸缩就可以动态的根据作业负载和用户配置的策略来扩容,快速处理作业。

下图就是从节点维度呈现自动伸缩管理节点的使用情况。横轴是时间,图中每个实例的长度表示当前实例的生命周期。实例的生命周期是从实例创建成功开始,到实例被释放或者查询结束时间为止。如果用户开启自动伸缩,节点维度的报表就可以清楚呈现扩容实例的生命周期,用户可以据此来调整自己的配置,避免不必要的浪费。

image-20191226102329110的副本.png

例如,上图中compute002、compute004-008节点均是由自动伸缩创建的,可以看到这些节点的实际利用率约为44%。右侧是实例compute004上运行的作业详细信息。两者比对我们发现异常:作业运行结束至该实例释放用时约8分钟。这段时间内实例没有任何负载,一直处于空闲状态,因此应该被压缩。我们可以在自动伸缩的配置中减小释放实例的查询次数和每轮的查询时间,从而加速空闲实例的释放。

主要架构

目前E-HPC已支持包括PBS Pro、Deadline和Slurm等8种调度器。为了适配不同的调度器,我们对报表功能进行模块化设计,从而提升其兼容性。如下图所示。

image-20191221153345984_副本.png

数据采集

我们在用户集群的管理节点通过定时查询的方式获取作业的相关执行情况,并存储在用户管控节点的数据库中。由于不同的调度器对历史作业的保留方式不同,因此需要针对不同的调度器进行不同的处理。例如PBS Pro会维护一个作业日志文件并定期更新数据;Deadline调度器需要使用GetJobDetails手动获取历史作业信息。因此我们在用户的管控节点设置一个定时任务从调取器中获取历史作业信息并记录在数据库中。

数据处理

由于作业信息中不包含实例的具体配置,并且作业之间是离散的,因此我们结合管控端存储的实例信息来计算集群的核时比。并且从用户、队列和实例维度分别统计,从而更加直观地帮助用户了解查询时间内集群的使用情况。

数据呈现

前端主要是响应用户的请求,并且将管控端的计算结果呈现给用户。

总结

E-HPC报表旨在帮助用户更加直观的了解掌握集群的使用情况,从而更好的进行资源调度,提升计算节点的利用率,降低成本。并且通过报表的数据呈现,也可以帮助我们量化E-HPC缩扩容时的额外开销,推动我们不断优化缩扩容流程,为用户提供更好的服务!

相关文章
|
6天前
|
存储 运维 监控
服务器高效运维管理方案
智能运维作为保障业务连续性和提升系统性能的关键环节,其重要性日益凸显。服务器作为承载各类应用与数据的核心基础设施,其稳定性、安全性和性能直接关系到企业的业务运行效率和用户体验
18 1
|
1月前
|
存储 弹性计算 SDN
企业级 ECS 集群的构建需要综合考虑多个因素,通过不断的比较和对比不同的方案,选择最适合企业自身需求和发展的架构。
【9月更文挑战第5天】在数字化商业环境中,构建企业级ECS(弹性计算服务)集群对提升业务稳定性、扩展性和性能至关重要。本文将比较传统物理服务器与ECS架构,分析云服务商选择(如AWS和阿里云)、实例配置(CPU/内存)、网络架构(SDN vs 传统)及存储方案(本地存储 vs 云存储),帮助企业根据自身需求选出最优方案,实现高效稳定的ECS集群部署。
54 18
|
3月前
|
运维 监控 调度
《<灵活调度,高效编排,容器化管理云上应用>解决方案测评》
在这次测评中,聚焦于技术细节、引导帮助、代码示例、容器托管优势及云产品体验五大方面。技术细节展示出色但需深化复杂场景的优化策略;文档和引导能满足基本需求,但关键步骤应增强提示;代码示例有价值,但遇到实际使用问题;容器化托管带来快速部署、资源隔离和自动化管理的优势,受到高度评价;云产品功能齐全,性能良好,但高级功能配置和手册可读性有待提升。总体而言,解决方案有亮点,期待持续改进。
161 13
《<灵活调度,高效编排,容器化管理云上应用>解决方案测评》
|
3月前
|
SQL 存储 关系型数据库
计算效率提升 30 倍、存储资源节省 90%,雨润集团基于 Apache Doris 的统一实时数据仓库建设实践
数字化转型的浪潮中,高效准确的数据分析能够帮助雨润集团快速洞察市场动态、优化供应链管理、提高生产效率。雨润集团引入了 Apache Doris 构建了统一实时数据仓库,实现了计算效率提升 30 倍、存储资源节省 90%、成本降低超 100 万、人员效率提升 3 倍,为智能化、高效化转型指明了方向。
计算效率提升 30 倍、存储资源节省 90%,雨润集团基于 Apache Doris 的统一实时数据仓库建设实践
|
3月前
|
存储 弹性计算 大数据
阿里云ECS以其强大的弹性计算与存储能力,为大数据处理提供了灵活、高效、成本优化的解决方案
阿里云ECS在大数据处理中发挥关键作用,提供多样化实例规格适应不同需求,如大数据型实例适合离线计算。ECS与OSS集成实现大规模存储,通过Auto Scaling动态调整资源,确保高效运算。案例显示,使用ECS处理TB级数据,速度提升3倍,成本降低40%,展现其在弹性、效率和成本优化方面的优势。结合阿里云生态系统,ECS助力企业数据驱动创新。
66 1
|
3月前
|
存储 弹性计算 大数据
阿里云ECS在大数据处理中展现高效存储与计算实力,提供多样化实例规格适应不同需求
【7月更文挑战第3天】阿里云ECS在大数据处理中展现高效存储与计算实力,提供多样化实例规格适应不同需求,如大数据型实例配备高吞吐硬盘。与OSS集成实现大规模存储,通过Auto Scaling动态调整资源,确保任务高效运行。案例显示,使用ECS能提升处理速度、降低成本,为企业数据驱动创新提供有力支持。
50 1
|
5月前
|
弹性计算 运维 Cloud Native
阿里云云原生弹性方案,用弹性解决集群资源利用率难题
本文主要介绍了通过弹性,实现成本优化,解决集群资源利用率难题。
92641 8
|
12月前
|
前端开发 JavaScript 索引
15分布式电商项目 - 规格管理功能
15分布式电商项目 - 规格管理功能
30 0
|
容器
阿里云最新产品手册——云基础产品与基础设施——计算——弹性容器实例——应用场景之互联网突发、周期性弹性业务
阿里云最新产品手册——云基础产品与基础设施——计算——弹性容器实例——应用场景之互联网突发、周期性弹性业务自制脑图
397 1
|
存储 资源调度 Kubernetes
新书自荐《深入集群:大型数据中心资源调度与管理》
深入集群 大型数据中心资源调度与管理,已经第2版了(2021-10月)。之前在ata和百晓生发布了新书自荐,这次同步到社区。
705 1
新书自荐《深入集群:大型数据中心资源调度与管理》
下一篇
无影云桌面