阿里云超算集群报表:高效管理计算资源

简介: 弹性高性能计算(E-HPC)基于阿里云基础设施,为用户提供公共云之上的HPC服务。与传统HPC有限计算资源不同的是,E-HPC通过利用云的弹性可以做到资源的动态伸缩,从而根据实时的作业负载情况调整硬件计算资源,自动优化用户的成本资源。 集群管理员最为关心的应该是集群计算资源的利用率。传统超算往往是自建机房,一旦落成,核时数就随着时间线性增长。相较于传统超算的“静态”资源,云上的“动态”资源调

弹性高性能计算(E-HPC)基于阿里云基础设施,为用户提供公共云之上的HPC服务。与传统HPC有限计算资源不同的是,E-HPC通过利用云的弹性可以做到资源的动态伸缩,从而根据实时的作业负载情况调整硬件计算资源,自动优化用户的成本资源。

集群管理员最为关心的应该是集群计算资源的利用率。传统超算往往是自建机房,一旦落成,核时数就随着时间线性增长。相较于传统超算的“静态”资源,云上的“动态”资源调度就显得更加灵活。尤其是配合Spot实例,可以帮助用户大大地降低成本。为了更加直观地获取这些“动态”资源的使用情况,E-HPC的报表功能就呼之欲出了。

E-HPC报表简介

E-HPC报表通过整合用户的作业执行情况,结合用户集群的硬件资源配置,分别从用户、队列和实例维度进行统计,将计算资源的利用率直观地呈现给用户,帮助用户更好地进行计算资源的划分和调度,提升计算节点的利用率,降低成本。

总览

image-20191226095831022的副本.png

上图是从用户角度呈现集群的总体利用率,右侧是指定用户在查询时间内已完成的作业。此时如果发现集群的空闲率较高,就可以考虑将空闲节点分配给利用率高(计算需求大)的用户,或者可以将部分空闲节点释放,降低计算资源的浪费。如上图,userNo1的利用率约为16%,userNo2的利用率约为12%,而集群的空闲率约为71%。如果此时userNo1或者userNo2有很多等待资源的排队作业,用户就可以将空闲节点暂时划分给两个用户,加大他们的资源数量,缩短作业处理周期。

手动进行资源编排来提升利用率是管理“静态”资源的有效方式,但是“动态”资源还有更有效的方式,就是E-HPC的自动伸缩。不同于手动调整资源,自动伸缩可以自行帮助用户进行计算节点的申请和释放。因此当集群中没有排队作业,但仍有空闲节点时,自动伸缩将会按照用户配置的规则来决定如何释放空闲节点,从而降低集群中节点的空置率。当集群中有等待计算资源的排队作业时,自动伸缩就可以动态的根据作业负载和用户配置的策略来扩容,快速处理作业。

下图就是从节点维度呈现自动伸缩管理节点的使用情况。横轴是时间,图中每个实例的长度表示当前实例的生命周期。实例的生命周期是从实例创建成功开始,到实例被释放或者查询结束时间为止。如果用户开启自动伸缩,节点维度的报表就可以清楚呈现扩容实例的生命周期,用户可以据此来调整自己的配置,避免不必要的浪费。

image-20191226102329110的副本.png

例如,上图中compute002、compute004-008节点均是由自动伸缩创建的,可以看到这些节点的实际利用率约为44%。右侧是实例compute004上运行的作业详细信息。两者比对我们发现异常:作业运行结束至该实例释放用时约8分钟。这段时间内实例没有任何负载,一直处于空闲状态,因此应该被压缩。我们可以在自动伸缩的配置中减小释放实例的查询次数和每轮的查询时间,从而加速空闲实例的释放。

主要架构

目前E-HPC已支持包括PBS Pro、Deadline和Slurm等8种调度器。为了适配不同的调度器,我们对报表功能进行模块化设计,从而提升其兼容性。如下图所示。

image-20191221153345984_副本.png

数据采集

我们在用户集群的管理节点通过定时查询的方式获取作业的相关执行情况,并存储在用户管控节点的数据库中。由于不同的调度器对历史作业的保留方式不同,因此需要针对不同的调度器进行不同的处理。例如PBS Pro会维护一个作业日志文件并定期更新数据;Deadline调度器需要使用GetJobDetails手动获取历史作业信息。因此我们在用户的管控节点设置一个定时任务从调取器中获取历史作业信息并记录在数据库中。

数据处理

由于作业信息中不包含实例的具体配置,并且作业之间是离散的,因此我们结合管控端存储的实例信息来计算集群的核时比。并且从用户、队列和实例维度分别统计,从而更加直观地帮助用户了解查询时间内集群的使用情况。

数据呈现

前端主要是响应用户的请求,并且将管控端的计算结果呈现给用户。

总结

E-HPC报表旨在帮助用户更加直观的了解掌握集群的使用情况,从而更好的进行资源调度,提升计算节点的利用率,降低成本。并且通过报表的数据呈现,也可以帮助我们量化E-HPC缩扩容时的额外开销,推动我们不断优化缩扩容流程,为用户提供更好的服务!

相关文章
|
2月前
|
云安全 安全 开发工具
如何有效管理你的阿里云凭证?
如何有效管理你的阿里云凭证?
35 3
|
2月前
|
SQL 分布式计算 关系型数据库
阿里云E-MapReduce Trino专属集群外连引擎及权限控制踩坑实践
本文以云厂商售后技术支持的角度,从客户的需求出发,对于阿里云EMR-Trino集群的选型,外连多引擎的场景、Ldap以及Kerberos鉴权等问题进行了简要的实践和记录,模拟客户已有的业务场景,满足客户需求的同时对过程中的问题点进行解决、记录和分析,包括但不限于Mysql、ODPS、Hive connector的配置,Hive、Delta及Hudi等不同表格式读取的兼容,aws s3、阿里云 oss协议访问异常的解决等。
|
2月前
|
安全 机器人 数据安全/隐私保护
基于钉钉的阿里云管理实践(四)之续费充值
在阿里云资源的运营过程中,及时续费和充值是保障服务不中断的关键行动。借助钉钉及其集成的阿里云管理功能,用户可以方便地接收到续费通知,并完成充值过程。本教程将为您详细介绍从收到续费提醒信息到完成充值的全过程。
121 2
|
2月前
|
Java Go Maven
阿里云云效问题之使用香港构建集群有审计要求如何解决
云效镜像是指存储在阿里云效服务中的容器镜像,它们可以用于持续集成和持续部署(CI/CD)流程中;本合集将介绍如何在云效平台上管理和使用镜像资源,以及常见的镜像问题和解决办法。
151 0
|
2月前
|
SQL 安全 数据管理
在阿里云数据管理DMS(Data Management Service)中,您可以按照以下步骤来创建和管理数据库
【2月更文挑战第33天】在阿里云数据管理DMS(Data Management Service)中,您可以按照以下步骤来创建和管理数据库
144 7
|
2月前
|
存储 人工智能 数据管理
【云故事探索】基于阿里云助力地理产业2.0落地,实现遥感数据智能化管理
中国某遥感数据服务中心借助阿里云ECS、GPU和OSS服务,成功实现了地理信息产业升级。此前,中心面临数据管理混乱、服务响应慢等问题。通过阿里云的解决方案,构建了全生命周期管理的遥感数据平台,强化了自动化、智能化的数据生产能力,提升了数据服务的准确性和及时性。此外,平台还增强了数据共享,扩大了应用范围。未来,中心计划结合AI技术,探索地理信息3.0时代,利用阿里云的人工智能平台进一步提升数据管理和应用能力。
99 1
|
2天前
|
Kubernetes 网络协议 Docker
k8s 开船记-故障公告:自建 k8s 集群在阿里云上大翻船
k8s 开船记-故障公告:自建 k8s 集群在阿里云上大翻船
|
13天前
|
负载均衡 测试技术 网络安全
阿里云服务网格ASM多集群实践(一)多集群管理概述
服务网格多集群管理网络打通和部署模式的多种最佳实践
|
26天前
|
弹性计算 安全 网络安全
带你读《从基础到应用云上安全航行指南》——干货长文快收藏!阿里云专家教你如何安全访问和管理ECS资源(3)
**《从基础到应用云上安全航行指南》——阿里云专家教你如何安全访问和管理ECS资源(3)** 在阿里云的广阔云海中,ECS(弹性计算服务)资源如同航行的船只,承载着我们的业务与数据。如何确保这些
|
2月前
|
弹性计算 Kubernetes 监控
【阿里云弹性计算】阿里云 ECS 与 Kubernetes 集成:轻松管理容器化应用
【5月更文挑战第28天】阿里云ECS与Kubernetes集成,打造强大容器管理平台,简化应用部署,实现弹性扩展和高效资源管理。通过Kubernetes声明式配置在ECS上快速部署,适用于微服务和大规模Web应用。结合监控服务确保安全与性能,未来将深化集成,满足更多业务需求,引领容器化应用管理新趋势。
209 2

热门文章

最新文章