使用云监控实现GPU云服务器的GPU监控和报警(下)-云监控插件监控

简介: 目录 使用云监控实现GPU云服务器的GPU监控和报警(上) - 自定义监控 使用云监控实现GPU云服务器的GPU监控和报警(下)-云监控插件监控 1     背景 上一篇文章我们介绍了如何使用阿里云云监控服务提供的自定义监控功能,利用自定义监控提供的API或者SDK,通过自定义脚本可以将GP.

目录

使用云监控实现GPU云服务器的GPU监控和报警(上) - 自定义监控

使用云监控实现GPU云服务器的GPU监控和报警(下)- 云监控插件监控

1     背景

上一篇文章我们介绍了如何使用阿里云云监控服务提供的自定义监控功能,利用自定义监控提供的API或者SDK,通过自定义脚本可以将GPU云主机内采集的GPU数据上报,在云监控控制台上添加相应的GPU监控项,就可以实现对指定GPU实例内指定GPU的相应数据进行监控,对相应监控项设置相应数据的报警规则,就能实现监控数据的自动报警。

         但是自定义监控的采集脚本需要用户自己实现,并且云监控控制台上自定义监控的展示维度也很有限,只能查看指定VM指定GPU的某个数据。

         通过使用阿里云提供的云监控插件,可以一键安装就实现GPU指标的采集和上报,同时展示维度上可以与目前的ECS一样获得更多维度的展示,比如Dashborad监控大盘,可以监控集群级别的GPU指标,主机监控则可以在一个页面显示该实例所有GPU的所有监控指标。

本文将会详细介绍如何通过安装云监控插件来实现更全面、更易用的GPU云监控和报警。

2     云监控Agent安装

云监控插件从1.2.28版本开始支持GPU数据的采集。云监控Agent(即云监控插件)的安装可以参考云监控官方使用文档:云监控Agent安装。同时支持Linux和Window操作系统。

也可以在云监控控制台主机监控部分一键点击安装最新的云监控插件,并查看云监控插件的版本,如下图:

3     如何在云监控控制台查询GPU监控数据

目前只有GPU计算型实例支持GPU云监控,实例必须要安装GPU驱动和云监控插件的1.2.28以上版本,即可在主机监控查看GPU相关监控数据、配置报警规则,或在Dashboard中配置监控图表。

3.1   主机监控

在云监控控制台中进入主机监控,进入需要查看监控数据的实例,点击GPU监控标签页,就可以看到该实例所有GPU的GPU使用率、编码器/解码器使用率、显存使用量、GPU功率、GPU温度等监控数据。

3.2   Dashboard中自定义监控大盘

可以在云监控控制台Dashboard中创建自定义GPU监控大盘,以多种图表类型大盘展示分别分组、实例、GPU维度的各个GPU指标。

3.2.1   折线图

下图是以折线图形式展示特定分组的实例维度GPU显存使用量的平均值,可以一目了然的查看相关实例的显存使用量波动情况。

下图是以折线图形式展示特定分组的分组维度GPU温度的平均值,可以一目了然的查看指定分组相关实例的GPU温度波动情况。

3.2.2   TopN表格

下图是以TopN表格形式展示实例维度GPU温度的最大值,并以倒序方式展示,可以一目了然的查看用户账号下所有GPU实例的实时温度情况,并确定GPU温度最高的实例。

下图是以TopN表格形式展示实例维度GPU功率的平均,并以倒序方式展示,可以一目了然的查看用户账号下所有GPU实例的实时功率情况,并确定GPU功率最高的实例。

TopN表格形式同样能非常方便的查看各个实例的GPU利用率和编码器/解码器利用率以及显存使用情况,从而判断业务运行是否正常,以及判断资源利用是否充分。

4     如何设置报警规则

新增的GPU监控项添加报警规则方式同ECS的其他指标一样,可以针对某一特定指标设置报警规则,如下图:

推荐通过创建模板后将模板应用于分组的方式批量添加GPU报警。查看报警模板最佳实践

5     监控项说明

GPU相关监控指标提供3个维度的数据

5.1   GPU维度监控项

GPU维度的指标,采集每个GPU层面的监控数据。

MetricName

单位

名称

dimensions

gpu_memory_freespace

Bytes

GPU维度显存空闲量

instanceId,gpuId

gpu_memory_totalspace

Bytes

GPU维度显存总量

instanceId,gpuId

gpu_memory_usedspace

Bytes

GPU维度显存使用量

instanceId,gpuId

gpu_gpu_usedutilization

%

GPU维度GPU使用率

instanceId,gpuId

gpu_encoder_utilization

%

GPU维度编码器使用率

instanceId,gpuId

gpu_decoder_utilization

%

GPU维度解码器使用率

instanceId,gpuId

gpu_gpu_temperature

℃ 

GPU维度GPU温度

instanceId,gpuId

gpu_power_readings_power_draw

W

GPU维度GPU功率

instanceId,gpuId

gpu_memory_freeutilization

%

GPU维度显存空闲率

instanceId,gpuId

gpu_memory_useutilization

%

GPU维度显存使用率

instanceId,gpuId

5.2   实例维度监控项

实例维度指标对单个ECS实例上的多个GPU监控数据做最大值、最小值、平均值的聚合。便于查看实例层面的整体使用情况。

MetricName

单位

名称

dimensions

instance_gpu_decoder_utilization

%

实例维度GPU解码器使用率

instanceId

instance_gpu_encoder_utilization

%

实例维度GPU编码器使用率

instanceId

instance_gpu_gpu_temperature

℃ 

实例维度GPU温度

instanceId

instance_gpu_gpu_usedutilization

%

实例维度GPU使用率

instanceId

instance_gpu_memory_freespace

Bytes

实例维度GPU显存空闲量

instanceId

instance_gpu_memory_freeutilization

%

实例维度GPU显存空闲率

instanceId

instance_gpu_memory_totalspace

Bytes

实例维度GPU显存总量

instanceId

instance_gpu_memory_usedspace

Bytes

实例维度GPU显存使用量

instanceId

instance_gpu_memory_usedutilization

%

实例维度GPU显存使用率

instanceId

instance_gpu_power_readings_power_draw

W

实例维度GPU功率

instanceId

5.3   分组维度监控项

分组维度指标对单个应用分组里的多个ECS 实例的监控数据做最大值、最小值、平均值的聚合。便于查看集群层面的整体使用情况。

MetricName

单位

名称

dimensions

group_gpu_decoder_utilization

%

分组维度GPU解码器使用率

groupId

group_gpu_encoder_utilization

%

分组维度GPU编码器使用率

groupId

group_gpu_gpu_temperature

  分组维度GPU温度

groupId

group_gpu_gpu_usedutilization

%

分组维度GPU使用率

groupId

group_gpu_memory_freespace

Bytes

分组维度GPU显存空闲量

groupId

group_gpu_memory_freeutilization

%

分组维度GPU显存空闲率

groupId

group_gpu_memory_totalspace

Bytes

分组维度GPU显存总量

groupId

group_gpu_memory_usedspace

Bytes

分组维度GPU显存使用量

groupId

group_gpu_memory_usedutilization

%

分组维度GPU显存使用率

groupId

group_gpu_power_readings_power_draw

W

分组维度GPU功率

groupId

6     如何通过OpenAPI查询GPU监控数据

可以使用OpenAPI来查询GPU监控数据。参考文档:https://help.aliyun.com/document_detail/51936.html

参数说明:Project=acs_ecs_dashboard,Metric及Dimensions参考上述监控项表格中的GPU指标。

目录
相关文章
|
4月前
|
运维 监控 网络协议
物联网设备状态监控全解析:从告警参数到静默管理的深度指南-优雅草卓伊凡
物联网设备状态监控全解析:从告警参数到静默管理的深度指南-优雅草卓伊凡
131 11
物联网设备状态监控全解析:从告警参数到静默管理的深度指南-优雅草卓伊凡
|
3月前
|
编解码 监控 算法
CDN+OSS边缘加速实践:动态压缩+智能路由降低30%视频流量成本(含带宽峰值监控与告警配置)
本方案通过动态压缩、智能路由及CDN与OSS集成优化,实现视频业务带宽成本下降31%,首帧时间缩短50%,错误率降低53%。结合实测数据分析与架构创新,有效解决冷启动延迟、跨区域传输及设备适配性问题,具备快速投入回收能力。
201 0
|
6月前
|
数据采集 运维 监控
数据采集监控与告警:错误重试、日志分析与自动化运维
本文探讨了数据采集技术从“简单采集”到自动化运维的演进。传统方式因反爬策略和网络波动常导致数据丢失,而引入错误重试、日志分析与自动化告警机制可显著提升系统稳定性与时效性。正方强调健全监控体系的重要性,反方则担忧复杂化带来的成本与安全风险。未来,结合AI与大数据技术,数据采集将向智能化、全自动方向发展,实现动态调整与智能识别反爬策略,降低人工干预需求。附带的Python示例展示了如何通过代理IP、重试策略及日志记录实现高效的数据采集程序。
293 7
数据采集监控与告警:错误重试、日志分析与自动化运维
|
10月前
|
Prometheus 运维 监控
智能运维实战:Prometheus与Grafana的监控与告警体系
【10月更文挑战第26天】Prometheus与Grafana是智能运维中的强大组合,前者是开源的系统监控和警报工具,后者是数据可视化平台。Prometheus具备时间序列数据库、多维数据模型、PromQL查询语言等特性,而Grafana支持多数据源、丰富的可视化选项和告警功能。两者结合可实现实时监控、灵活告警和高度定制化的仪表板,广泛应用于服务器、应用和数据库的监控。
954 3
|
6月前
|
Prometheus Kubernetes 监控
Kubernetes监控:Prometheus与AlertManager结合,配置邮件告警。
完成这些步骤之后,您就拥有了一个可以用邮件通知你的Kubernetes监控解决方案了。当然,所有的这些配置都需要相互照应,还要对你的Kubernetes集群状况有深入的了解。希望这份指南能帮助你创建出适合自己场景的监控系统,让你在首次发现问题时就能做出响应。
301 22
|
9月前
|
Prometheus 监控 Cloud Native
无痛入门Prometheus:一个强大的开源监控和告警系统,如何快速安装和使用?
Prometheus 是一个完全开源的系统监控和告警工具包,受 Google 内部 BorgMon 系统启发,自2012年由前 Google 工程师在 SoundCloud 开发以来,已被众多公司采用。它拥有活跃的开发者和用户社区,现为独立开源项目,并于2016年加入云原生计算基金会(CNCF)。Prometheus 的主要特点包括多维数据模型、灵活的查询语言 PromQL、不依赖分布式存储、通过 HTTP 拉取时间序列数据等。其架构简单且功能强大,支持多种图形和仪表盘展示模式。安装和使用 Prometheus 非常简便,可以通过 Docker 快速部署,并与 Grafana 等可
4256 2
|
10月前
|
机器学习/深度学习 人工智能 弹性计算
什么是阿里云GPU云服务器?GPU服务器优势、使用和租赁费用整理
阿里云GPU云服务器提供强大的GPU算力,适用于深度学习、科学计算、图形可视化和视频处理等多种场景。作为亚太领先的云服务提供商,阿里云的GPU云服务器具备灵活的资源配置、高安全性和易用性,支持多种计费模式,帮助企业高效应对计算密集型任务。
1598 6
|
10月前
|
机器学习/深度学习 人工智能 弹性计算
阿里云GPU服务器全解析_GPU价格收费标准_GPU优势和使用说明
阿里云GPU云服务器提供强大的GPU算力,适用于深度学习、科学计算、图形可视化和视频处理等场景。作为亚太领先的云服务商,阿里云GPU云服务器具备高灵活性、易用性、容灾备份、安全性和成本效益,支持多种实例规格,满足不同业务需求。
2297 2
|
9月前
|
机器学习/深度学习 人工智能 编解码
阿里云GPU云服务器优惠收费标准,GPU服务器优缺点与适用场景详解
随着人工智能、大数据分析和高性能计算的发展,对计算资源的需求不断增加。GPU凭借强大的并行计算能力和高效的浮点运算性能,逐渐成为处理复杂计算任务的首选工具。阿里云提供了从入门级到旗舰级的多种GPU服务器,涵盖GN5、GN6、GN7、GN8和GN9系列,分别适用于图形渲染、视频编码、深度学习推理、训练和高性能计算等场景。本文详细介绍各系列的规格、价格和适用场景,帮助用户根据实际需求选择最合适的GPU实例。

热门文章

最新文章