开发者社区> 江米> 正文

【新功能发布】支持GPU计算型实例的GPU相关指标监控与报警

简介: 云监控新增ECS服务器GPU计算型实例监控指标。提升GPU实例自运维能力,欢迎使用。
+关注继续查看

如何在云监控控制台查询监控数据

购买ECS的GPU计算型实例后,安装GPU驱动和云监控插件的1.2.28版本,即可在主机监控查看GPU相关监控数据、配置报警规则,或在Dashboard中配置监控图表,

17_49_30__06_25_2018
在主机监控中查看监控图表:
20180628102308
在Dashboard中自定义监控大盘
_2018_06_28_10_31_11
20180628103224

如何设置报警规则

新增的GPU监控项添加报警规则方式同ECS的其他指标一样。推荐通过创建模板后将模板应用于分组的方式批量添加GPU报警。查看报警模板最佳实践

监控项说明

GPU相关监控指标提供3个维度的数据

GPU维度监控项

GPU维度的指标,采集每个GPU层面的监控数据。

MetricName 单位 名称 dimensions
gpu_memory_freespace Bytes GPU维度显存空闲量 instanceId,gpuId
gpu_memory_totalspace Bytes GPU维度显存总量 instanceId,gpuId
gpu_memory_usedspace Bytes GPU维度显存使用量 instanceId,gpuId
gpu_gpu_usedutilization % GPU维度GPU使用率 instanceId,gpuId
gpu_encoder_utilization % GPU维度编码器使用率 instanceId,gpuId
gpu_decoder_utilization % GPU维度解码器使用率 instanceId,gpuId
gpu_gpu_temperature ℃  GPU维度GPU温度 instanceId,gpuId
gpu_power_readings_power_draw W GPU维度GPU功率 instanceId,gpuId
gpu_memory_freeutilization % GPU维度显存空闲率 instanceId,gpuId
gpu_memory_useutilization % GPU维度显存使用率 instanceId,gpuId

实例维度监控项

实例维度指标对单个ECS实例上的多个GPU监控数据做最大值、最小值、平均值的聚合。便于查看实例层面的整体使用情况。

MetricName 单位 名称 dimensions
instance_gpu_decoder_utilization % 实例维度GPU解码器使用率 instanceId
instance_gpu_encoder_utilization % 实例维度GPU编码器使用率 instanceId
instance_gpu_gpu_temperature ℃  实例维度GPU温度 instanceId
instance_gpu_gpu_usedutilization % 实例维度GPU使用率 instanceId
instance_gpu_memory_freespace Bytes 实例维度GPU显存空闲量 instanceId
instance_gpu_memory_freeutilization % 实例维度GPU显存空闲率 instanceId
instance_gpu_memory_totalspace Bytes 实例维度GPU显存总量 instanceId
instance_gpu_memory_usedspace Bytes 实例维度GPU显存使用量 instanceId
instance_gpu_memory_usedutilization % 实例维度GPU显存使用率 instanceId
instance_gpu_power_readings_power_draw W 实例维度GPU功率 instanceId

分组维度监控项

分组维度指标对单个应用分组里的多个ECS 实例的监控数据做最大值、最小值、平均值的聚合。便于查看集群层面的整体使用情况。

MetricName 单位 名称 dimensions
group_gpu_decoder_utilization % 分组维度GPU解码器使用率 groupId
group_gpu_encoder_utilization % 分组维度GPU编码器使用率 groupId
group_gpu_gpu_temperature   分组维度GPU温度 groupId
group_gpu_gpu_usedutilization % 分组维度GPU使用率 groupId
group_gpu_memory_freespace Bytes 分组维度GPU显存空闲量 groupId
group_gpu_memory_freeutilization % 分组维度GPU显存空闲率 groupId
group_gpu_memory_totalspace Bytes 分组维度GPU显存总量 groupId
group_gpu_memory_usedspace Bytes 分组维度GPU显存使用量 groupId
group_gpu_memory_usedutilization % 分组维度GPU显存使用率 groupId
group_gpu_power_readings_power_draw W 分组维度GPU功率 groupId

如何通过API查询GPU监控数据?

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
基于阿里云eRDMA的GPU实例大幅提升多机训练性能
2023年3月23日14:00(中国时间),NVIDIA GTC开发者大会,阿里云开发者社区观看入口正式开放,阿里云高级技术专家李伟男;阿里云弹性计算产品专家宋迪共同带来了题为《基于阿里云eRDMA的GPU实例大幅提升多机训练性能》的分享
10799 0
阿里云GPU服务器计算型gn7r实例ARM架构NVIDIA A16 GPU卡
阿里云GPU服务器计算型gn7r实例是阿里云推出的企业级ARM处理器和GPU的组合云服务器,GPU为NVIDIA A16 GPU,CPU采用3.0 GHz主频的Ampere ® Altra ® Max处理器,以ARM架构为开发Android线上应用和云手机、云手游等业务提供云原生底层资源平台。阿里云百科分享GPU服务器计算型gn7r实例性能评测
1051 0
阿里云GPU云服务器抢占式实例大幅度降低GPU云服务器实例成本
简介: 阿里云GPU云服务器可以选择抢占式实例(原竞价实例),可以降低GPU服务器成本
154 0
阿里云GPU云服务器gn5i/gn5/gn6i/gn6v实例详解
本文介绍了阿里云GPU云服务器的含义、功能特点及gn5i/gn5/gn6i/gn6v实例的特点及使用场景等内容,可帮助新手用户了解并选择阿里云GPU云服务器。
503 0
阿里云GPU云服务器抢占式实例大幅度降低GPU云服务器实例成本
简介: 阿里云GPU云服务器可以选择抢占式实例(原竞价实例),可以降低GPU服务器成本
86 0
阿里云GPU云服务器抢占式实例大幅度降低GPU云服务器实例成本
简介: 阿里云GPU云服务器可以选择抢占式实例(原竞价实例),可以降低GPU服务器成本
58 0
阿里云GPU云服务器抢占式实例大幅度降低GPU云服务器实例成本
简介: 阿里云GPU云服务器可以选择抢占式实例(原竞价实例),可以降低GPU服务器成本
68 0
阿里云GPU云服务器抢占式实例大幅度降低GPU云服务器实例成本
简介: 阿里云GPU云服务器可以选择抢占式实例(原竞价实例),可以降低GPU服务器成本
23 0
阿里云GPU云服务器抢占式实例大幅度降低GPU云服务器实例成本
简介: 阿里云GPU云服务器可以选择抢占式实例(原竞价实例),可以降低GPU服务器成本
36 0
阿里云GPU云服务器抢占式实例大幅度降低GPU云服务器实例成本
简介: 阿里云GPU云服务器可以选择抢占式实例(原竞价实例),可以降低GPU服务器成本
47 0
+关注
江米
小程序云产品经理
文章
问答
文章排行榜
最热
最新
相关电子书
更多
端到端GPU性能在深度学学习场景下的应用实践
立即下载
DeepStream: GPU加速海量视频数据智能处理
立即下载
阿里巴巴高性能GPU架构与应用
立即下载