如何在云监控控制台查询监控数据
购买ECS的GPU计算型实例后,安装GPU驱动和云监控插件的1.2.28版本,即可在主机监控查看GPU相关监控数据、配置报警规则,或在Dashboard中配置监控图表,

在主机监控中查看监控图表:

在Dashboard中自定义监控大盘


如何设置报警规则
新增的GPU监控项添加报警规则方式同ECS的其他指标一样。推荐通过创建模板后将模板应用于分组的方式批量添加GPU报警。查看报警模板最佳实践。
监控项说明
GPU相关监控指标提供3个维度的数据
GPU维度监控项
GPU维度的指标,采集每个GPU层面的监控数据。
MetricName |
单位 |
名称 |
dimensions |
gpu_memory_freespace |
Bytes |
GPU维度显存空闲量 |
instanceId,gpuId |
gpu_memory_totalspace |
Bytes |
GPU维度显存总量 |
instanceId,gpuId |
gpu_memory_usedspace |
Bytes |
GPU维度显存使用量 |
instanceId,gpuId |
gpu_gpu_usedutilization |
% |
GPU维度GPU使用率 |
instanceId,gpuId |
gpu_encoder_utilization |
% |
GPU维度编码器使用率 |
instanceId,gpuId |
gpu_decoder_utilization |
% |
GPU维度解码器使用率 |
instanceId,gpuId |
gpu_gpu_temperature |
℃ |
GPU维度GPU温度 |
instanceId,gpuId |
gpu_power_readings_power_draw |
W |
GPU维度GPU功率 |
instanceId,gpuId |
gpu_memory_freeutilization |
% |
GPU维度显存空闲率 |
instanceId,gpuId |
gpu_memory_useutilization |
% |
GPU维度显存使用率 |
instanceId,gpuId |
实例维度监控项
实例维度指标对单个ECS实例上的多个GPU监控数据做最大值、最小值、平均值的聚合。便于查看实例层面的整体使用情况。
MetricName |
单位 |
名称 |
dimensions |
instance_gpu_decoder_utilization |
% |
实例维度GPU解码器使用率 |
instanceId |
instance_gpu_encoder_utilization |
% |
实例维度GPU编码器使用率 |
instanceId |
instance_gpu_gpu_temperature |
℃ |
实例维度GPU温度 |
instanceId |
instance_gpu_gpu_usedutilization |
% |
实例维度GPU使用率 |
instanceId |
instance_gpu_memory_freespace |
Bytes |
实例维度GPU显存空闲量 |
instanceId |
instance_gpu_memory_freeutilization |
% |
实例维度GPU显存空闲率 |
instanceId |
instance_gpu_memory_totalspace |
Bytes |
实例维度GPU显存总量 |
instanceId |
instance_gpu_memory_usedspace |
Bytes |
实例维度GPU显存使用量 |
instanceId |
instance_gpu_memory_usedutilization |
% |
实例维度GPU显存使用率 |
instanceId |
instance_gpu_power_readings_power_draw |
W |
实例维度GPU功率 |
instanceId |
分组维度监控项
分组维度指标对单个应用分组里的多个ECS 实例的监控数据做最大值、最小值、平均值的聚合。便于查看集群层面的整体使用情况。
MetricName |
单位 |
名称 |
dimensions |
group_gpu_decoder_utilization |
% |
分组维度GPU解码器使用率 |
groupId |
group_gpu_encoder_utilization |
% |
分组维度GPU编码器使用率 |
groupId |
group_gpu_gpu_temperature |
℃ |
分组维度GPU温度 |
groupId |
group_gpu_gpu_usedutilization |
% |
分组维度GPU使用率 |
groupId |
group_gpu_memory_freespace |
Bytes |
分组维度GPU显存空闲量 |
groupId |
group_gpu_memory_freeutilization |
% |
分组维度GPU显存空闲率 |
groupId |
group_gpu_memory_totalspace |
Bytes |
分组维度GPU显存总量 |
groupId |
group_gpu_memory_usedspace |
Bytes |
分组维度GPU显存使用量 |
groupId |
group_gpu_memory_usedutilization |
% |
分组维度GPU显存使用率 |
groupId |
group_gpu_power_readings_power_draw |
W |
分组维度GPU功率 |
groupId |
如何通过API查询GPU监控数据?