【新功能发布】支持GPU计算型实例的GPU相关指标监控与报警

本文涉及的产品
云服务器 ECS,每月免费额度280元 3个月
云服务器ECS,u1 2核4GB 1个月
简介: 云监控新增ECS服务器GPU计算型实例监控指标。提升GPU实例自运维能力,欢迎使用。

如何在云监控控制台查询监控数据

购买ECS的GPU计算型实例后,安装GPU驱动和云监控插件的1.2.28版本,即可在主机监控查看GPU相关监控数据、配置报警规则,或在Dashboard中配置监控图表,

17_49_30__06_25_2018
在主机监控中查看监控图表:
20180628102308
在Dashboard中自定义监控大盘
_2018_06_28_10_31_11
20180628103224

如何设置报警规则

新增的GPU监控项添加报警规则方式同ECS的其他指标一样。推荐通过创建模板后将模板应用于分组的方式批量添加GPU报警。查看报警模板最佳实践

监控项说明

GPU相关监控指标提供3个维度的数据

GPU维度监控项

GPU维度的指标,采集每个GPU层面的监控数据。

MetricName 单位 名称 dimensions
gpu_memory_freespace Bytes GPU维度显存空闲量 instanceId,gpuId
gpu_memory_totalspace Bytes GPU维度显存总量 instanceId,gpuId
gpu_memory_usedspace Bytes GPU维度显存使用量 instanceId,gpuId
gpu_gpu_usedutilization % GPU维度GPU使用率 instanceId,gpuId
gpu_encoder_utilization % GPU维度编码器使用率 instanceId,gpuId
gpu_decoder_utilization % GPU维度解码器使用率 instanceId,gpuId
gpu_gpu_temperature ℃  GPU维度GPU温度 instanceId,gpuId
gpu_power_readings_power_draw W GPU维度GPU功率 instanceId,gpuId
gpu_memory_freeutilization % GPU维度显存空闲率 instanceId,gpuId
gpu_memory_useutilization % GPU维度显存使用率 instanceId,gpuId

实例维度监控项

实例维度指标对单个ECS实例上的多个GPU监控数据做最大值、最小值、平均值的聚合。便于查看实例层面的整体使用情况。

MetricName 单位 名称 dimensions
instance_gpu_decoder_utilization % 实例维度GPU解码器使用率 instanceId
instance_gpu_encoder_utilization % 实例维度GPU编码器使用率 instanceId
instance_gpu_gpu_temperature ℃  实例维度GPU温度 instanceId
instance_gpu_gpu_usedutilization % 实例维度GPU使用率 instanceId
instance_gpu_memory_freespace Bytes 实例维度GPU显存空闲量 instanceId
instance_gpu_memory_freeutilization % 实例维度GPU显存空闲率 instanceId
instance_gpu_memory_totalspace Bytes 实例维度GPU显存总量 instanceId
instance_gpu_memory_usedspace Bytes 实例维度GPU显存使用量 instanceId
instance_gpu_memory_usedutilization % 实例维度GPU显存使用率 instanceId
instance_gpu_power_readings_power_draw W 实例维度GPU功率 instanceId

分组维度监控项

分组维度指标对单个应用分组里的多个ECS 实例的监控数据做最大值、最小值、平均值的聚合。便于查看集群层面的整体使用情况。

MetricName 单位 名称 dimensions
group_gpu_decoder_utilization % 分组维度GPU解码器使用率 groupId
group_gpu_encoder_utilization % 分组维度GPU编码器使用率 groupId
group_gpu_gpu_temperature   分组维度GPU温度 groupId
group_gpu_gpu_usedutilization % 分组维度GPU使用率 groupId
group_gpu_memory_freespace Bytes 分组维度GPU显存空闲量 groupId
group_gpu_memory_freeutilization % 分组维度GPU显存空闲率 groupId
group_gpu_memory_totalspace Bytes 分组维度GPU显存总量 groupId
group_gpu_memory_usedspace Bytes 分组维度GPU显存使用量 groupId
group_gpu_memory_usedutilization % 分组维度GPU显存使用率 groupId
group_gpu_power_readings_power_draw W 分组维度GPU功率 groupId

如何通过API查询GPU监控数据?

相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
目录
相关文章
|
24天前
|
人工智能 并行计算 PyTorch
【PyTorch&TensorBoard实战】GPU与CPU的计算速度对比(附代码)
【PyTorch&TensorBoard实战】GPU与CPU的计算速度对比(附代码)
32 0
|
2月前
|
弹性计算 人工智能 网络安全
ECS实例问题之增加GPU显卡失败如何解决
ECS实例指的是在阿里云ECS服务中创建的虚拟计算环境,用户可在此环境中运行应用程序和服务;本合集将介绍ECS实例的创建、管理、监控和维护流程,及常见问题处理方法,助力用户保障实例的稳定运行。
|
3月前
|
人工智能 弹性计算 PyTorch
【Hello AI】神行工具包(DeepGPU)-GPU计算服务增强工具集合
神行工具包(DeepGPU)是阿里云专门为GPU云服务器搭配的GPU计算服务增强工具集合,旨在帮助开发者在GPU云服务器上更快速地构建企业级服务能力
129537 3
|
4月前
|
弹性计算 运维 监控
GPU实例使用--vGPU驱动自动安装和升级
为了适配最新的渲染软件,以及驱动稳定性的提升,vGPU实例的驱动需要定期进行升级,因为使用vgpu的客户多数为渲染和云游戏等业务场景,对vGPU驱动的快速升级和批量自动化要求比较高。
GPU实例使用--vGPU驱动自动安装和升级
|
4月前
|
并行计算 Linux 测试技术
GPU实例使用--单实例上运行Linux桌面多开解决方案
客户前期使用的旧异构实例面临更新换代,新的推荐异构实例性能更强,客户的业务软件运行时,GPU使用率不高,需要探索多开方案,提高GPU使用率,提高实例性价比。
|
17天前
|
存储 监控 异构计算
【Python】GPU内存监控脚本
【Python】GPU内存监控脚本
|
1月前
|
存储 机器学习/深度学习 并行计算
阿里云服务器X86计算、Arm计算、GPU/FPGA/ASIC、高性能计算架构区别
在我们选购阿里云服务器的时候,云服务器架构有X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器、高性能计算可选,有的用户并不清楚他们之间有何区别,本文主要简单介绍下不同类型的云服务器有何不同,主要特点及适用场景有哪些。
阿里云服务器X86计算、Arm计算、GPU/FPGA/ASIC、高性能计算架构区别
|
6月前
|
机器学习/深度学习 人工智能 芯片
一文详解多模态大模型发展及高频因子计算加速GPU算力 | 英伟达显卡被限,华为如何力挽狂澜?
近年来,全球范围内的芯片禁令不断升级,给许多企业和科研机构带来了很大的困扰,需要在技术层面进行创新和突破。一方面,可以探索使用国产芯片和其他不受限制的芯片来替代被禁用的芯片;另一方面,可以通过优化算法和架构等方法来降低对特定芯片的依赖程度。
|
2月前
|
并行计算 TensorFlow 算法框架/工具
|
4月前
|
弹性计算 并行计算 UED
GPU实例使用--自动安装NVIDIA GPU驱动和CUDA组件
GPU 云服务器正常工作需提前安装正确的基础设施软件,对于搭载了 NVIDIA 系列 GPU卡的实例而言,如果把 NVIDIA GPU 用作通用计算,则需安装 NVIDIA GPU 驱动、 CUDA、cuDNN等软件。
100919 3