【新功能发布】支持GPU计算型实例的GPU相关指标监控与报警

本文涉及的产品
云服务器 ECS,每月免费额度200元 3个月
云服务器ECS,u1 2核4GB 1个月
简介: 云监控新增ECS服务器GPU计算型实例监控指标。提升GPU实例自运维能力,欢迎使用。

如何在云监控控制台查询监控数据

购买ECS的GPU计算型实例后,安装GPU驱动和云监控插件的1.2.28版本,即可在主机监控查看GPU相关监控数据、配置报警规则,或在Dashboard中配置监控图表,

17_49_30__06_25_2018
在主机监控中查看监控图表:
20180628102308
在Dashboard中自定义监控大盘
_2018_06_28_10_31_11
20180628103224

如何设置报警规则

新增的GPU监控项添加报警规则方式同ECS的其他指标一样。推荐通过创建模板后将模板应用于分组的方式批量添加GPU报警。查看报警模板最佳实践

监控项说明

GPU相关监控指标提供3个维度的数据

GPU维度监控项

GPU维度的指标,采集每个GPU层面的监控数据。

MetricName 单位 名称 dimensions
gpu_memory_freespace Bytes GPU维度显存空闲量 instanceId,gpuId
gpu_memory_totalspace Bytes GPU维度显存总量 instanceId,gpuId
gpu_memory_usedspace Bytes GPU维度显存使用量 instanceId,gpuId
gpu_gpu_usedutilization % GPU维度GPU使用率 instanceId,gpuId
gpu_encoder_utilization % GPU维度编码器使用率 instanceId,gpuId
gpu_decoder_utilization % GPU维度解码器使用率 instanceId,gpuId
gpu_gpu_temperature ℃  GPU维度GPU温度 instanceId,gpuId
gpu_power_readings_power_draw W GPU维度GPU功率 instanceId,gpuId
gpu_memory_freeutilization % GPU维度显存空闲率 instanceId,gpuId
gpu_memory_useutilization % GPU维度显存使用率 instanceId,gpuId

实例维度监控项

实例维度指标对单个ECS实例上的多个GPU监控数据做最大值、最小值、平均值的聚合。便于查看实例层面的整体使用情况。

MetricName 单位 名称 dimensions
instance_gpu_decoder_utilization % 实例维度GPU解码器使用率 instanceId
instance_gpu_encoder_utilization % 实例维度GPU编码器使用率 instanceId
instance_gpu_gpu_temperature ℃  实例维度GPU温度 instanceId
instance_gpu_gpu_usedutilization % 实例维度GPU使用率 instanceId
instance_gpu_memory_freespace Bytes 实例维度GPU显存空闲量 instanceId
instance_gpu_memory_freeutilization % 实例维度GPU显存空闲率 instanceId
instance_gpu_memory_totalspace Bytes 实例维度GPU显存总量 instanceId
instance_gpu_memory_usedspace Bytes 实例维度GPU显存使用量 instanceId
instance_gpu_memory_usedutilization % 实例维度GPU显存使用率 instanceId
instance_gpu_power_readings_power_draw W 实例维度GPU功率 instanceId

分组维度监控项

分组维度指标对单个应用分组里的多个ECS 实例的监控数据做最大值、最小值、平均值的聚合。便于查看集群层面的整体使用情况。

MetricName 单位 名称 dimensions
group_gpu_decoder_utilization % 分组维度GPU解码器使用率 groupId
group_gpu_encoder_utilization % 分组维度GPU编码器使用率 groupId
group_gpu_gpu_temperature   分组维度GPU温度 groupId
group_gpu_gpu_usedutilization % 分组维度GPU使用率 groupId
group_gpu_memory_freespace Bytes 分组维度GPU显存空闲量 groupId
group_gpu_memory_freeutilization % 分组维度GPU显存空闲率 groupId
group_gpu_memory_totalspace Bytes 分组维度GPU显存总量 groupId
group_gpu_memory_usedspace Bytes 分组维度GPU显存使用量 groupId
group_gpu_memory_usedutilization % 分组维度GPU显存使用率 groupId
group_gpu_power_readings_power_draw W 分组维度GPU功率 groupId

如何通过API查询GPU监控数据?

相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
目录
相关文章
|
2月前
|
人工智能 并行计算 PyTorch
【PyTorch&TensorBoard实战】GPU与CPU的计算速度对比(附代码)
【PyTorch&TensorBoard实战】GPU与CPU的计算速度对比(附代码)
52 0
|
3月前
|
弹性计算 人工智能 网络安全
ECS实例问题之增加GPU显卡失败如何解决
ECS实例指的是在阿里云ECS服务中创建的虚拟计算环境,用户可在此环境中运行应用程序和服务;本合集将介绍ECS实例的创建、管理、监控和维护流程,及常见问题处理方法,助力用户保障实例的稳定运行。
|
4月前
|
人工智能 弹性计算 PyTorch
【Hello AI】神行工具包(DeepGPU)-GPU计算服务增强工具集合
神行工具包(DeepGPU)是阿里云专门为GPU云服务器搭配的GPU计算服务增强工具集合,旨在帮助开发者在GPU云服务器上更快速地构建企业级服务能力
129538 3
|
5月前
|
弹性计算 运维 监控
GPU实例使用--vGPU驱动自动安装和升级
为了适配最新的渲染软件,以及驱动稳定性的提升,vGPU实例的驱动需要定期进行升级,因为使用vgpu的客户多数为渲染和云游戏等业务场景,对vGPU驱动的快速升级和批量自动化要求比较高。
GPU实例使用--vGPU驱动自动安装和升级
|
9天前
|
关系型数据库 Serverless 异构计算
Serverless 应用引擎产品使用之在阿里云函数计算中使用包含GPU的实例并且镜像超过10GB了如何解决
阿里云Serverless 应用引擎(SAE)提供了完整的微服务应用生命周期管理能力,包括应用部署、服务治理、开发运维、资源管理等功能,并通过扩展功能支持多环境管理、API Gateway、事件驱动等高级应用场景,帮助企业快速构建、部署、运维和扩展微服务架构,实现Serverless化的应用部署与运维模式。以下是对SAE产品使用合集的概述,包括应用管理、服务治理、开发运维、资源管理等方面。
30 0
|
1月前
|
弹性计算 云计算 虚拟化
GPU云服务器_GPU云计算_异构计算_弹性计算-阿里云
阿里云提供多种GPU服务器,包括NVIDIA V100、T4、A10和A100计算卡,其中gn6i实例享有最高3折优惠。包年包月价格如:gn6v实例(16G V100)从4685.20元/月起,gn6i实例(16G T4)从1878.40元/月起。学生无特定GPU服务器优惠,但新用户有折扣活动。GPU服务器计费模式有包年包月和按小时计费,按需选择。详细价格及活动规则见官方链接。
14 0
GPU云服务器_GPU云计算_异构计算_弹性计算-阿里云
|
1月前
|
存储 监控 异构计算
【Python】GPU内存监控脚本
【Python】GPU内存监控脚本
|
2月前
|
存储 机器学习/深度学习 并行计算
阿里云服务器X86计算、Arm计算、GPU/FPGA/ASIC、高性能计算架构区别
在我们选购阿里云服务器的时候,云服务器架构有X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器、高性能计算可选,有的用户并不清楚他们之间有何区别,本文主要简单介绍下不同类型的云服务器有何不同,主要特点及适用场景有哪些。
阿里云服务器X86计算、Arm计算、GPU/FPGA/ASIC、高性能计算架构区别
|
3月前
|
并行计算 TensorFlow 算法框架/工具
|
5月前
|
弹性计算 并行计算 UED
GPU实例使用--自动安装NVIDIA GPU驱动和CUDA组件
GPU 云服务器正常工作需提前安装正确的基础设施软件,对于搭载了 NVIDIA 系列 GPU卡的实例而言,如果把 NVIDIA GPU 用作通用计算,则需安装 NVIDIA GPU 驱动、 CUDA、cuDNN等软件。
100976 3

热门文章

最新文章