【新功能发布】支持GPU计算型实例的GPU相关指标监控与报警

简介: 云监控新增ECS服务器GPU计算型实例监控指标。提升GPU实例自运维能力,欢迎使用。

如何在云监控控制台查询监控数据

购买ECS的GPU计算型实例后,安装GPU驱动和云监控插件的1.2.28版本,即可在主机监控查看GPU相关监控数据、配置报警规则,或在Dashboard中配置监控图表,

17_49_30__06_25_2018
在主机监控中查看监控图表:
20180628102308
在Dashboard中自定义监控大盘
_2018_06_28_10_31_11
20180628103224

如何设置报警规则

新增的GPU监控项添加报警规则方式同ECS的其他指标一样。推荐通过创建模板后将模板应用于分组的方式批量添加GPU报警。查看报警模板最佳实践

监控项说明

GPU相关监控指标提供3个维度的数据

GPU维度监控项

GPU维度的指标,采集每个GPU层面的监控数据。

MetricName 单位 名称 dimensions
gpu_memory_freespace Bytes GPU维度显存空闲量 instanceId,gpuId
gpu_memory_totalspace Bytes GPU维度显存总量 instanceId,gpuId
gpu_memory_usedspace Bytes GPU维度显存使用量 instanceId,gpuId
gpu_gpu_usedutilization % GPU维度GPU使用率 instanceId,gpuId
gpu_encoder_utilization % GPU维度编码器使用率 instanceId,gpuId
gpu_decoder_utilization % GPU维度解码器使用率 instanceId,gpuId
gpu_gpu_temperature ℃  GPU维度GPU温度 instanceId,gpuId
gpu_power_readings_power_draw W GPU维度GPU功率 instanceId,gpuId
gpu_memory_freeutilization % GPU维度显存空闲率 instanceId,gpuId
gpu_memory_useutilization % GPU维度显存使用率 instanceId,gpuId

实例维度监控项

实例维度指标对单个ECS实例上的多个GPU监控数据做最大值、最小值、平均值的聚合。便于查看实例层面的整体使用情况。

MetricName 单位 名称 dimensions
instance_gpu_decoder_utilization % 实例维度GPU解码器使用率 instanceId
instance_gpu_encoder_utilization % 实例维度GPU编码器使用率 instanceId
instance_gpu_gpu_temperature ℃  实例维度GPU温度 instanceId
instance_gpu_gpu_usedutilization % 实例维度GPU使用率 instanceId
instance_gpu_memory_freespace Bytes 实例维度GPU显存空闲量 instanceId
instance_gpu_memory_freeutilization % 实例维度GPU显存空闲率 instanceId
instance_gpu_memory_totalspace Bytes 实例维度GPU显存总量 instanceId
instance_gpu_memory_usedspace Bytes 实例维度GPU显存使用量 instanceId
instance_gpu_memory_usedutilization % 实例维度GPU显存使用率 instanceId
instance_gpu_power_readings_power_draw W 实例维度GPU功率 instanceId

分组维度监控项

分组维度指标对单个应用分组里的多个ECS 实例的监控数据做最大值、最小值、平均值的聚合。便于查看集群层面的整体使用情况。

MetricName 单位 名称 dimensions
group_gpu_decoder_utilization % 分组维度GPU解码器使用率 groupId
group_gpu_encoder_utilization % 分组维度GPU编码器使用率 groupId
group_gpu_gpu_temperature   分组维度GPU温度 groupId
group_gpu_gpu_usedutilization % 分组维度GPU使用率 groupId
group_gpu_memory_freespace Bytes 分组维度GPU显存空闲量 groupId
group_gpu_memory_freeutilization % 分组维度GPU显存空闲率 groupId
group_gpu_memory_totalspace Bytes 分组维度GPU显存总量 groupId
group_gpu_memory_usedspace Bytes 分组维度GPU显存使用量 groupId
group_gpu_memory_usedutilization % 分组维度GPU显存使用率 groupId
group_gpu_power_readings_power_draw W 分组维度GPU功率 groupId

如何通过API查询GPU监控数据?

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
目录
相关文章
|
10天前
|
监控 异构计算
Jetson 学习笔记(八):htop查看CPU占用情况和jtop监控CPU和GPU
在NVIDIA Jetson平台上使用htop和jtop工具来监控CPU、GPU和内存的使用情况,并提供了安装和使用这些工具的具体命令。
52 0
|
2月前
|
机器学习/深度学习 编解码 人工智能
阿里云gpu云服务器租用价格:最新收费标准与活动价格及热门实例解析
随着人工智能、大数据和深度学习等领域的快速发展,GPU服务器的需求日益增长。阿里云的GPU服务器凭借强大的计算能力和灵活的资源配置,成为众多用户的首选。很多用户比较关心gpu云服务器的收费标准与活动价格情况,目前计算型gn6v实例云服务器一周价格为2138.27元/1周起,月付价格为3830.00元/1个月起;计算型gn7i实例云服务器一周价格为1793.30元/1周起,月付价格为3213.99元/1个月起;计算型 gn6i实例云服务器一周价格为942.11元/1周起,月付价格为1694.00元/1个月起。本文为大家整理汇总了gpu云服务器的最新收费标准与活动价格情况,以供参考。
阿里云gpu云服务器租用价格:最新收费标准与活动价格及热门实例解析
|
18天前
|
机器学习/深度学习 弹性计算 编解码
阿里云服务器计算架构X86/ARM/GPU/FPGA/ASIC/裸金属/超级计算集群有啥区别?
阿里云服务器ECS提供了多种计算架构,包括X86、ARM、GPU/FPGA/ASIC、弹性裸金属服务器及超级计算集群。X86架构常见且通用,适合大多数应用场景;ARM架构具备低功耗优势,适用于长期运行环境;GPU/FPGA/ASIC则针对深度学习、科学计算、视频处理等高性能需求;弹性裸金属服务器与超级计算集群则分别提供物理机级别的性能和高速RDMA互联,满足高性能计算和大规模训练需求。
|
1月前
|
机器学习/深度学习 存储 人工智能
阿里云GPU云服务器实例规格gn6v、gn7i、gn6i实例性能及区别和选择参考
阿里云的GPU云服务器产品线在深度学习、科学计算、图形渲染等多个领域展现出强大的计算能力和广泛的应用价值。本文将详细介绍阿里云GPU云服务器中的gn6v、gn7i、gn6i三个实例规格族的性能特点、区别及选择参考,帮助用户根据自身需求选择合适的GPU云服务器实例。
阿里云GPU云服务器实例规格gn6v、gn7i、gn6i实例性能及区别和选择参考
|
2月前
|
Serverless API 异构计算
函数计算产品使用问题之gpu实例函数该如何创建
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
3月前
|
并行计算 API 数据处理
GPU(图形处理单元)因其强大的并行计算能力而备受关注。与传统的CPU相比,GPU在处理大规模数据密集型任务时具有显著的优势。
GPU(图形处理单元)因其强大的并行计算能力而备受关注。与传统的CPU相比,GPU在处理大规模数据密集型任务时具有显著的优势。
|
3月前
|
存储 监控 Serverless
函数计算产品使用问题之T4和A10 GPU实例的区别有哪些
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
3月前
|
弹性计算 文字识别 异构计算
印刷文字识别使用问题之如何创建GPU实例
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
4月前
|
机器学习/深度学习 并行计算 PyTorch
【从零开始学习深度学习】20. Pytorch中如何让参数与模型在GPU上进行计算
【从零开始学习深度学习】20. Pytorch中如何让参数与模型在GPU上进行计算
|
4月前
|
运维 Serverless 文件存储
Serverless 应用引擎产品使用合集之函数实例运行期间相关的依赖资源(vcpu、临时磁盘、GPU)是否会随函数运行完毕而释放
阿里云Serverless 应用引擎(SAE)提供了完整的微服务应用生命周期管理能力,包括应用部署、服务治理、开发运维、资源管理等功能,并通过扩展功能支持多环境管理、API Gateway、事件驱动等高级应用场景,帮助企业快速构建、部署、运维和扩展微服务架构,实现Serverless化的应用部署与运维模式。以下是对SAE产品使用合集的概述,包括应用管理、服务治理、开发运维、资源管理等方面。

热门文章

最新文章