使用云监控实现GPU云服务器的GPU监控和报警(下)-云监控插件监控

本文涉及的产品
云监控,每月短信1000条
简介: 目录 使用云监控实现GPU云服务器的GPU监控和报警(上) - 自定义监控 使用云监控实现GPU云服务器的GPU监控和报警(下)-云监控插件监控 1     背景 上一篇文章我们介绍了如何使用阿里云云监控服务提供的自定义监控功能,利用自定义监控提供的API或者SDK,通过自定义脚本可以将GP.

目录

使用云监控实现GPU云服务器的GPU监控和报警(上) - 自定义监控

使用云监控实现GPU云服务器的GPU监控和报警(下)- 云监控插件监控

1     背景

上一篇文章我们介绍了如何使用阿里云云监控服务提供的自定义监控功能,利用自定义监控提供的API或者SDK,通过自定义脚本可以将GPU云主机内采集的GPU数据上报,在云监控控制台上添加相应的GPU监控项,就可以实现对指定GPU实例内指定GPU的相应数据进行监控,对相应监控项设置相应数据的报警规则,就能实现监控数据的自动报警。

         但是自定义监控的采集脚本需要用户自己实现,并且云监控控制台上自定义监控的展示维度也很有限,只能查看指定VM指定GPU的某个数据。

         通过使用阿里云提供的云监控插件,可以一键安装就实现GPU指标的采集和上报,同时展示维度上可以与目前的ECS一样获得更多维度的展示,比如Dashborad监控大盘,可以监控集群级别的GPU指标,主机监控则可以在一个页面显示该实例所有GPU的所有监控指标。

本文将会详细介绍如何通过安装云监控插件来实现更全面、更易用的GPU云监控和报警。

2     云监控Agent安装

云监控插件从1.2.28版本开始支持GPU数据的采集。云监控Agent(即云监控插件)的安装可以参考云监控官方使用文档:云监控Agent安装。同时支持Linux和Window操作系统。

也可以在云监控控制台主机监控部分一键点击安装最新的云监控插件,并查看云监控插件的版本,如下图:

3     如何在云监控控制台查询GPU监控数据

目前只有GPU计算型实例支持GPU云监控,实例必须要安装GPU驱动和云监控插件的1.2.28以上版本,即可在主机监控查看GPU相关监控数据、配置报警规则,或在Dashboard中配置监控图表。

3.1   主机监控

在云监控控制台中进入主机监控,进入需要查看监控数据的实例,点击GPU监控标签页,就可以看到该实例所有GPU的GPU使用率、编码器/解码器使用率、显存使用量、GPU功率、GPU温度等监控数据。

3.2   Dashboard中自定义监控大盘

可以在云监控控制台Dashboard中创建自定义GPU监控大盘,以多种图表类型大盘展示分别分组、实例、GPU维度的各个GPU指标。

3.2.1   折线图

下图是以折线图形式展示特定分组的实例维度GPU显存使用量的平均值,可以一目了然的查看相关实例的显存使用量波动情况。

下图是以折线图形式展示特定分组的分组维度GPU温度的平均值,可以一目了然的查看指定分组相关实例的GPU温度波动情况。

3.2.2   TopN表格

下图是以TopN表格形式展示实例维度GPU温度的最大值,并以倒序方式展示,可以一目了然的查看用户账号下所有GPU实例的实时温度情况,并确定GPU温度最高的实例。

下图是以TopN表格形式展示实例维度GPU功率的平均,并以倒序方式展示,可以一目了然的查看用户账号下所有GPU实例的实时功率情况,并确定GPU功率最高的实例。

TopN表格形式同样能非常方便的查看各个实例的GPU利用率和编码器/解码器利用率以及显存使用情况,从而判断业务运行是否正常,以及判断资源利用是否充分。

4     如何设置报警规则

新增的GPU监控项添加报警规则方式同ECS的其他指标一样,可以针对某一特定指标设置报警规则,如下图:

推荐通过创建模板后将模板应用于分组的方式批量添加GPU报警。查看报警模板最佳实践

5     监控项说明

GPU相关监控指标提供3个维度的数据

5.1   GPU维度监控项

GPU维度的指标,采集每个GPU层面的监控数据。

MetricName

单位

名称

dimensions

gpu_memory_freespace

Bytes

GPU维度显存空闲量

instanceId,gpuId

gpu_memory_totalspace

Bytes

GPU维度显存总量

instanceId,gpuId

gpu_memory_usedspace

Bytes

GPU维度显存使用量

instanceId,gpuId

gpu_gpu_usedutilization

%

GPU维度GPU使用率

instanceId,gpuId

gpu_encoder_utilization

%

GPU维度编码器使用率

instanceId,gpuId

gpu_decoder_utilization

%

GPU维度解码器使用率

instanceId,gpuId

gpu_gpu_temperature

℃ 

GPU维度GPU温度

instanceId,gpuId

gpu_power_readings_power_draw

W

GPU维度GPU功率

instanceId,gpuId

gpu_memory_freeutilization

%

GPU维度显存空闲率

instanceId,gpuId

gpu_memory_useutilization

%

GPU维度显存使用率

instanceId,gpuId

5.2   实例维度监控项

实例维度指标对单个ECS实例上的多个GPU监控数据做最大值、最小值、平均值的聚合。便于查看实例层面的整体使用情况。

MetricName

单位

名称

dimensions

instance_gpu_decoder_utilization

%

实例维度GPU解码器使用率

instanceId

instance_gpu_encoder_utilization

%

实例维度GPU编码器使用率

instanceId

instance_gpu_gpu_temperature

℃ 

实例维度GPU温度

instanceId

instance_gpu_gpu_usedutilization

%

实例维度GPU使用率

instanceId

instance_gpu_memory_freespace

Bytes

实例维度GPU显存空闲量

instanceId

instance_gpu_memory_freeutilization

%

实例维度GPU显存空闲率

instanceId

instance_gpu_memory_totalspace

Bytes

实例维度GPU显存总量

instanceId

instance_gpu_memory_usedspace

Bytes

实例维度GPU显存使用量

instanceId

instance_gpu_memory_usedutilization

%

实例维度GPU显存使用率

instanceId

instance_gpu_power_readings_power_draw

W

实例维度GPU功率

instanceId

5.3   分组维度监控项

分组维度指标对单个应用分组里的多个ECS 实例的监控数据做最大值、最小值、平均值的聚合。便于查看集群层面的整体使用情况。

MetricName

单位

名称

dimensions

group_gpu_decoder_utilization

%

分组维度GPU解码器使用率

groupId

group_gpu_encoder_utilization

%

分组维度GPU编码器使用率

groupId

group_gpu_gpu_temperature

  分组维度GPU温度

groupId

group_gpu_gpu_usedutilization

%

分组维度GPU使用率

groupId

group_gpu_memory_freespace

Bytes

分组维度GPU显存空闲量

groupId

group_gpu_memory_freeutilization

%

分组维度GPU显存空闲率

groupId

group_gpu_memory_totalspace

Bytes

分组维度GPU显存总量

groupId

group_gpu_memory_usedspace

Bytes

分组维度GPU显存使用量

groupId

group_gpu_memory_usedutilization

%

分组维度GPU显存使用率

groupId

group_gpu_power_readings_power_draw

W

分组维度GPU功率

groupId

6     如何通过OpenAPI查询GPU监控数据

可以使用OpenAPI来查询GPU监控数据。参考文档:https://help.aliyun.com/document_detail/51936.html

参数说明:Project=acs_ecs_dashboard,Metric及Dimensions参考上述监控项表格中的GPU指标。

相关实践学习
基于云监控实现的监控系统
通过阿里云云监控功能给非阿里云主机安装监控插件,从而实现对非阿里云主机的各项指标进行监控和管理,在配置报警规则和报警人的情况下,能对特定的场景做出报警反应通知到报警人的手机上。
目录
相关文章
|
1天前
|
机器学习/深度学习 弹性计算 编解码
阿里云服务器计算架构X86/ARM/GPU/FPGA/ASIC/裸金属/超级计算集群有啥区别?
阿里云服务器ECS提供了多种计算架构,包括X86、ARM、GPU/FPGA/ASIC、弹性裸金属服务器及超级计算集群。X86架构常见且通用,适合大多数应用场景;ARM架构具备低功耗优势,适用于长期运行环境;GPU/FPGA/ASIC则针对深度学习、科学计算、视频处理等高性能需求;弹性裸金属服务器与超级计算集群则分别提供物理机级别的性能和高速RDMA互联,满足高性能计算和大规模训练需求。
|
1月前
|
存储 弹性计算 运维
自动化监控和响应ECS系统事件
阿里云提供的ECS系统事件用于记录云资源信息,如实例启停、到期通知等。为实现自动化运维,如故障处理与动态调度,可使用云助手插件`ecs-tool-event`。该插件定时获取并转化ECS事件为日志存储,便于监控与响应,无需额外开发,适用于大规模集群管理。详情及示例可见链接文档。
|
1月前
|
存储 监控 Linux
监控Linux服务器
详细介绍了如何监控Linux服务器,包括监控CPU、内存、磁盘存储和带宽的使用情况,以及使用各种系统监控工具如vmstat、iostat、sar、top和dstat来分析系统性能,并推荐了一些开源监控系统。
34 0
监控Linux服务器
|
2月前
|
编解码 分布式计算 Linux
最新阿里云服务器、轻量应用服务器、GPU云服务器活动价格参考
阿里云服务器产品包含云服务器、轻量应用服务器、GPU云服务器等,本文汇总了这些云服务器当下最新的实时活动价格情况,包含经济型e实例云服务器价格、通用算力型u1实例云服务器价格、第七代云服务器价格、轻量应用服务器最新价格、GPU云服务器价格,以供大家参考。
最新阿里云服务器、轻量应用服务器、GPU云服务器活动价格参考
|
2月前
|
机器学习/深度学习 人工智能 弹性计算
阿里云AI服务器价格表_GPU服务器租赁费用_AI人工智能高性能计算推理
阿里云AI服务器提供多样化的选择,包括CPU+GPU、CPU+FPGA等多种配置,适用于人工智能、机器学习和深度学习等计算密集型任务。其中,GPU服务器整合高性能CPU平台,单实例可实现最高5PFLOPS的混合精度计算能力。根据不同GPU类型(如NVIDIA A10、V100、T4等)和应用场景(如AI训练、推理、科学计算等),价格从数百到数千元不等。详情及更多实例规格可见阿里云官方页面。
133 1
|
2月前
|
Prometheus 监控 Cloud Native
Web服务器的日志分析与监控
【8月更文第28天】Web服务器日志提供了关于服务器活动的重要信息,包括访问记录、错误报告以及性能数据。有效地分析这些日志可以帮助我们了解用户行为、诊断问题、优化网站性能,并确保服务的高可用性。本文将介绍如何使用日志分析和实时监控工具来监测Web服务器的状态和性能指标,并提供具体的代码示例。
188 0
|
2月前
|
监控 Linux 测试技术
|
3月前
|
存储 传感器 监控
云监控:引领未来监控技术的新篇章
传统监控系统需要投入大量的人力物力进行建设和维护,而云监控则通过云计算平台的按需付费特性降低了建设和维护成本。用户只需根据实际需求购买相应的服务和资源即可实现监控功能,无需担心设备升级、维护等问题。
|
4月前
|
机器学习/深度学习 人工智能 弹性计算
阿里云GPU云服务器介绍_GPU租用费用_GPU优势和使用场景说明
阿里云GPU云服务器提供NVIDIA A10、V100、T4、P4、P100等GPU卡,结合高性能CPU,单实例计算性能高达5PFLOPS。支持多种实例规格,如A10卡GN7i、V100-16G卡GN6v等,应用于深度学习、科学计算等场景。GPU服务器租用费用因实例规格而异,如A10卡GN7i每月3213.99元起。阿里云还提供GPU加速软件如AIACC-Training、AIACC-Inference等。网络性能强大,VPC支持2400万PPS和160Gbps内网带宽。购买方式灵活,包括包年包月、按量付费等。客户案例包括深势科技、流利说和小牛翻译等。
146 4
|
4月前
|
机器学习/深度学习 人工智能 弹性计算
阿里云GPU服务器租用费用_GPU服务器详解_A10、V100、T4、P4、P100
阿里云GPU云服务器提供NVIDIA A10、V100、T4、P4、P100等多种GPU卡,适合深度学习、科学计算等场景。实例性能强劲,单实例可达5PFLOPS混合精度计算,VPC网络支持2400万PPS和160Gbps内网带宽。GPU实例包括A10卡GN7i(3213.99元/月起)、V100-16G卡GN6v(3830.00元/月起)等,价格因配置而异。阿里云还提供GPU加速软件如AIACC-Training和AIACC-Inference,以及弹性计算实例EAIS。客户案例包括深势科技、流利说和小牛翻译等。