性能监控之Telegraf+InfluxDB+Grafana NVIDIA GPU实时监控

简介: 【6月更文挑战12天】性能监控之Telegraf+InfluxDB+Grafana NVIDIA GPU实时监控

一、什么是GPU?

图形处理器(英语:Graphics Processing Unit,缩写:GPU),又称显示核心、视觉处理器、显示芯片,是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上图像运算工作的微处理器。 用途是将计算机系统所需要的显示信息进行转换驱动,并向显示器提供行扫描信号,控制显示器的正确显示,是连接显示器和个人电脑主板的重要元件,也是“人机对话”的重要设备之一。显卡作为电脑主机里的一个重要组成部分,承担输出显示图形的任务,对于从事专业图形设计的人来说显卡非常重要,同时也在深度学习领域广泛应用。

二、预备知识

NVIDIA系统管理界面(nvidia-smi)是一个命令行实用程序,基于NVIDIA管理库(NVML),旨在帮助管理和监控NVIDIA GPU设备。
此实用程序允许管理员查询GPU设备状态并具有相应的权限,允许管理员修改GPU设备状态。它针对的是Tesla TMGRID TMQuadro TMTitan X产品,但其他NVIDIA GPU也提供有限的支持。
NVIDIA-smi在Linux上配备了NVIDIA GPU显示驱动程序,并配有64位Windows Server 2008 R2Windows 7Nvidia-smi可以将查询信息作为XML或可读的纯文本报告给标准输出或文件形式。

示例NVIDIA-smi输出:

image.png

三、window下如何使用NVIDIA-smi?

nvidia-smi是跟nvidia显卡驱动程序放在一起的,所以我们可以在驱动默认安装文件路径C:\Program Files\NVIDIA Corporation\NVSMI里找到文件nvidia-smi.exe,把该文件拖到CMD窗口,就可以显示关于GPU的信息,如下图所示:

image.png

上图是Nvidia GeForce GTX 750的信息,下面解读参数。
上面的表格框中的信息与下面的四个框的信息是一一对应的:

  • GPU:GPU 编号;
  • Name:GPU 型号;
  • Fan:风扇转速,从0到100%之间变动;
  • Temp:温度,单位是摄氏度;
  • Perf:性能状态,从P0到P12,P0表示最大性能,P12表示状态最小性能(即 GPU 未工作时为P0,达到最大工作限度时为P12)。
  • Pwr:Usage/Cap:能耗;
  • Memory Usage:显存使用率;
  • Bus-Id:涉及GPU总线的东西,domain:bus:device.function
  • Disp.A:Display Active,表示GPU的显示是否初始化;
  • Volatile GPU-Util:浮动的GPU利用率(GPU Load);
  • Uncorr. ECCError Correcting Code,错误检查与纠正;
  • Compute Mcompute mode,计算模式。
  • 下方的Processes表示每个进程对 GPU 的显存使用率。

四、Telegraf+InfluxDB+Grafana监控NVIDIA GPU

Telegraf提供nvidia-smi采集插件收集GPU性能数据
Github地址:https://github.com/influxdata/telegraf/tree/master/plugins/inputs/nvidia_smi

1、配置插件

[[inputs.nvidia_smi]]
  ## Optional: path to nvidia-smi binary, defaults to $PATH via exec.LookPath
  bin_path = "C:\\Program Files\\NVIDIA Corporation\\NVSMI\\nvidia-smi.exe"

  ## Optional: timeout for GPU polling
  timeout = "5s"

2、采集度量

measurement:nvidia_smi

  • tags
    • name(例如GPU的类型GeForce GTX 1070 Ti
    • compute_mode(例如GPU的计算模式Default)
    • index(GPU连接到主板的端口索引,例如1)
    • pstate(例如GPU的超频状态P0)
    • uuid(例如GPU的唯一标识符,GPU-f9ba66fc-a7f5-94c5-da19-019ef2f9c665)
  • fields
    • fan_speed (整数,百分比)
    • memory_free (整数,MiB)
    • memory_used (整数,MiB)
    • memory_total (整数,MiB)
    • power_draw (浮点,W)
    • temperature_gpu (整数,℃)
    • utilization_gpu (整数,百分比)
    • utilization_memory (整数,百分比)

采集数据示例:
image.png

Grafana Dashboard
image.png

相关资料:

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
目录
相关文章
|
8月前
|
Kubernetes 调度 异构计算
一文搞懂 GPU 共享方案: NVIDIA Time Slicing
本文主要分享 GPU 共享方案,包括如何安装、配置以及使用,最后通过分析源码了 TImeSlicing 的具体实现。通过配置 TImeSlicing 可以实现 Pod 共享一块物理 GPU,以提升资源利用率。
465 11
|
监控 Java 时序数据库
性能监控之Telegraf+InfluxDB+Grafana实现JMX实时监控
【6月更文挑战15天】性能监控之Telegraf+InfluxDB+Grafana实现JMX实时监控
471 6
性能监控之Telegraf+InfluxDB+Grafana实现JMX实时监控
|
10月前
|
并行计算 PyTorch 算法框架/工具
融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践
本文探讨了如何通过技术手段混合使用AMD与NVIDIA GPU集群以支持PyTorch分布式训练。面对CUDA与ROCm框架互操作性不足的问题,文章提出利用UCC和UCX等统一通信框架实现高效数据传输,并在异构Kubernetes集群中部署任务。通过解决轻度与强度异构环境下的挑战,如计算能力不平衡、内存容量差异及通信性能优化,文章展示了如何无需重构代码即可充分利用异构硬件资源。尽管存在RDMA验证不足、通信性能次优等局限性,但该方案为最大化GPU资源利用率、降低供应商锁定提供了可行路径。源代码已公开,供读者参考实践。
936 3
融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践
|
存储 Linux 数据库
性能工具之JMeter + Grafana + InfluxDB 性能平台搭建
【8月更文挑战第7天】性能工具之JMeter + Grafana + InfluxDB 性能平台搭建
427 1
性能工具之JMeter + Grafana + InfluxDB 性能平台搭建
|
数据采集 监控 Unix
性能监控之Telegraf+InfluxDB+Grafana实现结构化日志实时监控
【8月更文挑战第1天】性能监控之Telegraf+InfluxDB+Grafana实现结构化日志实时监控
1318 0
|
机器学习/深度学习 人工智能 弹性计算
阿里云GPU服务器全解析_GPU服务器租用费用_NVIDIA A10、V100、T4、P4、P100 GPU卡
阿里云GPU云服务器提供NVIDIA A10、V100、T4、P4、P100等多种GPU卡,结合高性能CPU,单实例计算性能高达5PFLOPS。支持2400万PPS及160Gbps内网带宽。实例规格多样,如A10卡GN7i(3213.99元/月)、V100-16G卡GN6v(3830.00元/月)等。适用于深度学习、科学计算、图形处理等场景。GPU软件如AIACC-Training、AIACC-Inference助力性能优化。购买方式灵活,客户案例包括深势科技、流利说、小牛翻译。
3165 0
|
3月前
|
人工智能 算法 调度
阿里云ACK托管集群Pro版共享GPU调度操作指南
本文介绍在阿里云ACK托管集群Pro版中,如何通过共享GPU调度实现显存与算力的精细化分配,涵盖前提条件、使用限制、节点池配置及任务部署全流程,提升GPU资源利用率,适用于AI训练与推理场景。
368 2
|
3月前
|
人工智能 城市大脑 运维
喜讯!阿里云国产异构GPU云平台技术荣获“2025算力中国·年度重大成果”
2025年8月23日,在工业和信息化部新闻宣传中心、中国信息通信研究院主办的2025中国算力大会上,阿里云与浙江大学联合研发的“国产异构GPU云平台关键技术与系统”荣获「算力中国·年度重大成果」。该评选旨在选拔出算力产业具有全局性突破价值的重大成果,是业内公认的技术创新“风向标”。
456 0
|
8月前
|
存储 机器学习/深度学习 数据库
阿里云服务器X86/ARM/GPU/裸金属/超算五大架构技术特点、场景适配参考
在云计算技术飞速发展的当下,云计算已经渗透到各个行业,成为企业数字化转型的关键驱动力。选择合适的云服务器架构对于提升业务效率、降低成本至关重要。阿里云提供了多样化的云服务器架构选择,包括X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器以及高性能计算等。本文将深入解析这些架构的特点、优势及适用场景,以供大家了解和选择参考。
1273 61

热门文章

最新文章

推荐镜像

更多