nvidia-smi命令输出的信息解读

简介: 【5月更文挑战第13天】nvidia-smi命令输出的信息解读

这是nvidia-smi命令的一部分输出,用于显示一块NVIDIA Tesla T4 GPU的信息。下面是对每个部分的详细说明:

  1. Driver Version: 显示当前正在使用的NVIDIA驱动程序的版本号,这里是440.33.01。

  2. CUDA Version: 显示CUDA(Compute Unified Device Architecture)的版本号,这里是10.2。

  3. GPU Information:

    • GPU Name: 显示GPU的名称,这里是Tesla T4。
    • Persistence-M: 显示GPU是否处于持续性模式。在这里,它处于关闭状态(Off)。
    • Bus-Id: 显示GPU的总线ID。
    • Disp.A: 显示GPU是否与显示器相关(通常为Display A)。
    • Volatile Uncorr. ECC: 显示GPU的易失性不可纠正ECC(错误纠正码)状态。
  4. Fan, Temperature, Performance, Power:

    • Fan: 显示风扇的状态。
    • Temp: 显示GPU的温度,这里是75摄氏度。
    • Perf: 显示GPU的性能模式,这里是P0。
    • Pwr:Usage/Cap: 显示GPU的功耗使用情况和上限,这里是32W使用 / 70W上限。
  5. Memory Usage:

    • Memory-Usage: 显示GPU显存的使用情况,这里是2988MiB已使用 / 15109MiB总显存。
  6. GPU Utilization and Compute Mode:

    • GPU-Util: 显示GPU的利用率,这里是0%。
    • Compute M.: 显示GPU的计算模式,这里是默认模式。
  7. Processes and GPU Memory Usage:

    • Processes: 列出正在运行的进程以及它们在GPU上使用的显存。
    • GPU Memory: 显示每个进程在GPU上使用的显存量。

在这个示例中,有两个进程正在使用这块GPU:

  • PID 9354的进程名为"bin/face-general-service",使用了2342MiB的显存。
  • PID 11003的进程名为"bin/face-general-service-8816",使用了635MiB的显存。

这个输出提供了关于GPU的各种信息,包括硬件状态、性能指标和正在运行的进程的使用情况,帮助你监控和管理GPU的使用情况。

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
目录
相关文章
|
Linux 异构计算 Python
【linux】nvidia-smi 查看GPU使用率100%
nvidia-smi 查看GPU使用率一直是100%解决办法
【linux】nvidia-smi 查看GPU使用率100%
|
缓存 运维 Kubernetes
NVIDIA GPU Operator分析一:NVIDIA驱动安装
背景我们知道,如果在Kubernetes中支持GPU设备调度,需要做如下的工作:节点上安装nvidia驱动节点上安装nvidia-docker集群部署gpu device plugin,用于为调度到该节点的pod分配GPU设备。除此之外,如果你需要监控集群GPU资源使用情况,你可能还需要安装DCCM exporter结合Prometheus输出GPU资源监控信息。要安装和管理这么多的组件,对于运维
4540 0
NVIDIA GPU Operator分析一:NVIDIA驱动安装
|
Linux Shell 图形学
成功解决WARNING: You do not appear to have an NVIDIA GPU supported by the 430.34 NVIDIA Linux graph
成功解决WARNING: You do not appear to have an NVIDIA GPU supported by the 430.34 NVIDIA Linux graph
成功解决WARNING: You do not appear to have an NVIDIA GPU supported by the 430.34 NVIDIA Linux graph
|
8月前
|
达摩院 并行计算 异构计算
modelscope调用的模型如何指定在特定gpu上运行?排除使用CUDA_VISIBLE_DEVICES环境变量
由于个人需要,家里有多张卡,但是我只想通过输入device号的方式,在单卡上运行模型。如果设置环境变量的话我的其他服务将会受影响。
|
机器学习/深度学习 监控 异构计算
如何监控NVIDIA GPU 的运行状态和使用情况
如果这个值很低,则意味着您的 GPU 并没有全速的工作,可能是受到 CPU或者IO 操作的瓶颈,如果你使用的按小时付费的云服务器,那么就是在浪费时间和金钱!
1314 0
如何监控NVIDIA GPU 的运行状态和使用情况
|
人工智能 监控 并行计算
如何监控NVIDIA Jetson的的运行状态和使用情况
NVIDIA Jetson是NVIDIA为新一代自主机器设计的嵌入式系统,是一个AI平台,所提供的性能和能效可提高自主机器软件的运行速度。每个系统都是一个完备的模块化系统,具备CPU、GPU、PMIC、DRAM和闪存。Jetson具备可扩展性,选择应用场合的SOM,即能够以此为基础构建自定义系统,满足应用需求。
453 0
nvidia-smi 启动刷新很慢
nvidia-smi 启动刷新很慢
1003 0
|
机器学习/深度学习 异构计算
GPU状态监测 nvidia-smi 命令的用法详解
GPU状态监测 nvidia-smi 命令的用法详解
1574 0
GPU状态监测 nvidia-smi 命令的用法详解
|
并行计算 Linux
nvidia-smi报错(重装Nvidia驱动)
nvidia-smi报错(重装Nvidia驱动)
|
机器学习/深度学习 并行计算 PyTorch
使用anaconda配置gpu版本的torch==1.7.1(非30系列以上显卡也可用)
使用anaconda配置gpu版本的torch==1.7.1(非30系列以上显卡也可用)
使用anaconda配置gpu版本的torch==1.7.1(非30系列以上显卡也可用)