使用容器服务GPU监控2.0查看NVIDIA XID错误-开发者社区-阿里云

阿里云容器服务GPU监控2.0基础篇3：监控NVIDIA XID错误

2022-09-09 9128

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本系列相关文章：阿里云容器服务GPU监控2.0基础篇1：基本功能使用阿里云容器服务GPU监控2.0基础篇2：监控NVLINK带宽阿里云容器服务GPU监控2.0基础篇3：监控NVIDIA XID错误阿里云容器服务GPU监控2.0进阶篇1：剖析（Profiling）GPU使用情况必备知识阿里云容器服务GPU监控2.0进阶篇2：学会剖析（Profiling）GPU使用情况本篇文章将向您介绍如何使用GPU

XID错误消息是NVIDIA驱动报告的错误信息，一般会将错误消息记录在/var/log/messages（或使用dmesg -T查看），如果一个节点有XID错误消息，说明节点发生了与GPU有关的错误，这个错误有可能是由于GPU硬件故障引起，也有可能是软件问题引起的（比如：运行的程序有bug）。

每个XID 错误消息都有一个编号，从XID错误描述的官方页面可以查询得到。例如：如果发生了XID为43的错误，那么可以通过官方网站查询到XID 43的描述信息：

更详细的描述信息：

可以知道XID 43产生的原因一般是因为用户的应用程序代码有bug导致的。

模拟产生XID错误

为了能够展示监控效果，需要产生XID错误，本次示例将提交一个能够产生XID 43的任务，该任务的yaml文件如下：

apiVersion: batch/v1
kind: Job
metadata:
  name: xid43-sample
spec:
  parallelism: 1
  template:
    metadata:
      labels:
        app: xid43-sample
    spec:
      containers:
      - name: xid-sample
        image: registry.cn-beijing.aliyuncs.com/ai-samples/make-xid43:1.0
        command:
        - sleep
        - 365d
        resources:
          limits:
            nvidia.com/gpu: 1 #申请一张GPU卡
        workingDir: /root
      restartPolicy: Never

使用kubectl apply提交该任务，等待任务处于Running，使用kubectl get po查询任务Pod状态：

# kubectl get po

NAME                                        READY   STATUS    RESTARTS   AGE
xid43-sample-qzfs7                          1/1     Running   0          4m32s

可以看到，任务的Pod处于Running状态。

然后使用kubectl exec进入pod内部：

# kubectl exec -ti xid43-sample-qzfs7 bash

进入pod以后，使用如下命令产生一个XID 43错误：

root@xid43-sample-qzfs7:~#  cuda-memcheck --log-file cudatestmemcheck.log python gen_xid.py

监控XID错误

登录到GPU监控2.0大盘，具体操作如下：

登录容器服务管理控制台。
在集群列表页面中，单击目标集群名称或者目标集群右侧操作列下的详情。
在集群管理页左侧导航栏中，选择运维管理 > Prometheus监控。
在 Prometheus监控大盘列表页面，单击 GPU监控页签，您分别可以看到集群维度的GPU监控大盘和节点维度的GPU监控大盘，点击“集群维度GPU监控大盘” 。

从“The Last one XID Error”这个面板可以看到，cn-beijing.192.168.10.169的0号GPU卡发生了XID 43错误：

当然也可以在“节点维度的GPU监控大盘”查看，选择节点为cn-beijing.192.168.10.169，在“The Last one XID Error”这个面板可以看到，0号GPU卡发生了XID 43错误。

总结

本篇文档介绍了如何利用GPU监控2.0查看节点是否发生XID错误，目前监控XID错误的能力还是比较弱，比如：如果是一张GPU上运行多个应用，如果有应用产生XID错误，当前还无法显示该XID错误是由哪个程序产生的。

相关实践学习

使用ACS算力快速搭建生成式会话应用

阿里云容器计算服务 ACS（Container Compute Service）以Kubernetes为使用界面，采用Serverless形态提供弹性的算力资源，使您轻松高效运行容器应用。本文将指导您如何通过ACS控制台及ACS集群证书在ACS集群中快速部署并公开一个容器化生成式AI会话应用，并监控应用的运行情况。

深入解析Docker容器化技术

Docker是一个开源的应用容器引擎，让开发者可以打包他们的应用以及依赖包到一个可移植的容器中，然后发布到任何流行的Linux机器上，也可以实现虚拟化，容器是完全使用沙箱机制，相互之间不会有任何接口。Docker是世界领先的软件容器平台。开发人员利用Docker可以消除协作编码时“在我的机器上可正常工作”的问题。运维人员利用Docker可以在隔离容器中并行运行和管理应用，获得更好的计算密度。企业利用Docker可以构建敏捷的软件交付管道，以更快的速度、更高的安全性和可靠的信誉为Linux和Windows Server应用发布新功能。在本套课程中，我们将全面的讲解Docker技术栈，从环境安装到容器、镜像操作以及生产环境如何部署开发的微服务应用。本课程由黑马程序员提供。     相关的阿里云产品：容器服务 ACK 容器服务 Kubernetes 版（简称 ACK）提供高性能可伸缩的容器应用管理能力，支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力，打造云端最佳容器化应用运行环境。了解产品详情: https://www.aliyun.com/product/kubernetes

阿里云容器服务GPU监控2.0基础篇3：监控NVIDIA XID错误

模拟产生XID错误

监控XID错误

总结

容器服务

热门文章

最新文章

相关产品

相关课程

相关电子书