阿里云容器服务GPU监控2.0基础篇3:监控NVIDIA XID错误

本文涉及的产品
容器镜像服务 ACR,镜像仓库100个 不限时长
简介: 本系列相关文章:阿里云容器服务GPU监控2.0基础篇1:基本功能使用阿里云容器服务GPU监控2.0基础篇2:监控NVLINK带宽阿里云容器服务GPU监控2.0基础篇3:监控NVIDIA XID错误阿里云容器服务GPU监控2.0进阶篇1:剖析(Profiling)GPU使用情况必备知识阿里云容器服务GPU监控2.0进阶篇2:学会剖析(Profiling)GPU使用情况本篇文章将向您介绍如何使用GPU
XID错误消息是NVIDIA驱动报告的错误信息,一般会将错误消息记录在/var/log/messages(或使用dmesg -T查看),如果一个节点有XID错误消息,说明节点发生了与GPU有关的错误,这个错误有可能是由于GPU硬件故障引起,也有可能是软件问题引起的(比如:运行的程序有bug)。

每个XID 错误消息都有一个编号,从XID错误描述的官方页面可以查询得到。例如:如果发生了XID为43的错误,那么可以通过官方网站查询到XID 43的描述信息:

更详细的描述信息:

可以知道XID 43产生的原因一般是因为用户的应用程序代码有bug导致的。

模拟产生XID错误

为了能够展示监控效果,需要产生XID错误,本次示例将提交一个能够产生XID 43的任务,该任务的yaml文件如下:

apiVersion: batch/v1
kind: Job
metadata:
  name: xid43-sample
spec:
  parallelism: 1
  template:
    metadata:
      labels:
        app: xid43-sample
    spec:
      containers:
      - name: xid-sample
        image: registry.cn-beijing.aliyuncs.com/ai-samples/make-xid43:1.0
        command:
        - sleep
        - 365d
        resources:
          limits:
            nvidia.com/gpu: 1 #申请一张GPU卡
        workingDir: /root
      restartPolicy: Never

使用kubectl apply提交该任务,等待任务处于Running,使用kubectl get po查询任务Pod状态:

# kubectl get po

NAME                                        READY   STATUS    RESTARTS   AGE
xid43-sample-qzfs7                          1/1     Running   0          4m32s

可以看到,任务的Pod处于Running状态。

然后使用kubectl exec进入pod内部:

# kubectl exec -ti xid43-sample-qzfs7 bash

进入pod以后,使用如下命令产生一个XID 43错误:

root@xid43-sample-qzfs7:~#  cuda-memcheck --log-file cudatestmemcheck.log python gen_xid.py

监控XID错误

登录到GPU监控2.0大盘,具体操作如下:

  1. 集群列表 页面中,单击目标集群名称或者目标集群右侧 操作 列下的 详情
  2. 在集群管理页左侧导航栏中,选择 运维管理 > Prometheus监控
  3. Prometheus监控 大盘列表页面,单击 GPU监控 页签,您分别可以看到 集群维度的GPU监控大盘 节点维度的GPU监控大盘 点击“集群维度GPU监控大盘”

从“The Last one XID Error”这个面板可以看到,cn-beijing.192.168.10.169的0号GPU卡发生了XID 43错误:

当然也可以在“节点维度的GPU监控大盘”查看,选择节点为cn-beijing.192.168.10.169,在“The Last one XID Error”这个面板可以看到,0号GPU卡发生了XID 43错误。

总结

本篇文档介绍了如何利用GPU监控2.0查看节点是否发生XID错误,目前监控XID错误的能力还是比较弱,比如:如果是一张GPU上运行多个应用,如果有应用产生XID错误,当前还无法显示该XID错误是由哪个程序产生的。

相关实践学习
巧用云服务器ECS制作节日贺卡
本场景带您体验如何在一台CentOS 7操作系统的ECS实例上,通过搭建web服务器,上传源码到web容器,制作节日贺卡网页。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
目录
相关文章
|
2天前
|
供应链 安全 Cloud Native
阿里云飞天企业版获【可信云·容器平台安全能力】先进级认证
阿里云飞天企业版容器系列产品获中国信息通信研究院【可信云·容器平台安全能力】先进级认证,这是飞天企业版容器产品获得《等保四级PaaS平台》和《 云原生安全配置基线规范V2.0》之后,本年度再一次获得行业权威认可,证明飞天企业版的容器解决方案具备符合行业标准的最高等级容器安全能力。
阿里云飞天企业版获【可信云·容器平台安全能力】先进级认证
|
5天前
|
机器学习/深度学习 人工智能 PyTorch
阿里云GPU云服务器怎么样?产品优势、应用场景介绍与最新活动价格参考
阿里云GPU云服务器怎么样?阿里云GPU结合了GPU计算力与CPU计算力,主要应用于于深度学习、科学计算、图形可视化、视频处理多种应用场景,本文为您详细介绍阿里云GPU云服务器产品优势、应用场景以及最新活动价格。
阿里云GPU云服务器怎么样?产品优势、应用场景介绍与最新活动价格参考
|
6天前
|
人工智能 运维 Kubernetes
阿里云容器服务AI助手2.0 - 新一代容器智能运维能力
2024年11月,阿里云容器服务团队进一步深度融合现有运维可观测体系,在场景上覆盖了K8s用户的全生命周期,正式推出升级版AI助手2.0,旨在更好地为用户使用和运维K8S保驾护航。
|
12天前
|
人工智能 JSON Linux
利用阿里云GPU加速服务器实现pdf转换为markdown格式
随着AI模型的发展,GPU需求日益增长,尤其是个人学习和研究。直接购置硬件成本高且更新快,建议选择阿里云等提供的GPU加速型服务器。
利用阿里云GPU加速服务器实现pdf转换为markdown格式
|
11天前
|
Prometheus Kubernetes 监控
OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性
聚焦近日OpenAI的大规模K8s集群故障,介绍阿里云容器服务与可观测团队在大规模K8s场景下我们的建设与沉淀。以及分享对类似故障问题的应对方案:包括在K8s和Prometheus的高可用架构设计方面、事前事后的稳定性保障体系方面。
|
3天前
|
监控 安全 Cloud Native
阿里云容器服务&云安全中心团队荣获信通院“云原生安全标杆案例”奖
2024年12月24日,阿里云容器服务团队与云安全中心团队获得中国信息通信研究院「云原生安全标杆案例」奖。
|
2月前
|
弹性计算 人工智能 Serverless
阿里云ACK One:注册集群云上节点池(CPU/GPU)自动弹性伸缩,助力企业业务高效扩展
在当今数字化时代,企业业务的快速增长对IT基础设施提出了更高要求。然而,传统IDC数据中心却在业务存在扩容慢、缩容难等问题。为此,阿里云推出ACK One注册集群架构,通过云上节点池(CPU/GPU)自动弹性伸缩等特性,为企业带来全新突破。
|
5月前
|
机器学习/深度学习 编解码 人工智能
阿里云gpu云服务器租用价格:最新收费标准与活动价格及热门实例解析
随着人工智能、大数据和深度学习等领域的快速发展,GPU服务器的需求日益增长。阿里云的GPU服务器凭借强大的计算能力和灵活的资源配置,成为众多用户的首选。很多用户比较关心gpu云服务器的收费标准与活动价格情况,目前计算型gn6v实例云服务器一周价格为2138.27元/1周起,月付价格为3830.00元/1个月起;计算型gn7i实例云服务器一周价格为1793.30元/1周起,月付价格为3213.99元/1个月起;计算型 gn6i实例云服务器一周价格为942.11元/1周起,月付价格为1694.00元/1个月起。本文为大家整理汇总了gpu云服务器的最新收费标准与活动价格情况,以供参考。
阿里云gpu云服务器租用价格:最新收费标准与活动价格及热门实例解析
|
2月前
|
弹性计算 固态存储 Linux
阿里云服务器、轻量应用服务器、gpu云服务器收费标准与实时活动价格参考
云服务器ECS、轻量应用服务器和gpu云服务器是阿里云的主要云服务器产品,目前轻量应用服务器2核2G收费标准为60元/月,活动价格只要36元/1年或68元1年,云服务器1核1G包月收费标准最低为24.0元/月,GPU云服务器中gn6i实例4核15G配置月付1681.00/1个月起,gn6v实例8核32G配置月付3817.00/1个月起。本文为大家整理汇总了阿里云服务器、轻量应用服务器、gpu云服务器的最新收费标准与活动价格情况,以表格形式展示给大家,以供参考。
|
17天前
|
机器学习/深度学习 人工智能 编解码
阿里云GPU云服务器优惠收费标准,GPU服务器优缺点与适用场景详解
随着人工智能、大数据分析和高性能计算的发展,对计算资源的需求不断增加。GPU凭借强大的并行计算能力和高效的浮点运算性能,逐渐成为处理复杂计算任务的首选工具。阿里云提供了从入门级到旗舰级的多种GPU服务器,涵盖GN5、GN6、GN7、GN8和GN9系列,分别适用于图形渲染、视频编码、深度学习推理、训练和高性能计算等场景。本文详细介绍各系列的规格、价格和适用场景,帮助用户根据实际需求选择最合适的GPU实例。

相关产品

  • 容器计算服务