《阿里云产品四月刊》—GPU Device-Plugin 相关操作（1）-阿里云开发者社区

《阿里云产品四月刊》—GPU Device-Plugin 相关操作（1）

2024-06-29 536

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 阿里云瑶池数据库云原生化和一体化产品能力升级，多款产品更新迭代

本文来源于阿里云社区电子书《阿里云产品四月刊》

GPU 设备插件（GPU Device-Plugin）是 Kubernetes 集群中用于管理每个节点的 GPU 的组件，它使得 Kubernetes 能够更方便、高效地利用 GPU 资源。本文介绍在独占 GPU 调度场景下，如何对节点的 GPU Device-Plugin 进行重启和 GPU 设备隔离等操作，以及如何查看和更新 Device-Plugin 版本。

GPU Device-Plugin 重启

在 ACK 的独占 GPU 调度场景下，节点上 GPU 的设备上报的 Device Plugin 默认以一个Static Pod 的形式部署，所以重启过程需要在目标节点上进行。具体操作如下：

mv
/etc/kubernetes/manifests/nvidia device plugin.yml
/etc/kubernetes/
# 等待几秒，旧 Pod 被清理的过程。
mv
/etc/kubernetes/nvidia device plugin.yml
/etc/kubernetes/manifests/

GPU 设备隔离

重要

GPU 设备隔离操作仅支持在 nvidia-device-plugin 的 v0.9.1 及以上版本中使用。如何查看 nvidia-device-plugin 的版本，请参见查看并更新 Device-Plugin 版本。

在 ACK 的独占 GPU 调度场景下，出于某些原因（例如 GPU 设备故障等），您需要隔离节点上的某个 GPU 设备，ACK 提供了一个机制可供您手动对节点上的某个设备进行隔离，以避免新的 Kubernetes 设备调度到这个设备上。具体的操作方式如下：

在目标节点/etc/nvidia-device-plugin/的目录下操作 unhealthyDevices.json 这个文件，如果此文件不存在，请新建此文件。unhealthyDevices.json 的文件格式请按照以下 JSON 格式编排。

{
"index": ["x", "x" ..],
"uuid": ["xxx", "xxx" ..]}

您可以根据个人偏好，在 JSON 中填写目标隔离设备的 index 或 uuid（同一个设备只需填写任意一个），保存文件后即自动生效。

设置完成后，您可以通过查看 Kubernetes Node 上报的 Resource 中的nvidia.com/gpu 资源的数量以查看隔离的效果。

查看并更新 Device-Plugin 版本

您在目标节点上/etc/kubernetes/manifests/nvidia-device-plugin.yml 文件中查看的 device-plugin 的镜像 Tag，其所代表的版本号即为 Device-Plugin 的版本。

目前 ACK 所支持的最新的版本为 v0.9.1-3f942982-aliyun ，如需将节点中的nvidia-device-plugin 升级至最新版本，请将 nvidia-device-plugin 的static 的YAML 文件即/etc/kubernetes/manifests/nvidia-device-plugin.yml 更新为以下内容：

apiVersion: v1kind: Podmetadata:
annotations:
scheduler.alpha.kubernetes.io/critical pod: ""
labels:
component: nvidia device plugin
name: nvidia device plugin
namespace: kube systemspec:
priorityClassName: system node critical
hostNetwork: true
containers:
image:
registry <REGION ID> vpc.ack.aliyuncs.com/acs/k8s device plugin:v0.9.
1 3f942982 aliyun
# Image 中的<REGION ID>需要替换为您节点所在的阿里云的 Region Id，例如cn beijing、cn hangzhou 等。
name: nvidia device plugin ctr
args:
[" fail on init error=false"," pass device specs=true"," device i
d strategy=index"]
livenessProbe:
httpGet:
path: /health
port: 30080
initialDelaySeconds: 10
timeoutSeconds: 2
periodSeconds: 5
failureThreshold: 3
resources:
limits:
memory: "200Mi"
cpu: "500m"
env:
name: DP DISABLE HEALTHCHECKS
value: all
securityContext:
allowPrivilegeEscalation: false
capabilities:
drop: ["ALL"]
volumeMounts:
name: device plugin
mountPath: /var/lib/kubelet/device plugins
name: device plugin config
mountPath: /etc/nvidia device plugin
volumes:
name: device plugin
hostPath:
path: /var/lib/kubelet/device plugins
name: device plugin config
hostPath:
path: /etc/nvidia device plugin
type: DirectoryOrCreate

《阿里云产品四月刊》—GPU Device-Plugin 相关操作（1）

GPU Device-Plugin 重启

GPU 设备隔离

查看并更新 Device-Plugin 版本

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

《阿里云产品四月刊》—GPU Device-Plugin 相关操作（1）

GPU Device-Plugin 重启

GPU 设备隔离

查看并更新 Device-Plugin 版本

热门文章

最新文章

相关课程

相关电子书

相关实验场景