《阿里云产品四月刊》—GPU Device-Plugin 相关操作(1)

本文涉及的产品
容器服务 Serverless 版 ACK Serverless,317元额度 多规格
容器服务 Serverless 版 ACK Serverless,952元额度 多规格
简介: 阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代

本文来源于阿里云社区电子书《阿里云产品四月刊》


GPU 设备插件(GPU Device-Plugin)Kubernetes 集群中用于管理每个节点的 GPU 的组件,它使得 Kubernetes 能够更方便、高效地利用 GPU 资源。本文介绍在独占 GPU 调度场景下,如何对节点的 GPU Device-Plugin 进行重启和 GPU 设备隔离等操作,以及如何查看和更新 Device-Plugin 版本。

 

GPU Device-Plugin 重启

ACK 的独占 GPU 调度场景下,节点上 GPU 的设备上报的 Device Plugin 默认以一个Static Pod 的形式部署,所以重启过程需要在目标节点上进行。具体操作如下:

mv
/etc/kubernetes/manifests/nvidia device plugin.yml
/etc/kubernetes/
# 等待几秒,旧 Pod 被清理的过程。
mv
/etc/kubernetes/nvidia device plugin.yml
/etc/kubernetes/manifests/

 

GPU 设备隔离

重要

GPU 设备隔离操作仅支持在 nvidia-device-plugin 的 v0.9.1 及以上版本中使用。如何查看 nvidia-device-plugin 的版本,请参见查看并更新 Device-Plugin 版本

 

在 ACK 的独占 GPU 调度场景下,出于某些原因(例如 GPU 设备故障等),您需要隔离节点上的某个 GPU 设备,ACK 提供了一个机制可供您手动对节点上的某个设备进行隔离,以避免新的 Kubernetes 设备调度到这个设备上。具体的操作方式如下:

 

在目标节点/etc/nvidia-device-plugin/的目录下操作  unhealthyDevices.json   这个文件,如果此文件不存在,请新建此文件。unhealthyDevices.json 的文件格式请按照以下 JSON 格式编排。

 

 

{
"index": ["x", "x" ..],
"uuid": ["xxx", "xxx" ..]}

 

您可以根据个人偏好,在 JSON 中填写目标隔离设备的 index  uuid同一个设备只需填写任意一个),保存文件后即自动生效。

 

设 置 完 成 后 , 您 可 以 通 过 查 看 Kubernetes Node 上 报 的 Resource 中 的nvidia.com/gpu 资源的数量以查看隔离的效果。


查看并更新 Device-Plugin 版本

您在目标节点上/etc/kubernetes/manifests/nvidia-device-plugin.yml      文件中查看的 device-plugin 的镜像 Tag,其所代表的版本号即为 Device-Plugin 的版本。

 

目前 ACK 所支持的最新的版本为 v0.9.1-3f942982-aliyun , 如需将节点中的nvidia-device-plugin 升级至最新版本,请将 nvidia-device-pluginstaticYAML 文件即/etc/kubernetes/manifests/nvidia-device-plugin.yml 更新为以下内容:

apiVersion: v1kind: Podmetadata:
annotations:
scheduler.alpha.kubernetes.io/critical pod: ""
labels:
component: nvidia device plugin
name: nvidia device plugin
namespace: kube systemspec:
priorityClassName: system node critical
hostNetwork: true
containers:
image:
registry <REGION ID> vpc.ack.aliyuncs.com/acs/k8s device plugin:v0.9.
1 3f942982 aliyun
# Image 中的<REGION ID>需要替换为您节点所在的阿里云的 Region Id,例如cn beijing、cn hangzhou 等。
name: nvidia device plugin ctr
args:
[" fail on init error=false"," pass device specs=true"," device i
d strategy=index"]
livenessProbe:
httpGet:
path: /health
port: 30080
initialDelaySeconds: 10
timeoutSeconds: 2
periodSeconds: 5
failureThreshold: 3
resources:
limits:
memory: "200Mi"
cpu: "500m"
env:
name: DP DISABLE HEALTHCHECKS
value: all
securityContext:
allowPrivilegeEscalation: false
capabilities:
drop: ["ALL"]
volumeMounts:
name: device plugin
mountPath: /var/lib/kubelet/device plugins
name: device plugin config
mountPath: /etc/nvidia device plugin
volumes:
name: device plugin
hostPath:
path: /var/lib/kubelet/device plugins
name: device plugin config
hostPath:
path: /etc/nvidia device plugin
type: DirectoryOrCreate


 

相关文档

 

如遇到 GPU 节点相关问题,请参见自助诊断 GPU 节点问题GPU FAQ如需了解共享 GPU 调度的相关信息,请参见共享 GPU 调度概述

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
2月前
|
机器学习/深度学习 编解码 人工智能
阿里云gpu云服务器租用价格:最新收费标准与活动价格及热门实例解析
随着人工智能、大数据和深度学习等领域的快速发展,GPU服务器的需求日益增长。阿里云的GPU服务器凭借强大的计算能力和灵活的资源配置,成为众多用户的首选。很多用户比较关心gpu云服务器的收费标准与活动价格情况,目前计算型gn6v实例云服务器一周价格为2138.27元/1周起,月付价格为3830.00元/1个月起;计算型gn7i实例云服务器一周价格为1793.30元/1周起,月付价格为3213.99元/1个月起;计算型 gn6i实例云服务器一周价格为942.11元/1周起,月付价格为1694.00元/1个月起。本文为大家整理汇总了gpu云服务器的最新收费标准与活动价格情况,以供参考。
阿里云gpu云服务器租用价格:最新收费标准与活动价格及热门实例解析
|
2月前
|
存储 运维 Serverless
函数计算产品使用问题之如何解决代码需要多个gpu的问题
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
1月前
|
机器学习/深度学习 存储 人工智能
阿里云GPU云服务器实例规格gn6v、gn7i、gn6i实例性能及区别和选择参考
阿里云的GPU云服务器产品线在深度学习、科学计算、图形渲染等多个领域展现出强大的计算能力和广泛的应用价值。本文将详细介绍阿里云GPU云服务器中的gn6v、gn7i、gn6i三个实例规格族的性能特点、区别及选择参考,帮助用户根据自身需求选择合适的GPU云服务器实例。
阿里云GPU云服务器实例规格gn6v、gn7i、gn6i实例性能及区别和选择参考
|
2月前
|
编解码 分布式计算 Linux
最新阿里云服务器、轻量应用服务器、GPU云服务器活动价格参考
阿里云服务器产品包含云服务器、轻量应用服务器、GPU云服务器等,本文汇总了这些云服务器当下最新的实时活动价格情况,包含经济型e实例云服务器价格、通用算力型u1实例云服务器价格、第七代云服务器价格、轻量应用服务器最新价格、GPU云服务器价格,以供大家参考。
最新阿里云服务器、轻量应用服务器、GPU云服务器活动价格参考
|
2月前
|
Serverless API 异构计算
函数计算产品使用问题之gpu实例函数该如何创建
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
2月前
|
机器学习/深度学习 人工智能 弹性计算
阿里云AI服务器价格表_GPU服务器租赁费用_AI人工智能高性能计算推理
阿里云AI服务器提供多样化的选择,包括CPU+GPU、CPU+FPGA等多种配置,适用于人工智能、机器学习和深度学习等计算密集型任务。其中,GPU服务器整合高性能CPU平台,单实例可实现最高5PFLOPS的混合精度计算能力。根据不同GPU类型(如NVIDIA A10、V100、T4等)和应用场景(如AI训练、推理、科学计算等),价格从数百到数千元不等。详情及更多实例规格可见阿里云官方页面。
182 1
|
2月前
|
机器学习/深度学习 人工智能 调度
显著提升深度学习 GPU 利用率,阿里云拿下国际网络顶会优胜奖!
显著提升深度学习 GPU 利用率,阿里云拿下国际网络顶会优胜奖!
218 7
|
3月前
|
存储 运维 DataWorks
函数计算产品使用问题之如何开通GPU权限
阿里云Serverless 应用引擎(SAE)提供了完整的微服务应用生命周期管理能力,包括应用部署、服务治理、开发运维、资源管理等功能,并通过扩展功能支持多环境管理、API Gateway、事件驱动等高级应用场景,帮助企业快速构建、部署、运维和扩展微服务架构,实现Serverless化的应用部署与运维模式。以下是对SAE产品使用合集的概述,包括应用管理、服务治理、开发运维、资源管理等方面。
|
3月前
|
人工智能 运维 机器人
函数计算产品使用问题之怎么使用Serverless Devs创建GPU函数
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
3月前
|
存储 监控 Serverless
函数计算产品使用问题之T4和A10 GPU实例的区别有哪些
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。

热门文章

最新文章