kubernetes GPU共享的困境和破局-阿里云开发者社区

kubernetes GPU共享的困境和破局

2023-11-22 338

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： kubernetes GPU共享的困境和破局

kubernetes GPU的困境和破局

随着人工智能与机器学习技术的快速发展，在 Kubernetes 上运行模型训练、图像处理类程序的需求日益增加，而实现这类需求的基础，就是 Kubernetes 对 GPU 等硬件加速设备的支持与管理。

kubernetes 调度 GPU-使用篇

Kubernetes 支持对节点上的 AMD 和 NVIDIA GPU （图形处理单元）进行管理，目前处于实验状态。

在 GPU 的支持上，最基本的诉求其实非常简单：我只要在 Pod 的 YAML 里面，声明某容器需要的 GPU 个数，那么 Kubernetes 为我创建的容器里就应该出现对应的 GPU 设备，以及它对应的驱动目录。

以 NVIDIA 的 GPU 设备为例，上面的需求就意味着当用户的容器被创建之后，这个容器里必须出现如下两部分设备和目录：

GPU 设备，比如 /dev/nvidia0；

GPU 驱动目录，比如 /usr/local/nvidia/*。

其中，GPU 设备路径，正是该容器启动时的 Devices 参数；而驱动目录，则是该容器启动时的 Volume 参数。

所以，在 Kubernetes 的 GPU 支持的实现里，**kubelet 实际上就是将上述两部分内容，设置在了创建该容器的 CRI （Container

相关实践学习

深入解析Docker容器化技术

Docker是一个开源的应用容器引擎，让开发者可以打包他们的应用以及依赖包到一个可移植的容器中，然后发布到任何流行的Linux机器上，也可以实现虚拟化，容器是完全使用沙箱机制，相互之间不会有任何接口。Docker是世界领先的软件容器平台。开发人员利用Docker可以消除协作编码时“在我的机器上可正常工作”的问题。运维人员利用Docker可以在隔离容器中并行运行和管理应用，获得更好的计算密度。企业利用Docker可以构建敏捷的软件交付管道，以更快的速度、更高的安全性和可靠的信誉为Linux和Windows Server应用发布新功能。在本套课程中，我们将全面的讲解Docker技术栈，从环境安装到容器、镜像操作以及生产环境如何部署开发的微服务应用。本课程由黑马程序员提供。     相关的阿里云产品：容器服务 ACK 容器服务 Kubernetes 版（简称 ACK）提供高性能可伸缩的容器应用管理能力，支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力，打造云端最佳容器化应用运行环境。了解产品详情: https://www.aliyun.com/product/kubernetes

kubernetes GPU共享的困境和破局

kubernetes GPU的困境和破局

kubernetes 调度 GPU-使用篇

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

kubernetes GPU共享的困境和破局

kubernetes GPU的困境和破局

kubernetes 调度 GPU-使用篇

热门文章

最新文章

相关课程

相关电子书

相关实验场景