Ubuntu下 NVIDIA Container Runtime 安装与使用

简介: Ubuntu下 NVIDIA Container Runtime 安装与使用

GitHub仓库:Docker 是开发人员采用最广泛的容器技术。借助 NVIDIA Container Runtime,开发人员只需在创建容器期间注册一个新的运行时,即可将 NVIDIA GPU 暴露给容器中的应用程序。用于 Docker 的 NVIDIA Container Runtime 是托管在GitHub 上的开源项目。

简介

NVIDIA Container Runtime is a GPU aware container runtime, compatible with the Open Containers Initiative (OCI) specification used by Docker, CRI-O, and other popular container technologies. It simplifies the process of building and deploying containerized GPU-accelerated applications to desktop, cloud or data centers.
NVIDIA Container Runtime 是一种 GPU 感知容器运行时,与 Docker、CRI-O 和其他流行容器技术使用的 Open Containers Initiative (OCI) 规范兼容。 它简化了构建容器化 GPU 加速应用程序并将其部署到桌面、云或数据中心的过程。

With NVIDIA Container Runtime supported container technologies like Docker, developers can wrap their GPU-accelerated applications along with its dependencies into a single package that is guaranteed to deliver the best performance on NVIDIA GPUs, regardless of the deployment environment.
借助 NVIDIA Container Runtime 支持的容器技术(如 Docker),开发人员可以将其 GPU 加速应用程序及其依赖项打包到一个包中,无论部署环境如何,都能保证在 NVIDIA GPU 上提供最佳性能。

安装

本文参考NVIDIA Container Toolkit 官方安装文档在 Ubuntu 22.04 中安装

环境要求

  • 已安装 NVIDIA Linux 驱动程序,且版本 >= 418.81.07
  • 内核版本 > 3.10 的GNU/Linux x86_64
  • Docker >= 19.03
  • 架构 >= Kepler(或计算能力 3.0)的 NVIDIA GPU

开始安装

  1. 设置包存储库和 GPG 密钥
distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \
      && curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \
      && curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.list | \
            sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
            sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
  1. 更新并下载安装 nvidia-docker2
sudo apt-get update

update可能会报错:

sudo apt-get update
E: Conflicting values set for option Signed-By regarding source /: /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg !=
E: The list of sources could not be read.

解决方案参见官方文档Conflicting values set for option Signed-By error when running apt update

sudo apt-get install -y nvidia-docker2
  1. 重启 Docker 守护进程并测试
sudo systemctl restart docker
sudo docker run --rm --gpus all nvidia/cuda:11.0.3-base-ubuntu20.04 nvidia-smi

看到类似如下的输出说明安装成功
在这里插入图片描述

使用示例

参考官方文档User Guide

添加 NVIDIA Runtime

因为在上文中已经安装了 nvidia-docker2 所以不需要添加 NVIDIA Runtime

设置环境变量

用户可以使用环境变量控制 NVIDIA 容器运行时的行为——尤其是枚举 GPU 和驱动程序的功能。
而在NVIDIA提供的基本的CUDA镜像中已经设置好了这些环境变量。

GPU枚举

使用 --gpus 或使用环境变量 NVIDIA_VISIBLE_DEVICES 可以控制容器能够使用哪些GPU

NVIDIA_VISIBLE_DEVICES 的取值如下所示

Possible values

Description

0,1,2, or GPU-fef8089b

a comma-separated list of GPU UUID(s) or index(es).(GPU UUID 或索引的逗号分隔列表)

all

all GPUs will be accessible, this is the default value in base CUDA container images.(所有的GPU都可以使用,这是基本的CUDA容器镜像使用的默认值)

none

no GPU will be accessible, but driver capabilities will be enabled.(所有GPU都不能使用,但启用了驱动程序的功能)

void or empty or unset

nvidia-container-runtime will have the same behavior as runc (i.e. neither GPUs nor capabilities are exposed)(GPU 和功能均未公开)

当使用 --gpu 指定GPU时,应同时使用 device 参数,示例如下

docker run --gpus '"device=1,2"' \
    nvidia/cuda nvidia-smi --query-gpu=uuid --format=csv

启用所有的GPU

docker run --rm --gpus all nvidia/cuda nvidia-smi

使用 NVIDIA_VISIBLE_DEVICES 启用所有的GPU

docker run --rm --runtime=nvidia \
    -e NVIDIA_VISIBLE_DEVICES=all nvidia/cuda nvidia-smi

使用 NVIDIA_VISIBLE_DEVICES 启用指定的GPU

docker run --rm --runtime=nvidia \
    -e NVIDIA_VISIBLE_DEVICES=1,2 \
    nvidia/cuda nvidia-smi --query-gpu=uuid --format=csv

启用两个GPU(Start a GPU enabled container on two GPUs)

docker run --rm --gpus 2 nvidia/cuda nvidia-smi

使用 nvidia-smi 查询 GPU UUID 然后将其指定给容器

nvidia-smi -i 3 --query-gpu=uuid --format=csv
uuid
GPU-18a3e86f-4c0e-cd9f-59c3-55488c4b0c24
docker run --gpus device=GPU-18a3e86f-4c0e-cd9f-59c3-55488c4b0c24 \
     nvidia/cuda nvidia-smi

驱动功能

NVIDIA_DRIVER_CAPABILITIES 控制将哪些驱动程序库/二进制文件挂载到容器中
NVIDIA_DRIVER_CAPABILITIES 取值如下

Possible values

Description

compute,video or graphics,utility

a comma-separated list of driver features the container needs.(容器需要的驱动程序功能的逗号分隔列表)

all

enable all available driver capabilities.(启用所有可用的驱动程序功能)

empty or unset

use default driver capability: utility, compute(使用默认驱动程序功能:utility,compute)

支持的驱动功能如下所示

Driver Capability

Description

compute

required for CUDA and OpenCL applications.

compat32

required for running 32-bit applications.

graphics

required for running OpenGL and Vulkan applications.

utility

required for using nvidia-smi and NVML.

video

required for using the Video Codec SDK.

display

required for leveraging X11 display.

例如,指定 compute 和 utility ,两种写法

docker run --rm --runtime=nvidia \
    -e NVIDIA_VISIBLE_DEVICES=2,3 \
    -e NVIDIA_DRIVER_CAPABILITIES=compute,utility \
    nvidia/cuda nvidia-smi
docker run --rm --gpus 'all,"capabilities=compute,utility"' \
    nvidia/cuda:11.0.3-base-ubuntu20.04 nvidia-smi

约束

NVIDIA runtime 还为容器提供了在配置文件中定义约束的功能

NVIDIA_REQUIRE_* 是一个逻辑表达式,用于定义容器上的软件版本或 GPU 架构的约束,下面是约束的具体内容

Constraint

Description

cuda

constraint on the CUDA driver version.

driver

constraint on the driver version.

arch

constraint on the compute architectures of the selected GPUs.

brand

constraint on the brand of the selected GPUs (e.g. GeForce, Tesla, GRID).

多个约束可以在单个环境变量中表示:空格分隔的约束是 ORed(或),逗号分隔的约束是 ANDed(与)。例如

NVIDIA_REQUIRE_CUDA "cuda>=11.0 driver>=450"

更多内容查看原文

Dockerfile

可以通过环境变量设置,例如

ENV NVIDIA_VISIBLE_DEVICES all
ENV NVIDIA_DRIVER_CAPABILITIES compute,utility

Docker Compose

rom-compose-v23-format-legacy)

Compose v2.3 写法

services:
  test:
    image: nvidia/cuda:10.2-base
    command: nvidia-smi
    runtime: nvidia

这种写法无法控制GPU的具体属性

更精细的控制

  • capabilities

值指定为字符串列表(例如。capabilities: [gpu])。您必须在 Compose 文件中设置此字段。否则,它会在服务部署时返回错误。

  • count

指定为 int 的值或all表示应保留的 GPU 设备数量的值(假设主机拥有该数量的 GPU)。

  • device_ids

指定为表示来自主机的 GPU 设备 ID 的字符串列表的值。可以在主机上的 nvidia-smi 输出中找到设备 ID 。

  • driver

指定为字符串的值(例如driver: 'nvidia')

  • options

表示驱动程序特定选项的键值对。

count 和 device_ids是互斥的。您一次只能定义一个字段。

有关这些属性的更多信息,请参阅 Compose Specification deploy中的部分。

例如,使用主机上的所有GPU和指定的驱动程序功能(虽然NVIDIA_DRIVER_CAPABILITIES取值可以是all,但是这里不能写all,会报错,只能写清楚每一个)

services:
  test:
    image: nvidia/cuda:10.2-base
    command: nvidia-smi
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [compute,graphics,video,utility,display]
相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
目录
相关文章
|
1月前
|
Ubuntu 网络协议 应用服务中间件
在 Ubuntu 上安装 Nginx
在 Ubuntu 上安装和配置 Nginx 非常简单。首先更新系统包,然后通过 `apt` 安装 Nginx,检查服务状态并配置防火墙规则。访问服务器 IP 测试是否成功显示默认页面。还可管理服务、创建虚拟主机及排查常见问题,适合新手快速上手部署高性能 Web 服务。
198 0
|
3月前
|
Ubuntu NoSQL JavaScript
在Ubuntu上安装MEAN Stack的4个步骤
本指南介绍了在Ubuntu上安装MEAN Stack的四个步骤。MEAN Stack是一种基于JavaScript的开发堆栈,包含MongoDB、ExpressJS、AngularJS和NodeJS。步骤包括:1. 更新系统并准备安装MEAN;2. 从官方源安装最新版MongoDB;3. 安装NodeJS、Git和NPM;4. 克隆mean.io仓库并使用NPM安装剩余依赖项。通过这些步骤,您可以快速搭建基于MEAN Stack的应用开发环境。
71 2
|
16天前
|
Ubuntu 开发工具
Ubuntu环境下以源码编译方式安装Vim的步骤介绍
以上就是在Ubuntu环境下以源码编译方式安装Vim的全部步骤。就像煮一杯咖啡,虽然过程中需要耐心和一些技巧,但等到你熟悉之后,你会发现,不仅可以定制自己喜欢的口味,过程中的乐趣也是不能忽视的。希望你在编译安装Vim的过程中,能体验到这份乐趣。
80 21
|
29天前
|
Ubuntu 定位技术 开发工具
在Ubuntu 20.04系统中安装SLAM库的具体操作步骤
以上是在Ubuntu 20.04系统中安装SLAM库的具体操作步骤。就像积木游戏,需要按照正确的步骤,适时地添加正确的部件,才能够构建出我们想要的积木模型。在现实操作中可能会遇到各种问题,就像积木构建中的各种困难,我们要有耐心和决心去解决它们,最后得到我们想要的结果。希望这个有趣的积木游戏比方能帮助你更好地理解SLAM库的安装过程,并在实际操作中得到应用。
81 34
|
16天前
|
Ubuntu 机器人 Shell
在Jetson TX2的Ubuntu18.04系统中安装ROS的教程
所有这些步骤并不复杂,但确实需要仔细一点。如果遇到问题,不要灰心,问题是解决问题的开始。保持耐心,细心阅读错误信息,通常情况下,问题的答案就藏在其中。祝ROS旅程顺利!
63 18
|
2月前
|
Ubuntu 关系型数据库 MySQL
在Ubuntu 22.04上配置和安装MySQL
以上就是在Ubuntu 22.04上配置和安装MySQL的步骤。这个过程可能看起来有点复杂,但只要按照步骤一步步来,你会发现其实并不难。记住,任何时候都不要急于求成,耐心是解决问题的关键。
232 30
|
1月前
|
Kubernetes Ubuntu 容器
在Ubuntu上安装kubectl、kubeadm和kubelet
好了,你已经掌握了在Ubuntu上安装kubectl、kubeadm和kubelet的高超技艺。是时候展示你新召唤出的力量,像一位真正的烹饪大师一样,开始独特的佳肴烹饪之旅吧!
91 13
|
2月前
|
Ubuntu Linux 编译器
在Ubuntu Linux系统下如何搭建并安装EDK2
以上就是在Ubuntu Linux系统下搭建并安装EDK2的过程。这个过程可能会有些复杂,但只要按照步骤一步步来,应该不会有太大问题。如果在过程中遇到任何问题,都可以在网上找到相应的解决方案。希望这个指南能对你有所帮助!
121 17
|
2月前
|
Ubuntu 关系型数据库 MySQL
在Ubuntu系统的Docker上安装MySQL的方法
以上的步骤就是在Ubuntu系统的Docker上安装MySQL的详细方法,希望对你有所帮助!
264 12
|
3月前
|
Ubuntu 安全 调度
在Ubuntu下安装Debian包:dpkg与apt命令的深度解构。
安装Debian包的知识,就像掌握了海上的航行技术,虽然起初会让人感到陌生甚至困惑,但只要你积累熟练,就能在Ubuntu的世界里畅游无阻。就像每一位成功的航海家,掌握好这些工具,去探索属于你的Ubuntu新世界吧!
134 21