开发者学堂课程【Serverless 容器从入门到精通: Serverless Kubernetes:GPU 机器学习开箱使用】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/646/detail/10732
GPU 机器学习开箱使用
内容简介
一、 ECI GPU 介绍
二、 ECI GPU 实现
三、 ECI GPU 使用
四、 演示实例
一、 ECI GPU 介绍
ECI GPU 实例为用户容器提供 NVIDIA GPU 资源以加速机器学习等业务的运行。
1. 预装 GPU 驱动:
用户无需安装和维护驱动;
2. 兼容 CRI 接口:
Kubernetes 可以直接对接 ECI GPU 实例进行调度和编排;
3. 一键式部署,开箱即用:
4. 利用官方容器镜像,用户只需要专注于业务功能的开发和实现,无需关心CUDA Toolkit/Tensorflow/MxNet 等工具和框架的搭建和部署。
5. 通过 ECI GPU 实例,用户可以一键式部署和运行经过 GPU 加速的机器学习等业务。
二、 ECI GPU 实现
用户容器若要使用 GPU,与其他实例不同,容器中的进程无法通过内核接口访问GPU 资源,必须通过 GPU 驱动库来与 GPU 进行交互。
ECIGPU 的实现方案本质上就是通过 NVIDIA 开源的 libnvidia-container 组件将 ECI 预装的 GPU 驱动的必要动态库文件挂载到用户容器中,从而使得用户容器可以通过 GPU 驱动的动态库文件访问到GPU资源。
1. containerd 向 runc 下发创建使用GPU的容器命令;
2. runc 创建容器时调用
prestart hook(nvidia- container-runtime-hook);
3. hook 调用 libnvidia-container 将必要的 GPU 驱动动态库挂载到容器上;
4. 创建好容器进程通过挂载的 GPU 驱动动态库访问并使用 GPU 资源。
一、 ECI GPU使用
ACK/ASK
metadata:
name:gpu-example
annotations:
k8s.allyun.com/eci-use-specs:ecs.gn6v-c8g1.8xlarge
spec:
containers:
-name:tensorflow
image:tensorflow/tensorf1ow:1.14.0-gpu
imagePullPolicy: IfNotPresent
resources;
limits:
nvidia.com/gpu:1
- name: mxnet
1mage:mxnet/python:1.4.1_gpu_cu100_py3
imagePullPolicy:IfNotPresent
resources:
limits:
nvidia.com/gpu:1
二、 演示实例
MNIST
1. 创建容器
apiVersion:v1
kind:Pod
metadata:
name: mnist-gpu-example
annotations:
k8s.aliyun.com/eci-use-specs:ecs.gn5i-c8g1.2xlarge
spec:
containers:
-name:pytorch
image: nvcr.io/nvidia/pytorch:18.05-py3
imagePullPolicy:IfNotPresent
args:["sleep","infinity"]
resources:
limits:
nvidia.com/gpu:1
2. 通过 Kubectl 登录到容器中执行 nvidia-smi 命令确认 GPU 可用;
3. 在 /workspace/examples/mnist 目录下执行 python main.py 开始训练任务。