GPU 机器学习开箱使用|学习笔记

本文涉及的产品
容器服务 Serverless 版 ACK Serverless,952元额度 多规格
容器服务 Serverless 版 ACK Serverless,317元额度 多规格
简介: 快速学习 GPU 机器学习开箱使用

开发者学堂课程【Serverless 容器从入门到精通: Serverless Kubernetes:GPU 机器学习开箱使用】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/646/detail/10732


GPU 机器学习开箱使用


内容简介

一、 ECI GPU 介绍

二、 ECI GPU 实现

三、 ECI GPU 使用

四、 演示实例


一、 ECI GPU 介绍

ECI GPU 实例为用户容器提供 NVIDIA GPU 资源以加速机器学习等业务的运行。

1. 预装 GPU 驱动:

用户无需安装和维护驱动;

2. 兼容 CRI 接口

Kubernetes 可以直接对接 ECI GPU 实例进行调度和编排;

3. 一键式部署,开箱即用:

4. 利用官方容器镜像,用户只需要专注于业务功能的开发和实现,无需关心CUDA Toolkit/Tensorflow/MxNet 等工具和框架的搭建和部署。

5. 通过 ECI GPU 实例,用户可以一键式部署和运行经过 GPU 加速的机器学习等业务。

 

二、 ECI GPU 实现

用户容器若要使用 GPU,与其他实例不同,容器中的进程无法通过内核接口访问GPU 资源,必须通过 GPU 驱动库来与 GPU 进行交互。

ECIGPU 的实现方案本质上就是通过 NVIDIA 开源的 libnvidia-container 组件将 ECI 预装的 GPU 驱动的必要动态库文件挂载到用户容器中,从而使得用户容器可以通过 GPU 驱动的动态库文件访问到GPU资源。

1. containerd 向 runc 下发创建使用GPU的容器命令;

2. runc 创建容器时调用

prestart hook(nvidia- container-runtime-hook);

3. hook 调用 libnvidia-container 将必要的 GPU 驱动动态库挂载到容器上;

4. 创建好容器进程通过挂载的 GPU 驱动动态库访问并使用 GPU 资源。

图片33.png


一、 ECI GPU使用

ACK/ASK

metadata:

name:gpu-example

annotations:

k8s.allyun.com/eci-use-specs:ecs.gn6v-c8g1.8xlarge

spec:

containers:

-name:tensorflow

image:tensorflow/tensorf1ow:1.14.0-gpu

imagePullPolicy: IfNotPresent

resources;

limits:

nvidia.com/gpu:1

- name: mxnet

1mage:mxnet/python:1.4.1_gpu_cu100_py3

imagePullPolicy:IfNotPresent

resources:

limits:

nvidia.com/gpu:1

 

二、 演示实例

MNIST

1. 创建容器

apiVersion:v1

kind:Pod

metadata:

name: mnist-gpu-example

annotations:

k8s.aliyun.com/eci-use-specs:ecs.gn5i-c8g1.2xlarge

spec:

containers:

-name:pytorch

image: nvcr.io/nvidia/pytorch:18.05-py3

imagePullPolicy:IfNotPresent

args:["sleep","infinity"]

resources:

limits:

nvidia.com/gpu:1

2. 通过 Kubectl 登录到容器中执行 nvidia-smi 命令确认 GPU 可用;

3. 在 /workspace/examples/mnist 目录下执行 python main.py 开始训练任务。

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
5月前
|
机器学习/深度学习 人工智能 Java
机器学习PAI报错问题之跑collective gpu分布式报错如何解决
人工智能平台PAI是是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务;本合集将收录PAI常见的报错信息和解决策略,帮助用户迅速定位问题并采取相应措施,确保机器学习项目的顺利推进。
|
5月前
|
机器学习/深度学习 并行计算 算法
龚大视频学习笔记:上帝视角看GPU(2)-逻辑上的模块划分
龚大视频学习笔记:上帝视角看GPU(2)-逻辑上的模块划分
98 0
|
5月前
|
机器学习/深度学习 弹性计算 TensorFlow
阿里云GPU加速:大模型训练与推理的全流程指南
随着深度学习和大规模模型的普及,GPU成为训练和推理的关键加速器。本文将详细介绍如何利用阿里云GPU产品完成大模型的训练与推理。我们将使用Elastic GPU、阿里云深度学习镜像、ECS(云服务器)等阿里云产品,通过代码示例和详细说明,带你一步步完成整个流程。
1841 0
|
5月前
|
机器学习/深度学习 数据可视化 PyTorch
零基础入门语义分割-地表建筑物识别 Task5 模型训练与验证-学习笔记
零基础入门语义分割-地表建筑物识别 Task5 模型训练与验证-学习笔记
493 2
|
2月前
|
API 图形学 异构计算
Unity3D学习笔记7——GPU实例化(2)
Unity3D学习笔记7——GPU实例化(2)
15 2
|
2月前
|
图形学 异构计算
Unity3D学习笔记8——GPU实例化(3)
Unity3D学习笔记8——GPU实例化(3)
31 0
|
2月前
|
存储 API 图形学
Unity3D学习笔记6——GPU实例化(1)
Unity3D学习笔记6——GPU实例化(1)
32 0
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能平台PAI产品使用合集之进入DSW后,如何把工作环境切换为GPU状态
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
5月前
|
机器学习/深度学习 人工智能 算法
为什么大模型训练需要GPU,以及适合训练大模型的GPU介绍
为什么大模型训练需要GPU,以及适合训练大模型的GPU介绍
217 1
|
5月前
|
存储 缓存 算法
龚大视频学习笔记:上帝视角看GPU(1)-图形流水线基础
龚大视频学习笔记:上帝视角看GPU(1)-图形流水线基础
196 0
龚大视频学习笔记:上帝视角看GPU(1)-图形流水线基础
下一篇
无影云桌面