带你读《弹性计算技术指导及场景应用》——4. 自动安装NVIDIA GPU驱动和CUDA组件

本文涉及的产品
云服务器 ECS,每月免费额度200元 3个月
云服务器ECS,u1 2核4GB 1个月
简介: 带你读《弹性计算技术指导及场景应用》——4. 自动安装NVIDIA GPU驱动和CUDA组件

简介:GPU 云服务器正常工作需提前安装正确的基础设施软件,对于搭载了 NVIDIA 系列 GPU卡的实例而言,如果把 NVIDIA GPU 用作通用计算,则需安装 NVIDIA GPU 驱动、 CUDAcuDNN等软件。

背景

GPU 云服务器正常工作需提前安装正确的基础设施软件,对于搭载了NVIDIA 系列 GPU卡的实例而言,如果把 NVIDIA GPU 用作通用计算,则需安装 NVIDIA GPU 驱动、CUDAcuDNN等软件。

安装NVIDIA GPU驱动和CUDA等软件的流程大概分为如下几步:

∙        确定需要使用的GPU驱动、CUDA版本

∙        找到正确的下载链接

∙        下载安装包

∙        安装依赖包

∙        安装驱动或CUDA

GPU云服务器售卖的NVIDIA卡规格实例基本都是Telsa系列的卡,我们的很多用户以前并没有使用过,或者很多用户以前并没有使用过NVIDIA GPU,更不要说安装这些基础软件了,那么客户在实际的安装操作过程中会遇到很多问题:

∙        不知道需要下载哪个版本,或者下载的GPU驱动与CUDA安装包版本不匹配,导致报错

∙        下载错误的GPU驱动,很多用户会下载GeForce消费卡驱动,不匹配,导致报错

∙        NVIDIA官网提供的下载源是国外源,网络不稳定导致下载慢、下载失败

∙        不知道如何安装依赖包

∙        在安装驱动或CUDA的过程中出现的问题无法解决

对于A100 卡裸金属实例,很多用户不知道还要额外安装与驱动版本对应的nvidia-fabricmanager软件

用户自己安装可能花费时间较久,在用户的应用部署起来之前就已经花费比较多的费用,用户体验很差。用户在安装过程中遇到的各种问题都会提工单寻求帮助,导致值班同学每天要处理很多安装软件相关的工单,占用了大量的时间。在这种情况下GPU自动安装诞生了。

GPU自动安装介绍

为解决用户的问题,提升用户体验,我们制定了2种解决方案:

∙        在镜像市场提供预装好NVIDIA GPU驱动/CUDA/cuDNN软件的自定义镜像,用户在购买GPU实例时可以直接选择这些镜像来创建实例, 方便快捷,适用于对GPU驱动/CUDA版本要求不高的用户。

∙        GPU实例购买页面提供“安装GPU驱动”的勾选框,提供了多个GPU驱动、CUDAcuDNN版本供客户灵活选择,用户在实例购买页面选择GPU实例规格后,对于支持GPU自动安装的公共镜像操作系统版本,可以选择自己想要安装的GPU驱动、CUDAcuDNN版本,在实例创建并启动后会自动进行相关软件的下载和安装,无需用户参与。

如果在购买页没有勾选GPU自动安装,那么在实例创建后,在实例内执行自动安装脚本也可以实现NVIDIA GPU驱动及CUDA/cuDNN库的自动安装。

GPU自动安装的整个过程只需要10分钟左右,用户在登录实例后,如果安装正在进行,用户可以直观的看到安装正在进行到哪一步,在安装完成后也会提示用户安装是否成功。

此外,对于GPU云服务器提供的支持ERI的高带宽实例规格ebmgn7exebmgn7vebmgn7ix,支持RMDA的高带宽超算集群实例规格sccgn7ex,如果想要使能eRDMARDMA,需要安装eRDMA/RDMA相关的软件栈,GPU自动安装也能帮助客户进行一键安装。

GPU自动安装极大的方便了用户安装使用GPU所必须的基础软件,提升了用户体验,在GPU自动安装发布后,GPU云服务器实例的工单量降低了1/3, 为值班同学节省了大量的时间。

GPU自动安装的使用

1)     购买实例时选择安装GPU驱动

在云服务器创建实例的过程中,选择要购买的具体规格,并在镜像区域的公共镜像中,选择所需的Linux操作系统及版本,选择后对于支持自动安装GPU驱动的规格和操作系统,会出现 “安装GPU驱动”勾选框,勾选后即可按需选择GPU驱动、CUDA cuDNN 版本。如下图所示:

image.png

2)     实例购买后,自动安装GPU驱动

如果用户在创建实例时,没有选择安装GPU驱动, 对于支持自动安装GPU驱动的规格和操作系统,用户可以在实例内通过执行脚本的方式来自动安装GPU驱动、CUDAcuDNN。

image.png

3)     RDMA/eRDMA软件栈自动安装

image.png

4)     镜像市场购买

在镜像市场搜索NVIDIA关键字,可以找到并使用预装好GPU驱动/CUDA/cuDNN软件的镜像创建实例,免去安装过程,客户可以直接部署自己的应用,帮助客户节省时间。

更多关于GPU自动安装及如何使用的介绍可以参考帮助文档:https://help.aliyun.com/zh/egs/user-guide/create-a-linux-gpu-accelerated-instance-configured-with-a-gpu-driver

相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
相关文章
|
2月前
|
机器学习/深度学习 并行计算 API
【GPU】CUDA是什么?以及学习路线图!
【GPU】CUDA是什么?以及学习路线图!
95 0
|
13天前
|
机器学习/深度学习 并行计算 算法框架/工具
Anaconda+Cuda+Cudnn+Pytorch(GPU版)+Pycharm+Win11深度学习环境配置
Anaconda+Cuda+Cudnn+Pytorch(GPU版)+Pycharm+Win11深度学习环境配置
|
22天前
|
弹性计算 云计算 虚拟化
GPU云服务器_GPU云计算_异构计算_弹性计算-阿里云
阿里云提供多种GPU服务器,包括NVIDIA V100、T4、A10和A100计算卡,其中gn6i实例享有最高3折优惠。包年包月价格如:gn6v实例(16G V100)从4685.20元/月起,gn6i实例(16G T4)从1878.40元/月起。学生无特定GPU服务器优惠,但新用户有折扣活动。GPU服务器计费模式有包年包月和按小时计费,按需选择。详细价格及活动规则见官方链接。
10 0
GPU云服务器_GPU云计算_异构计算_弹性计算-阿里云
|
1月前
|
并行计算 API C++
GPU 硬件与 CUDA 程序开发工具
GPU 硬件与 CUDA 程序开发工具
50 0
|
2月前
|
并行计算 API 开发工具
【GPU】GPU 硬件与 CUDA 程序开发工具
【GPU】GPU 硬件与 CUDA 程序开发工具
43 0
|
2月前
|
机器学习/深度学习 并行计算 流计算
【GPU】GPU CUDA 编程的基本原理是什么?
【GPU】GPU CUDA 编程的基本原理是什么?
49 0
|
3月前
|
人工智能 弹性计算 Ubuntu
【Hello AI】安装并使用Deepnccl-多GPU互联的AI通信加速库
Deepnccl是为阿里云神龙异构产品开发的用于多GPU互联的AI通信加速库,能够无感地加速基于NCCL通信算子调用的分布式训练或多卡推理等任务。本文主要介绍在Ubuntu或CentOS操作系统的GPU实例上安装和使用Deepnccl的操作方法。
|
3月前
|
人工智能 弹性计算 数据安全/隐私保护
带你读《弹性计算技术指导及场景应用》——1. 用AI唤醒老照片里的记忆(GPU版)
带你读《弹性计算技术指导及场景应用》——1. 用AI唤醒老照片里的记忆(GPU版)
|
3月前
|
弹性计算 人工智能 物联网
带你读《弹性计算技术指导及场景应用》——2. 三张搞定AI形象照,开启GPU即刻体验
带你读《弹性计算技术指导及场景应用》——2. 三张搞定AI形象照,开启GPU即刻体验
|
3月前
|
人工智能 机器人 Serverless
魔搭大模型一键部署到阿里云函数计算,GPU 闲置计费功能可大幅降低开销
魔搭大模型一键部署到阿里云函数计算,GPU 闲置计费功能可大幅降低开销
583 2

相关产品

  • GPU云服务器