带你读《弹性计算技术指导及场景应用》——4. 自动安装NVIDIA GPU驱动和CUDA组件

本文涉及的产品
云服务器 ECS,u1 2核4GB 3个月
云服务器 ECS,每月免费额度200元 3个月
云服务器 ECS,u1 4核16GB 1个月
简介: 带你读《弹性计算技术指导及场景应用》——4. 自动安装NVIDIA GPU驱动和CUDA组件

简介:GPU 云服务器正常工作需提前安装正确的基础设施软件,对于搭载了 NVIDIA 系列 GPU卡的实例而言,如果把 NVIDIA GPU 用作通用计算,则需安装 NVIDIA GPU 驱动、 CUDAcuDNN等软件。

背景

GPU 云服务器正常工作需提前安装正确的基础设施软件,对于搭载了NVIDIA 系列 GPU卡的实例而言,如果把 NVIDIA GPU 用作通用计算,则需安装 NVIDIA GPU 驱动、CUDAcuDNN等软件。

安装NVIDIA GPU驱动和CUDA等软件的流程大概分为如下几步:

∙        确定需要使用的GPU驱动、CUDA版本

∙        找到正确的下载链接

∙        下载安装包

∙        安装依赖包

∙        安装驱动或CUDA

GPU云服务器售卖的NVIDIA卡规格实例基本都是Telsa系列的卡,我们的很多用户以前并没有使用过,或者很多用户以前并没有使用过NVIDIA GPU,更不要说安装这些基础软件了,那么客户在实际的安装操作过程中会遇到很多问题:

∙        不知道需要下载哪个版本,或者下载的GPU驱动与CUDA安装包版本不匹配,导致报错

∙        下载错误的GPU驱动,很多用户会下载GeForce消费卡驱动,不匹配,导致报错

∙        NVIDIA官网提供的下载源是国外源,网络不稳定导致下载慢、下载失败

∙        不知道如何安装依赖包

∙        在安装驱动或CUDA的过程中出现的问题无法解决

对于A100 卡裸金属实例,很多用户不知道还要额外安装与驱动版本对应的nvidia-fabricmanager软件

用户自己安装可能花费时间较久,在用户的应用部署起来之前就已经花费比较多的费用,用户体验很差。用户在安装过程中遇到的各种问题都会提工单寻求帮助,导致值班同学每天要处理很多安装软件相关的工单,占用了大量的时间。在这种情况下GPU自动安装诞生了。

GPU自动安装介绍

为解决用户的问题,提升用户体验,我们制定了2种解决方案:

∙        在镜像市场提供预装好NVIDIA GPU驱动/CUDA/cuDNN软件的自定义镜像,用户在购买GPU实例时可以直接选择这些镜像来创建实例, 方便快捷,适用于对GPU驱动/CUDA版本要求不高的用户。

∙        GPU实例购买页面提供“安装GPU驱动”的勾选框,提供了多个GPU驱动、CUDAcuDNN版本供客户灵活选择,用户在实例购买页面选择GPU实例规格后,对于支持GPU自动安装的公共镜像操作系统版本,可以选择自己想要安装的GPU驱动、CUDAcuDNN版本,在实例创建并启动后会自动进行相关软件的下载和安装,无需用户参与。

如果在购买页没有勾选GPU自动安装,那么在实例创建后,在实例内执行自动安装脚本也可以实现NVIDIA GPU驱动及CUDA/cuDNN库的自动安装。

GPU自动安装的整个过程只需要10分钟左右,用户在登录实例后,如果安装正在进行,用户可以直观的看到安装正在进行到哪一步,在安装完成后也会提示用户安装是否成功。

此外,对于GPU云服务器提供的支持ERI的高带宽实例规格ebmgn7exebmgn7vebmgn7ix,支持RMDA的高带宽超算集群实例规格sccgn7ex,如果想要使能eRDMARDMA,需要安装eRDMA/RDMA相关的软件栈,GPU自动安装也能帮助客户进行一键安装。

GPU自动安装极大的方便了用户安装使用GPU所必须的基础软件,提升了用户体验,在GPU自动安装发布后,GPU云服务器实例的工单量降低了1/3, 为值班同学节省了大量的时间。

GPU自动安装的使用

1)     购买实例时选择安装GPU驱动

在云服务器创建实例的过程中,选择要购买的具体规格,并在镜像区域的公共镜像中,选择所需的Linux操作系统及版本,选择后对于支持自动安装GPU驱动的规格和操作系统,会出现 “安装GPU驱动”勾选框,勾选后即可按需选择GPU驱动、CUDA cuDNN 版本。如下图所示:

image.png

2)     实例购买后,自动安装GPU驱动

如果用户在创建实例时,没有选择安装GPU驱动, 对于支持自动安装GPU驱动的规格和操作系统,用户可以在实例内通过执行脚本的方式来自动安装GPU驱动、CUDAcuDNN。

image.png

3)     RDMA/eRDMA软件栈自动安装

image.png

4)     镜像市场购买

在镜像市场搜索NVIDIA关键字,可以找到并使用预装好GPU驱动/CUDA/cuDNN软件的镜像创建实例,免去安装过程,客户可以直接部署自己的应用,帮助客户节省时间。

更多关于GPU自动安装及如何使用的介绍可以参考帮助文档:https://help.aliyun.com/zh/egs/user-guide/create-a-linux-gpu-accelerated-instance-configured-with-a-gpu-driver

相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
相关文章
|
12天前
|
Linux TensorFlow 算法框架/工具
安装GPU版本的TensorFlow
【7月更文挑战第3天】安装GPU版本的TensorFlow。
30 1
|
15天前
|
机器学习/深度学习 人工智能 弹性计算
阿里云GPU服务器全解析_GPU服务器租用费用_NVIDIA A10、V100、T4、P4、P100 GPU卡
阿里云GPU云服务器提供NVIDIA A10、V100、T4、P4、P100等多种GPU卡,结合高性能CPU,单实例计算性能高达5PFLOPS。支持2400万PPS及160Gbps内网带宽。实例规格多样,如A10卡GN7i(3213.99元/月)、V100-16G卡GN6v(3830.00元/月)等。适用于深度学习、科学计算、图形处理等场景。GPU软件如AIACC-Training、AIACC-Inference助力性能优化。购买方式灵活,客户案例包括深势科技、流利说、小牛翻译。
|
25天前
|
XML 机器学习/深度学习 监控
性能监控之Telegraf+InfluxDB+Grafana NVIDIA GPU实时监控
【6月更文挑战12天】性能监控之Telegraf+InfluxDB+Grafana NVIDIA GPU实时监控
34 0
|
2月前
|
TensorFlow 算法框架/工具 C++
在有GPU的windows上安装TensorFlow
在有GPU的windows上安装TensorFlow
52 0
|
2月前
|
Ubuntu Shell Docker
GPU_nvidia-container-toolkit安装和配置
GPU_nvidia-container-toolkit安装和配置
532 0
|
2月前
|
机器学习/深度学习 并行计算 算法框架/工具
Anaconda+Cuda+Cudnn+Pytorch(GPU版)+Pycharm+Win11深度学习环境配置
Anaconda+Cuda+Cudnn+Pytorch(GPU版)+Pycharm+Win11深度学习环境配置
392 3
|
2月前
|
并行计算 API C++
GPU 硬件与 CUDA 程序开发工具
GPU 硬件与 CUDA 程序开发工具
71 0
|
2月前
|
并行计算 API 开发工具
【GPU】GPU 硬件与 CUDA 程序开发工具
【GPU】GPU 硬件与 CUDA 程序开发工具
60 0
|
16天前
|
机器学习/深度学习 人工智能 弹性计算
阿里云GPU云服务器介绍_GPU租用费用_GPU优势和使用场景说明
阿里云GPU云服务器提供NVIDIA A10、V100、T4、P4、P100等GPU卡,结合高性能CPU,单实例计算性能高达5PFLOPS。支持多种实例规格,如A10卡GN7i、V100-16G卡GN6v等,应用于深度学习、科学计算等场景。GPU服务器租用费用因实例规格而异,如A10卡GN7i每月3213.99元起。阿里云还提供GPU加速软件如AIACC-Training、AIACC-Inference等。网络性能强大,VPC支持2400万PPS和160Gbps内网带宽。购买方式灵活,包括包年包月、按量付费等。客户案例包括深势科技、流利说和小牛翻译等。
|
16天前
|
Kubernetes Cloud Native 调度
《阿里云产品四月刊》—GPU Device-Plugin 相关操作(1)
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代

相关产品

  • GPU云服务器