GPU实例使用--自动安装NVIDIA GPU驱动和CUDA组件

简介: GPU 云服务器正常工作需提前安装正确的基础设施软件,对于搭载了 NVIDIA 系列 GPU卡的实例而言,如果把 NVIDIA GPU 用作通用计算,则需安装 NVIDIA GPU 驱动、 CUDA、cuDNN等软件。

背景

GPU 云服务器正常工作需提前安装正确的基础设施软件,对于搭载了 NVIDIA 系列 GPU卡的实例而言,如果把 NVIDIA GPU 用作通用计算,则需安装 NVIDIA GPU 驱动、 CUDA、cuDNN等软件。

安装NVIDIA GPU驱动和CUDA等软件的流程大概分为如下几步:

  1. 确定需要使用的GPU驱动、CUDA版本
  2. 找到正确的下载链接
  3. 下载安装包
  4. 安装依赖包
  5. 安装驱动或CUDA包

GPU云服务器售卖的NVIDIA卡规格实例基本都是Telsa系列的卡,我们的很多用户以前并没有使用过,或者很多用户以前并没有使用过NVIDIA GPU,更不要说安装这些基础软件了,那么客户在实际的安装操作过程中会遇到很多问题:

  1. 不知道需要下载哪个版本,或者下载的GPU驱动与CUDA安装包版本不匹配,导致报错
  2. 下载错误的GPU驱动,很多用户会下载GeForce消费卡驱动,不匹配,导致报错
  3. NVIDIA官网提供的下载源是国外源,网络不稳定导致下载慢、下载失败
  4. 不知道如何安装依赖包
  5. 在安装驱动或CUDA的过程中出现的问题无法解决
  6. 对于A100 卡裸金属实例,很多用户不知道还要额外安装与驱动版本对应的nvidia-fabricmanager软件

用户自己安装可能花费时间较久,在用户的应用部署起来之前就已经花费比较多的费用,用户体验很差。用户在安装过程中遇到的各种问题都会提工单寻求帮助,导致值班同学每天要处理很多安装软件相关的工单,占用了大量的时间。在这种情况下GPU自动安装诞生了。


GPU自动安装介绍

为解决用户的问题,提升用户体验,我们制定了2种解决方案:

  1. 在镜像市场提供预装好NVIDIA GPU驱动/CUDA/cuDNN软件的自定义镜像,用户在购买GPU实例时可以直接选择这些镜像来创建实例, 方便快捷,适用于对GPU驱动/CUDA版本要求不高的用户。
  2. 在GPU实例购买页面提供“安装GPU驱动”的勾选框,提供了多个GPU驱动、CUDA、cuDNN版本供客户灵活选择,用户在实例购买页面选择GPU实例规格后,对于支持GPU自动安装的公共镜像操作系统版本,可以选择自己想要安装的GPU驱动、CUDA、cuDNN版本,在实例创建并启动后会自动进行相关软件的下载和安装,无需用户参与。

如果在购买页没有勾选GPU自动安装,那么在实例创建后,在实例内执行自动安装脚本也可以实现NVIDIA GPU驱动及CUDA/cuDNN库的自动安装。

GPU自动安装的整个过程只需要10分钟左右,用户在登录实例后,如果安装正在进行,用户可以直观的看到安装正在进行到哪一步,在安装完成后也会提示用户安装是否成功。

此外,对于GPU云服务器提供的支持ERI的高带宽实例规格ebmgn7ex、ebmgn7v、ebmgn7ix,支持RMDA的高带宽超算集群实例规格sccgn7ex,如果想要使能eRDMA或RDMA,需要安装eRDMA/RDMA相关的软件栈,GPU自动安装也能帮助客户进行一键安装。

GPU自动安装极大的方便了用户安装使用GPU所必须的基础软件,提升了用户体验,在GPU自动安装发布后,GPU云服务器实例的工单量降低了1/3, 为值班同学节省了大量的时间。


GPU自动安装的使用

1.购买实例时选择安装GPU驱动

在云服务器创建实例的过程中,选择要购买的具体规格,并镜像区域的公共镜像中,选择所需的Linux操作系统及版本,选择后对于支持自动安装GPU驱动的规格和操作系统,会出现 “安装GPU驱动”勾选框,勾选后即可按需选择GPU驱动、CUDA 和 cuDNN 版本。如下图所示:

1.png



2.实例购买后,自动安装GPU驱动

如果用户在创建实例时,没有选择安装GPU驱动, 对于支持自动安装GPU驱动的规格和操作系统,用户可以在实例内通过执行脚本的方式来自动安装GPU驱动、CUDA及cuDNN。

2.png

3.RDMA/eRDMA软件栈自动安装

3.png



4.镜像市场购买

在镜像市场搜索NVIDIA关键字,可以找到并使用预装好GPU驱动/CUDA/cuDNN软件的镜像创建实例,免去安装过程,客户可以直接部署自己的应用,帮助客户节省时间。

更多关于GPU自动安装及如何使用的介绍可以参考帮助文档:https://help.aliyun.com/zh/egs/user-guide/create-a-linux-gpu-accelerated-instance-configured-with-a-gpu-driver

我们更欢迎您分享您对阿里云产品的设想、对功能的建议或者各种吐槽,请扫描提交问卷并获得社区积分或精美礼品一份。https://survey.aliyun.com/apps/zhiliao/P4y44bm_8

【扫码填写上方调研问卷】

欢迎每位来到弹性计算的开发者们来反馈问题哦~

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
9月前
|
Kubernetes 调度 异构计算
一文搞懂 GPU 共享方案: NVIDIA Time Slicing
本文主要分享 GPU 共享方案,包括如何安装、配置以及使用,最后通过分析源码了 TImeSlicing 的具体实现。通过配置 TImeSlicing 可以实现 Pod 共享一块物理 GPU,以提升资源利用率。
515 11
|
11月前
|
并行计算 PyTorch 算法框架/工具
融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践
本文探讨了如何通过技术手段混合使用AMD与NVIDIA GPU集群以支持PyTorch分布式训练。面对CUDA与ROCm框架互操作性不足的问题,文章提出利用UCC和UCX等统一通信框架实现高效数据传输,并在异构Kubernetes集群中部署任务。通过解决轻度与强度异构环境下的挑战,如计算能力不平衡、内存容量差异及通信性能优化,文章展示了如何无需重构代码即可充分利用异构硬件资源。尽管存在RDMA验证不足、通信性能次优等局限性,但该方案为最大化GPU资源利用率、降低供应商锁定提供了可行路径。源代码已公开,供读者参考实践。
1020 3
融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践
|
并行计算 TensorFlow 算法框架/工具
Windows11+CUDA12.0+RTX4090如何配置安装Tensorflow2-GPU环境?
本文介绍了如何在Windows 11操作系统上,配合CUDA 12.0和RTX4090显卡,通过创建conda环境、安装特定版本的CUDA、cuDNN和TensorFlow 2.10来配置TensorFlow GPU环境,并提供了解决可能遇到的cudnn库文件找不到错误的具体步骤。
2495 3
|
并行计算 TensorFlow 算法框架/工具
Window安装TensorFlow-GPU版本
Window安装TensorFlow-GPU版本
482 0
|
4月前
|
人工智能 算法 调度
阿里云ACK托管集群Pro版共享GPU调度操作指南
本文介绍在阿里云ACK托管集群Pro版中,如何通过共享GPU调度实现显存与算力的精细化分配,涵盖前提条件、使用限制、节点池配置及任务部署全流程,提升GPU资源利用率,适用于AI训练与推理场景。
437 1
|
4月前
|
人工智能 城市大脑 运维
喜讯!阿里云国产异构GPU云平台技术荣获“2025算力中国·年度重大成果”
2025年8月23日,在工业和信息化部新闻宣传中心、中国信息通信研究院主办的2025中国算力大会上,阿里云与浙江大学联合研发的“国产异构GPU云平台关键技术与系统”荣获「算力中国·年度重大成果」。该评选旨在选拔出算力产业具有全局性突破价值的重大成果,是业内公认的技术创新“风向标”。
535 0
|
9月前
|
存储 机器学习/深度学习 数据库
阿里云服务器X86/ARM/GPU/裸金属/超算五大架构技术特点、场景适配参考
在云计算技术飞速发展的当下,云计算已经渗透到各个行业,成为企业数字化转型的关键驱动力。选择合适的云服务器架构对于提升业务效率、降低成本至关重要。阿里云提供了多样化的云服务器架构选择,包括X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器以及高性能计算等。本文将深入解析这些架构的特点、优势及适用场景,以供大家了解和选择参考。
1320 61
|
存储 机器学习/深度学习 人工智能
2025年阿里云GPU服务器租用价格、选型策略与应用场景详解
随着AI与高性能计算需求的增长,阿里云提供了多种GPU实例,如NVIDIA V100、A10、T4等,适配不同场景。2025年重点实例中,V100实例GN6v单月3830元起,适合大规模训练;A10实例GN7i单月3213.99元起,适用于混合负载。计费模式有按量付费和包年包月,后者成本更低。针对AI训练、图形渲染及轻量级推理等场景,推荐不同配置以优化成本和性能。阿里云还提供抢占式实例、ESSD云盘等资源优化策略,支持eRDMA网络加速和倚天ARM架构,助力企业在2025年实现智能计算的效率与成本最优平衡。 (该简介为原文内容的高度概括,符合要求的字符限制。)
|
10月前
|
存储 机器学习/深度学习 算法
阿里云X86/ARM/GPU/裸金属/超算等五大服务器架构技术特点、场景适配与选型策略
在我们选购阿里云服务器的时候,云服务器架构有X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器、高性能计算可选,有的用户并不清楚他们之间有何区别。本文将深入解析这些架构的特点、优势及适用场景,帮助用户更好地根据实际需求做出选择。

热门文章

最新文章

相关产品

  • GPU云服务器