GPU实例使用--vGPU驱动自动安装和升级

简介: 为了适配最新的渲染软件,以及驱动稳定性的提升,vGPU实例的驱动需要定期进行升级,因为使用vgpu的客户多数为渲染和云游戏等业务场景,对vGPU驱动的快速升级和批量自动化要求比较高。

背景

为了适配最新的渲染软件,以及驱动稳定性的提升,vGPU实例的驱动需要定期进行升级,因为使用vgpu的客户多数为渲染和云游戏等业务场景,对vGPU驱动的快速升级和批量自动化要求比较高,这些升级操作在没有完全自动化以前,每次版本升级需要投入的人力都在1-2人月,为了有效降低运维人力投入以及客户侧运维的投入并提升运维升级的效率,为此我们提供了多种vGPU驱动升级方案,本篇主要介绍使用云助手插件自动完成vGPU驱动安装和升级。

适用场景

针对的客户场景主要是云桌面和云游戏等客户,要求使用最新的GRID驱动以适配最新的渲染软件和游戏引擎,同时又需要具备批量自动化的运维方式支持,也同样适用于购买了GPU或者vGPU实例后,需要进行图形加速能力而不知道应该具体安装哪款GRID驱动的用户,只需要通过云助手执行一条指令就可以自动完成GRID驱动的升级或者全新安装,云助手本身支持批量调用。

实现原理

1.png

使用方法:

1.Windows系统:

1)登录ECS管理控制台

2)在左侧导航栏,选择运维与监控 > 发送命令/文件(云助手)

3)在页面左侧顶部,选择目标资源所在的地域。

2.png

4)在ECS实例页签下的实例列表,选择目标实例,单击对应操作栏下的执行命令

3.png

5)通过创建并执行云助手命令来升级或安装GRID驱动。

4.png

Windows系统执行命令行如下(直接复制粘贴即可):

$InstalledPlugins = $(acs-plugin-manager --list --local)
if ($($InstalledPlugins | Select-String "grid_driver_install"))
   {
     acs-plugin-manager --remove --plugin grid_driver_install
   } 
acs-plugin-manager --fetchTimeout 0 --exec --plugin grid_driver_install


6) 执行命令行后,可能会返回两种结果,1是改实例未安装过GRID驱动,进行全新安装,2是该实例已经安装过旧版本的GRID驱动,需要升级安装。区别就是驱动的升级安装是执行2次同样的命令行,系统内部会自动就行逻辑处理,全新安装只需要执行一次命令行。



下图是已经安装过旧版本GRID驱动,需要先卸载旧版本驱动,再安装新版本驱动:

卸载完旧版本驱动之后需要重启一次实例,然后再次执行上面给的命令行进行驱动安装

5.png

下图是全新安装驱动的返回日志截图:

6.png

7)验证升级或安装的GRID驱动是否生效

安装完成后,重启实例,然后远程连接实例,桌面右键打开 NVIDIA控制面板

7.png



显示结果如下所示,表示安装的新GRID驱动已生效

8.png


2.Linux系统

1)登录ECS管理控制台

2)在左侧导航栏,选择运维与监控 > 发送命令/文件(云助手)

3)在页面左侧顶部,选择目标资源所在的地域。

9.png

4)在ECS实例页签下的实例列表,选择目标实例,单击对应操作栏下的执行命令

10.png

5)通过创建并执行云助手命令来升级或安装GRID驱动。

11.png

6) 执行命令行,Linux系统因为卸载驱动和安装驱动可以自动完成,不需要重启实例,所以不管是全新安装还是升级安装,都是只需执行一次命令行即可。

Linux系统执行命令行如下(直接复制粘贴即可):

if acs-plugin-manager --list --local | grep grid_driver_install > /dev/null 2>&1
then
acs-plugin-manager --remove --plugin grid_driver_install
fi
acs-plugin-manager --exec --plugin grid_driver_install

命令执行之后的日志截图:

12.png

7)验证升级或安装的GRID驱动是否生效

安装完成后,然后远程连接实例,执行 nvidia-smi指令,显示结果如下图,表示已成功升级或安装GRID驱动。

13.png

我们更欢迎您分享您对阿里云产品的设想、对功能的建议或者各种吐槽,请扫描提交问卷并获得社区积分或精美礼品一份。https://survey.aliyun.com/apps/zhiliao/P4y44bm_8

【扫码填写上方调研问卷】

欢迎每位来到弹性计算的开发者们来反馈问题哦~

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
4月前
|
机器学习/深度学习 编解码 人工智能
阿里云gpu云服务器租用价格:最新收费标准与活动价格及热门实例解析
随着人工智能、大数据和深度学习等领域的快速发展,GPU服务器的需求日益增长。阿里云的GPU服务器凭借强大的计算能力和灵活的资源配置,成为众多用户的首选。很多用户比较关心gpu云服务器的收费标准与活动价格情况,目前计算型gn6v实例云服务器一周价格为2138.27元/1周起,月付价格为3830.00元/1个月起;计算型gn7i实例云服务器一周价格为1793.30元/1周起,月付价格为3213.99元/1个月起;计算型 gn6i实例云服务器一周价格为942.11元/1周起,月付价格为1694.00元/1个月起。本文为大家整理汇总了gpu云服务器的最新收费标准与活动价格情况,以供参考。
阿里云gpu云服务器租用价格:最新收费标准与活动价格及热门实例解析
|
4月前
|
机器学习/深度学习 人工智能 并行计算
GPU算力平台:数字化转型的核心驱动力
【8月更文第5天】随着人工智能(AI)、大数据分析以及高性能计算需求的不断增长,图形处理器(GPU)因其卓越的并行计算能力而成为加速这些领域的关键技术。GPU算力平台不仅能够显著提升计算效率,还能帮助企业更好地处理大规模数据集,支持复杂的机器学习模型训练,并促进实时数据分析。本文将探讨GPU算力平台在数字化转型中的核心作用,并通过示例代码展示其在实际应用中的优势。
280 1
|
3月前
|
机器学习/深度学习 存储 人工智能
阿里云GPU云服务器实例规格gn6v、gn7i、gn6i实例性能及区别和选择参考
阿里云的GPU云服务器产品线在深度学习、科学计算、图形渲染等多个领域展现出强大的计算能力和广泛的应用价值。本文将详细介绍阿里云GPU云服务器中的gn6v、gn7i、gn6i三个实例规格族的性能特点、区别及选择参考,帮助用户根据自身需求选择合适的GPU云服务器实例。
阿里云GPU云服务器实例规格gn6v、gn7i、gn6i实例性能及区别和选择参考
|
4月前
|
Serverless API 异构计算
函数计算产品使用问题之gpu实例函数该如何创建
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
4月前
|
并行计算 TensorFlow 算法框架/工具
Windows11+CUDA12.0+RTX4090如何配置安装Tensorflow2-GPU环境?
本文介绍了如何在Windows 11操作系统上,配合CUDA 12.0和RTX4090显卡,通过创建conda环境、安装特定版本的CUDA、cuDNN和TensorFlow 2.10来配置TensorFlow GPU环境,并提供了解决可能遇到的cudnn库文件找不到错误的具体步骤。
536 3
|
4月前
|
并行计算 TensorFlow 算法框架/工具
Window安装TensorFlow-GPU版本
Window安装TensorFlow-GPU版本
66 0
|
5月前
|
Linux TensorFlow 算法框架/工具
安装GPU版本的TensorFlow
【7月更文挑战第3天】安装GPU版本的TensorFlow。
241 1
|
5月前
|
存储 监控 Serverless
函数计算产品使用问题之T4和A10 GPU实例的区别有哪些
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
5月前
|
弹性计算 文字识别 异构计算
印刷文字识别使用问题之如何创建GPU实例
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
6月前
|
运维 Serverless 文件存储
Serverless 应用引擎产品使用合集之函数实例运行期间相关的依赖资源(vcpu、临时磁盘、GPU)是否会随函数运行完毕而释放
阿里云Serverless 应用引擎(SAE)提供了完整的微服务应用生命周期管理能力,包括应用部署、服务治理、开发运维、资源管理等功能,并通过扩展功能支持多环境管理、API Gateway、事件驱动等高级应用场景,帮助企业快速构建、部署、运维和扩展微服务架构,实现Serverless化的应用部署与运维模式。以下是对SAE产品使用合集的概述,包括应用管理、服务治理、开发运维、资源管理等方面。

相关产品

  • GPU云服务器