背景
为了适配最新的渲染软件,以及驱动稳定性的提升,vGPU实例的驱动需要定期进行升级,因为使用vgpu的客户多数为渲染和云游戏等业务场景,对vGPU驱动的快速升级和批量自动化要求比较高,这些升级操作在没有完全自动化以前,每次版本升级需要投入的人力都在1-2人月,为了有效降低运维人力投入以及客户侧运维的投入并提升运维升级的效率,为此我们提供了多种vGPU驱动升级方案,本篇主要介绍使用云助手插件自动完成vGPU驱动安装和升级。
适用场景
针对的客户场景主要是云桌面和云游戏等客户,要求使用最新的GRID驱动以适配最新的渲染软件和游戏引擎,同时又需要具备批量自动化的运维方式支持,也同样适用于购买了GPU或者vGPU实例后,需要进行图形加速能力而不知道应该具体安装哪款GRID驱动的用户,只需要通过云助手执行一条指令就可以自动完成GRID驱动的升级或者全新安装,云助手本身支持批量调用。
实现原理
使用方法:
1.Windows系统:
1)登录ECS管理控制台。
2)在左侧导航栏,选择运维与监控 > 发送命令/文件(云助手)。
3)在页面左侧顶部,选择目标资源所在的地域。
4)在ECS实例页签下的实例列表,选择目标实例,单击对应操作栏下的执行命令。
5)通过创建并执行云助手命令来升级或安装GRID驱动。
Windows系统执行命令行如下(直接复制粘贴即可):
$InstalledPlugins = $(acs-plugin-manager --list --local) if ($($InstalledPlugins | Select-String "grid_driver_install")) { acs-plugin-manager --remove --plugin grid_driver_install } acs-plugin-manager --fetchTimeout 0 --exec --plugin grid_driver_install
6) 执行命令行后,可能会返回两种结果,1是改实例未安装过GRID驱动,进行全新安装,2是该实例已经安装过旧版本的GRID驱动,需要升级安装。区别就是驱动的升级安装是执行2次同样的命令行,系统内部会自动就行逻辑处理,全新安装只需要执行一次命令行。
下图是已经安装过旧版本GRID驱动,需要先卸载旧版本驱动,再安装新版本驱动:
卸载完旧版本驱动之后需要重启一次实例,然后再次执行上面给的命令行进行驱动安装
下图是全新安装驱动的返回日志截图:
7)验证升级或安装的GRID驱动是否生效
安装完成后,重启实例,然后远程连接实例,桌面右键打开 NVIDIA控制面板
显示结果如下所示,表示安装的新GRID驱动已生效
2.Linux系统
1)登录ECS管理控制台。
2)在左侧导航栏,选择运维与监控 > 发送命令/文件(云助手)。
3)在页面左侧顶部,选择目标资源所在的地域。
4)在ECS实例页签下的实例列表,选择目标实例,单击对应操作栏下的执行命令。
5)通过创建并执行云助手命令来升级或安装GRID驱动。
6) 执行命令行,Linux系统因为卸载驱动和安装驱动可以自动完成,不需要重启实例,所以不管是全新安装还是升级安装,都是只需执行一次命令行即可。
Linux系统执行命令行如下(直接复制粘贴即可):
if acs-plugin-manager --list --local | grep grid_driver_install > /dev/null 2>&1 then acs-plugin-manager --remove --plugin grid_driver_install fi acs-plugin-manager --exec --plugin grid_driver_install
命令执行之后的日志截图:
7)验证升级或安装的GRID驱动是否生效
安装完成后,然后远程连接实例,执行 nvidia-smi指令,显示结果如下图,表示已成功升级或安装GRID驱动。
我们更欢迎您分享您对阿里云产品的设想、对功能的建议或者各种吐槽,请扫描提交问卷并获得社区积分或精美礼品一份。https://survey.aliyun.com/apps/zhiliao/P4y44bm_8
【扫码填写上方调研问卷】
欢迎每位来到弹性计算的开发者们来反馈问题哦~