服务器显卡直通和GPU问题分析

简介: 服务器显卡直通和GPU问题分析

从最开始买服务器的时候我就问了商家,能不能用显卡,商家答复厚度不超过2CM的刀卡是可以用的;并且在安装macOS的时候,我也发现3M的显存是真的不够用,上显卡的冲动再次涌上心头。


显卡适配关系


服务器作为比较特殊的设备,和普通PC不同,支持的显卡型号有限,以下为我从HPE官网找到的显卡适配关系,与其说是显卡,不如说是GPU,更偏向于计算,适合搞AI(所以一开始有朋友问我是不要开始搞大数据或者人工智能了,让大家失望了)。标红部分为已经查明的支持vGPU的显卡型号,也就是能按需分配给虚拟机。

1677204148568.jpg

这时我意识到,服务器有适配关系,那VMware ESXi是不是也有适配关系?我就找HPE的售后400工程师咨询了一下,大跌眼镜!直接丢给我一个查询配套关系的软件,下载原始链接如下:


http://h20195.www2.hpe.com/v2/redirect.aspx?/products/quickspecs/15033_div/15033_div.HTML


应该是GFW的原因,源链接打开失败,但是会跳转到一个新的链接:


http://h41370.www4.hpe.com/quickspecs/overview.html


这个是DL360 Gen9所有可扩展配置的配置表,最终查明这款机器只支持一款GPU:


HPE NVIDIA Quadro P4000 Graphics Accelerator

1677204165741.jpg

并且对电源有要求,好在我的500W电源应该是够用的。

 

1677204181454.jpg

上面的图里也有我查的价格,6500块差不多够我再买一台服务器了。并且咨询得知NVIDIA的显卡都涉及授权问题,之前的经验中NVIDIA会针对每个VDI(Virtual Desktop Infrastructure,约等于虚拟机)收取授权费用,大约为每个VDI每5年8000块;这么贵,不如直接去抢钱好了!


远程桌面


假设我是一个很有钱的工程师,我买了NVIDIA的显卡并且购买了授权。那我能不能实现在虚拟机里面打游戏呢?常规操作是不行的。

因为在使用windows远程桌面的时候,调用的不是虚拟机或者原主机的显卡。而是Windows 远程桌面虚拟的显示驱动,也就是说原本的物理显卡根本就没有调用过。微软的相关解释链接如下:


https://docs.microsoft.com/zh-cn/windows/win32/termserv/remote-desktop-protocol


部分说明如下(引用链接: Remote Desktop Protocol):

On the server, RDP uses its own video driver to render display output by constructing the rendering information into network packets by using RDP protocol and sending them over the network to the client. On the client, RDP receives rendering data and interprets the packets into corresponding Microsoft Windows graphics device interface (GDI) API calls. For the input path, client mouse and keyboard events are redirected from the client to the server. On the server, RDP uses its own keyboard and mouse driver to receive these keyboard and mouse events.


在服务器上,RDP通过使用RDP协议将渲染信息构造为网络数据包并将其通过网络发送到客户端,从而使用其自己的视频驱动程序来渲染显示输出。在客户端上,RDP接收渲染数据并将数据包解释为相应的Microsoft Windows图形设备接口(GDI)API调用。对于输入路径,客户端鼠标和键盘事件从客户端重定向到服务器。在服务器上,RDP使用其自己的键盘和鼠标驱动程序来接收这些键盘和鼠标事件。


这部分我在自己电脑上测试过,一台GT 740M(2G显存)显卡的电脑,打游戏帧率能到120帧以上;但是如果通过远程桌面来操作,会同时消耗本地PC的带宽和显卡资源。测试中使用无线网络时,占用十几兆的带宽资源游戏帧率也达不到10帧,已经卡成幻灯片了;当使用有线网络时,带宽占用超过50M时,帧率也没有达到30帧,操作还是会有卡顿。

1677204216150.jpg

说到这里,我对5G时代下的云端游戏功能产生了怀疑,我到底需要多大的带宽和多低的延迟才能远程打游戏?是不是有其他解决方案?


好像确实有,如果要调用vGPU,需要有特有的软件,才能启用物理显卡功能。现在新华三的CAS貌似有这个东西,远程桌面调用物理显卡。但是也可以用远程工具调用物理显卡,目前测试可行的就有向日葵、TeamViewer。比如说使用向日葵能达到和直接操作物理机比较接近的117 fps。

1677204369020.jpg


显卡直通


回到现实中,我没有那么多钱来买GPU和授权怎么办呢?我就不能让我的虚拟机用显卡了吗?


通过咨询专家还有上网查找资料,发现可以通过设置PCI设备直通来实现。简单地讲,就是把PCI插槽直接分配给虚拟机,这样的话,一定意义上就跳过了服务器的适配关系,直接在虚拟机上装驱动就可以了。


先检查一下ESXi是否支持。在ESXi管理页面,“管理”→“硬件”→“PCI设备”,选择PCI物理设备,再点击“切换直通”。可将PCI设备模式切换为直通模式(passthrough),这样就可以分配给主机了。

1677204397849.jpg

然后我就在京东上买了一块AMD的显卡(盈通的RX550,4G显存版本)。服务器的PCI扩展槽是这样的,主要是实现了将显卡从竖插变成了横插,同时将显卡厚度限制到了2CM。

 

1677204409505.jpg


插上显卡之后底面是这样的。

 

1677204423355.jpg

把PCI扩展插槽撞到服务器上,上面是这样的。

 

1677204430748.jpg


切换PCI直通模式


显卡就位之后开机,在iLO中的设备信息里面能看到识别到了显卡,显示信息为AMD Radeon。

 

1677204442806.jpg

登录VMware ESXi,在“管理”→“硬件”→“PCI设备”下面,要选择两个PCI物理设备(分别是图形和音频设备),再点击“切换直通”,这样显卡就切换到直通模式了。需要注意的是,切换直通之后需要重启服务器生效。

 

1677204454969.jpg


重启完成后,查看显卡的直通状态由“禁用”变成了“活动”。

 

1677204467380.jpg


虚拟机添加PCI设备


新建一台Windows7的虚拟机,与之前操作不同的是,现在可以添加“PCI设备”了。点击“添加其他设备”→“PCI设备”。

1677204478156.jpg

为避免出现问题,我两次添加设备,把显卡的图形设备和音频设备都添加上来了。

 

1677204494806.jpg

系统提示:添加PCI设备之后,需要为虚拟机预留所有内存才能启动,可以点击“预留所有内存”同步内存配置。最终虚拟机配置信息如下。

 

1677204501277.jpg


Windows7环境下尝试加载


启动虚拟机后发现视频设备是未识别的,首先通过安装VMware Tools可以解决基本系统设备的感叹号问题;VGA图形适配器则需要打设备驱动解决。

 

1677204514005.jpg

通过鲁大师检测硬件信息,硬件识别正常。

 

1677204525914.jpg

使用360驱动大师完成显卡和声卡的驱动更新。

 

1677204532295.jpg

发现有新的AMD Log Utility Driver设备未识别,上网查了一下,大概意思是说版本不匹配导致的。

 

1677204537867.jpg

那就去官网下一个匹配的吧,型号和操作系统都选好,下载好驱动;再把之前的驱动卸载。

 

1677204553941.jpg

AMD的最新驱动程序Radeon Software。

 

1677204559051.jpg

弹出信任驱动程序发布者的弹窗,一度让我认为快成功了。

 

1677204563816.jpg

实际上还是没有解决问题,很尴尬。

 

1677204568738.jpg



Windows10环境下尝试加载


我又想到Windows7去年停止维护了,是不是这个有影响?那就再装一台Windows10虚拟机,开机竟然直接识别了AMD的显卡。

 

1677204583960.jpg

装好VMware Tools之后,看上去好像没有问题了。

 

1677204599757.jpg

鲁大师硬件检测信息也正常了不少。

 

1677204604932.jpg

但是跑分性能极低!

 

1677204611334.jpg

更新驱动之后频率和带宽识别都不正常了。

 

1677204620067.jpg

搞得我有点慌了,赶紧找售后。售后先是答复显卡没有服务器的驱动,我说我装的Windows10操作系统;然后加了技术的QQ,技术一顿操作,还是解决不了显卡PCI-E速率和显卡速率不匹配的问题。呦呵,完蛋,可能还是和服务器PCI有关系,只能七天无理由退货了!


所以,没钱搞什么GPU?搞什么vGPU?搞什么显卡直通?只能友情提醒大家最近不要在京东买RX550这款显卡了,免得买到我退货的商品,显得尴尬!


相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
相关文章
|
2月前
|
弹性计算 人工智能 网络安全
ECS实例问题之增加GPU显卡失败如何解决
ECS实例指的是在阿里云ECS服务中创建的虚拟计算环境,用户可在此环境中运行应用程序和服务;本合集将介绍ECS实例的创建、管理、监控和维护流程,及常见问题处理方法,助力用户保障实例的稳定运行。
|
1月前
|
存储 机器学习/深度学习 并行计算
阿里云服务器X86计算、Arm计算、GPU/FPGA/ASIC、高性能计算架构区别
在我们选购阿里云服务器的时候,云服务器架构有X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器、高性能计算可选,有的用户并不清楚他们之间有何区别,本文主要简单介绍下不同类型的云服务器有何不同,主要特点及适用场景有哪些。
阿里云服务器X86计算、Arm计算、GPU/FPGA/ASIC、高性能计算架构区别
|
1月前
|
机器学习/深度学习 存储 弹性计算
阿里云GPU服务器价格多少钱?2024年阿里云GPU服务器价格配置及性能测评
2024年阿里云GPU服务器是一款高性能的计算服务器,基于GPU应用的计算服务,多适用于视频解码、图形渲染、深度学习、科学计算等应用场景。阿里云GPU服务器具有超强的计算能力、网络性能出色、购买方式灵活、高性能实例存储等特点。 阿里云提供了多种配置的GPU服务器,包括gn6v、gn6i、vgn6i-vws和gn6e等,这些服务器配备了不同型号的GPU计算卡、不同规格的内存和存储空间,可以满足不同用户的计算需求。同时,阿里云还为新用户提供了特惠价格,包年购买更是低至3折起,使得用户可以更加经济地购买到高性能的GPU服务器。
151 0
|
2月前
|
弹性计算 大数据 测试技术
2024年阿里云服务器价格配置表汇总(轻量服务器、ECS服务器、游戏服务器、GPU服务器)
今天整理了阿里云服务器价格,包含了阿里云轻量应用服务器、阿里云ECS云服务器、阿里云游戏服务器、阿里云GPU云服务器。阿里云服务器租用费用,云服务器ECS经济型e实例2核2G、3M固定带宽99元一年、ECS u1实例2核4G、5M固定带宽、80G ESSD Entry盘优惠价格199元一年,轻量应用服务器2核2G3M带宽轻量服务器一年61元、2核4G4M带宽轻量服务器一年165元12个月、2核4G服务器30元3个月,幻兽帕鲁4核16G和8核32G服务器配置,云服务器ECS可以选择经济型e实例、通用算力u1实例、ECS计算型c7、通用型g7、c8i、g8i等企业级实例规格。
163 0
|
3月前
|
异构计算 Python
GPU服务器:使用Colab
GPU服务器:使用Colab
87 1
|
4月前
|
机器学习/深度学习 存储 人工智能
南通阿里云代理商:阿里云GPU服务器GA1
@luotuoemo 飞机@TG 【聚搜云】服务器运维专家! 阿里云GPU服务器GA1是一款基于GPU架构的高性能计算机,它能够用于各种科学计算、人工智能、深度学习等应用程序。它不仅支持最新的NVIDIA GPU,还采用了最新的英特尔处理器和千兆以太网网络。
|
4月前
|
机器学习/深度学习 人工智能 运维
阿里云国际站:阿里云GPU计算型云服务器
简介:@luotuoemo 飞机@TG 【聚搜云】服务器运维专家! 提供便捷的管理工具,用户可以通过阿里云控制台轻松管理云服务器。如何使用阿里云GPU计算型云服务器使用阿里云GPU计算型云服务器,需要以下步骤:
|
25天前
|
Ubuntu JavaScript 关系型数据库
在阿里云Ubuntu 20.04服务器中搭建一个 Ghost 博客
在阿里云Ubuntu 20.04服务器上部署Ghost博客的步骤包括创建新用户、安装Nginx、MySQL和Node.js 18.x。首先,通过`adduser`命令创建非root用户,然后安装Nginx和MySQL。接着,设置Node.js环境,下载Nodesource GPG密钥并安装Node.js 18.x。之后,使用`npm`安装Ghost-CLI,创建Ghost安装目录并进行安装。配置过程中需提供博客URL、数据库连接信息等。最后,测试访问前台首页和后台管理页面。确保DNS设置正确,并根据提示完成Ghost博客的配置。
在阿里云Ubuntu 20.04服务器中搭建一个 Ghost 博客
|
29天前
|
存储 弹性计算 数据可视化
要将ECS中的文件直接传输到阿里云网盘与相册(
【2月更文挑战第31天】要将ECS中的文件直接传输到阿里云网盘与相册(
415 4
|
30天前
|
SQL 弹性计算 安全
购买阿里云活动内云服务器之后设置密码、安全组、增加带宽、挂载云盘教程
当我们通过阿里云的活动购买完云服务器之后,并不是立马就能使用了,还需要我们设置云服务器密码,配置安全组等基本操作之后才能使用,有的用户还需要购买并挂载数据盘到云服务器上,很多新手用户由于是初次使用阿里云服务器,因此并不知道这些设置的操作流程,下面给大家介绍下这些设置的具体操作流程。
购买阿里云活动内云服务器之后设置密码、安全组、增加带宽、挂载云盘教程

热门文章

最新文章