服务器显卡直通和GPU问题分析

简介: 服务器显卡直通和GPU问题分析

从最开始买服务器的时候我就问了商家,能不能用显卡,商家答复厚度不超过2CM的刀卡是可以用的;并且在安装macOS的时候,我也发现3M的显存是真的不够用,上显卡的冲动再次涌上心头。


显卡适配关系


服务器作为比较特殊的设备,和普通PC不同,支持的显卡型号有限,以下为我从HPE官网找到的显卡适配关系,与其说是显卡,不如说是GPU,更偏向于计算,适合搞AI(所以一开始有朋友问我是不要开始搞大数据或者人工智能了,让大家失望了)。标红部分为已经查明的支持vGPU的显卡型号,也就是能按需分配给虚拟机。

1677204148568.jpg

这时我意识到,服务器有适配关系,那VMware ESXi是不是也有适配关系?我就找HPE的售后400工程师咨询了一下,大跌眼镜!直接丢给我一个查询配套关系的软件,下载原始链接如下:


http://h20195.www2.hpe.com/v2/redirect.aspx?/products/quickspecs/15033_div/15033_div.HTML


应该是GFW的原因,源链接打开失败,但是会跳转到一个新的链接:


http://h41370.www4.hpe.com/quickspecs/overview.html


这个是DL360 Gen9所有可扩展配置的配置表,最终查明这款机器只支持一款GPU:


HPE NVIDIA Quadro P4000 Graphics Accelerator

1677204165741.jpg

并且对电源有要求,好在我的500W电源应该是够用的。

 

1677204181454.jpg

上面的图里也有我查的价格,6500块差不多够我再买一台服务器了。并且咨询得知NVIDIA的显卡都涉及授权问题,之前的经验中NVIDIA会针对每个VDI(Virtual Desktop Infrastructure,约等于虚拟机)收取授权费用,大约为每个VDI每5年8000块;这么贵,不如直接去抢钱好了!


远程桌面


假设我是一个很有钱的工程师,我买了NVIDIA的显卡并且购买了授权。那我能不能实现在虚拟机里面打游戏呢?常规操作是不行的。

因为在使用windows远程桌面的时候,调用的不是虚拟机或者原主机的显卡。而是Windows 远程桌面虚拟的显示驱动,也就是说原本的物理显卡根本就没有调用过。微软的相关解释链接如下:


https://docs.microsoft.com/zh-cn/windows/win32/termserv/remote-desktop-protocol


部分说明如下(引用链接: Remote Desktop Protocol):

On the server, RDP uses its own video driver to render display output by constructing the rendering information into network packets by using RDP protocol and sending them over the network to the client. On the client, RDP receives rendering data and interprets the packets into corresponding Microsoft Windows graphics device interface (GDI) API calls. For the input path, client mouse and keyboard events are redirected from the client to the server. On the server, RDP uses its own keyboard and mouse driver to receive these keyboard and mouse events.


在服务器上,RDP通过使用RDP协议将渲染信息构造为网络数据包并将其通过网络发送到客户端,从而使用其自己的视频驱动程序来渲染显示输出。在客户端上,RDP接收渲染数据并将数据包解释为相应的Microsoft Windows图形设备接口(GDI)API调用。对于输入路径,客户端鼠标和键盘事件从客户端重定向到服务器。在服务器上,RDP使用其自己的键盘和鼠标驱动程序来接收这些键盘和鼠标事件。


这部分我在自己电脑上测试过,一台GT 740M(2G显存)显卡的电脑,打游戏帧率能到120帧以上;但是如果通过远程桌面来操作,会同时消耗本地PC的带宽和显卡资源。测试中使用无线网络时,占用十几兆的带宽资源游戏帧率也达不到10帧,已经卡成幻灯片了;当使用有线网络时,带宽占用超过50M时,帧率也没有达到30帧,操作还是会有卡顿。

1677204216150.jpg

说到这里,我对5G时代下的云端游戏功能产生了怀疑,我到底需要多大的带宽和多低的延迟才能远程打游戏?是不是有其他解决方案?


好像确实有,如果要调用vGPU,需要有特有的软件,才能启用物理显卡功能。现在新华三的CAS貌似有这个东西,远程桌面调用物理显卡。但是也可以用远程工具调用物理显卡,目前测试可行的就有向日葵、TeamViewer。比如说使用向日葵能达到和直接操作物理机比较接近的117 fps。

1677204369020.jpg


显卡直通


回到现实中,我没有那么多钱来买GPU和授权怎么办呢?我就不能让我的虚拟机用显卡了吗?


通过咨询专家还有上网查找资料,发现可以通过设置PCI设备直通来实现。简单地讲,就是把PCI插槽直接分配给虚拟机,这样的话,一定意义上就跳过了服务器的适配关系,直接在虚拟机上装驱动就可以了。


先检查一下ESXi是否支持。在ESXi管理页面,“管理”→“硬件”→“PCI设备”,选择PCI物理设备,再点击“切换直通”。可将PCI设备模式切换为直通模式(passthrough),这样就可以分配给主机了。

1677204397849.jpg

然后我就在京东上买了一块AMD的显卡(盈通的RX550,4G显存版本)。服务器的PCI扩展槽是这样的,主要是实现了将显卡从竖插变成了横插,同时将显卡厚度限制到了2CM。

 

1677204409505.jpg


插上显卡之后底面是这样的。

 

1677204423355.jpg

把PCI扩展插槽撞到服务器上,上面是这样的。

 

1677204430748.jpg


切换PCI直通模式


显卡就位之后开机,在iLO中的设备信息里面能看到识别到了显卡,显示信息为AMD Radeon。

 

1677204442806.jpg

登录VMware ESXi,在“管理”→“硬件”→“PCI设备”下面,要选择两个PCI物理设备(分别是图形和音频设备),再点击“切换直通”,这样显卡就切换到直通模式了。需要注意的是,切换直通之后需要重启服务器生效。

 

1677204454969.jpg


重启完成后,查看显卡的直通状态由“禁用”变成了“活动”。

 

1677204467380.jpg


虚拟机添加PCI设备


新建一台Windows7的虚拟机,与之前操作不同的是,现在可以添加“PCI设备”了。点击“添加其他设备”→“PCI设备”。

1677204478156.jpg

为避免出现问题,我两次添加设备,把显卡的图形设备和音频设备都添加上来了。

 

1677204494806.jpg

系统提示:添加PCI设备之后,需要为虚拟机预留所有内存才能启动,可以点击“预留所有内存”同步内存配置。最终虚拟机配置信息如下。

 

1677204501277.jpg


Windows7环境下尝试加载


启动虚拟机后发现视频设备是未识别的,首先通过安装VMware Tools可以解决基本系统设备的感叹号问题;VGA图形适配器则需要打设备驱动解决。

 

1677204514005.jpg

通过鲁大师检测硬件信息,硬件识别正常。

 

1677204525914.jpg

使用360驱动大师完成显卡和声卡的驱动更新。

 

1677204532295.jpg

发现有新的AMD Log Utility Driver设备未识别,上网查了一下,大概意思是说版本不匹配导致的。

 

1677204537867.jpg

那就去官网下一个匹配的吧,型号和操作系统都选好,下载好驱动;再把之前的驱动卸载。

 

1677204553941.jpg

AMD的最新驱动程序Radeon Software。

 

1677204559051.jpg

弹出信任驱动程序发布者的弹窗,一度让我认为快成功了。

 

1677204563816.jpg

实际上还是没有解决问题,很尴尬。

 

1677204568738.jpg



Windows10环境下尝试加载


我又想到Windows7去年停止维护了,是不是这个有影响?那就再装一台Windows10虚拟机,开机竟然直接识别了AMD的显卡。

 

1677204583960.jpg

装好VMware Tools之后,看上去好像没有问题了。

 

1677204599757.jpg

鲁大师硬件检测信息也正常了不少。

 

1677204604932.jpg

但是跑分性能极低!

 

1677204611334.jpg

更新驱动之后频率和带宽识别都不正常了。

 

1677204620067.jpg

搞得我有点慌了,赶紧找售后。售后先是答复显卡没有服务器的驱动,我说我装的Windows10操作系统;然后加了技术的QQ,技术一顿操作,还是解决不了显卡PCI-E速率和显卡速率不匹配的问题。呦呵,完蛋,可能还是和服务器PCI有关系,只能七天无理由退货了!


所以,没钱搞什么GPU?搞什么vGPU?搞什么显卡直通?只能友情提醒大家最近不要在京东买RX550这款显卡了,免得买到我退货的商品,显得尴尬!


相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
3月前
|
弹性计算 搜索推荐 异构计算
阿里云服务器多少钱一年?亲自整理ECS、轻量和GPU服务器租赁价格表
2025年阿里云服务器优惠汇总:轻量应用服务器2核2G 38元/年起,ECS 2核2G 99元/年,2核4G 199元/年,4核16G 89元/月,8核32G 160元/月,香港轻量25元/月起,新老用户同享,续费同价。
1227 158
|
3月前
|
存储 机器学习/深度学习 人工智能
硅谷GPU单节点服务器:技术解析与应用全景
“硅谷GPU单节点服务器”代表了在单个物理机箱内集成强大计算能力,特别是GPU加速能力的高性能计算解决方案。它们并非指代某个特定品牌,而是一类为处理密集型工作负载而设计的服务器范式的统称。
|
3月前
|
机器学习/深度学习 人工智能 弹性计算
2025年阿里云GPU服务器租用价格与应用场景详解
阿里云GPU服务器基于ECS架构,集成NVIDIA A10/V100等顶级GPU与自研神龙架构,提供高达1000 TFLOPS混合精度算力。2025年推出万卡级异构算力平台及Aegaeon池化技术,支持AI训练、推理、科学计算与图形渲染,实现性能与成本最优平衡。
|
3月前
|
弹性计算 搜索推荐 异构计算
租用阿里云服务器一年要多少钱?ECS、轻量和GPU服务器租赁价格,手动整理
2025年10月阿里云服务器优惠持续,轻量应用服务器200M带宽38元起/年,ECS 2核2G 99元/年、2核4G 199元/年,4核16G 89元/月,8核32G 160元/月,香港轻量25元/月起,新老同享,续费不涨价。
859 2
|
3月前
|
弹性计算 运维 安全
阿里云轻量应用服务器与云服务器ECS啥区别?新手帮助教程
阿里云轻量应用服务器适合个人开发者搭建博客、测试环境等低流量场景,操作简单、成本低;ECS适用于企业级高负载业务,功能强大、灵活可扩展。二者在性能、网络、镜像及运维管理上差异显著,用户应根据实际需求选择。
338 10
|
3月前
|
运维 安全 Ubuntu
阿里云渠道商:服务器操作系统怎么选?
阿里云提供丰富操作系统镜像,涵盖Windows与主流Linux发行版。选型需综合技术兼容性、运维成本、安全稳定等因素。推荐Alibaba Cloud Linux、Ubuntu等用于Web与容器场景,Windows Server支撑.NET应用。建议优先选用LTS版本并进行测试验证,通过标准化镜像管理提升部署效率与一致性。
|
3月前
|
弹性计算 ice
阿里云4核8g服务器多少钱一年?1个月和1小时价格,省钱购买方法分享
阿里云4核8G服务器价格因实例类型而异,经济型e实例约159元/月,计算型c9i约371元/月,按小时计费最低0.45元。实际购买享折扣,1年最高可省至1578元,附主流ECS实例及CPU型号参考。
487 8
|
3月前
|
存储 监控 安全
阿里云渠道商:云服务器价格有什么变动?
阿里云带宽与存储费用呈基础资源降价、增值服务差异化趋势。企业应结合业务特点,通过阶梯计价、智能分层、弹性带宽等策略优化成本,借助云监控与预算预警机制,实现高效、可控的云资源管理。
|
3月前
|
弹性计算 运维 安全
区别及选择指南:阿里云轻量应用服务器与ECS云服务器有什么区别?
阿里云轻量应用服务器适合个人开发者、学生搭建博客、测试环境,易用且性价比高;ECS功能更强大,适合企业级应用如大数据、高流量网站。根据需求选择:轻量入门首选,ECS专业之选。
313 2
|
3月前
|
弹性计算 ice
阿里云4核8G云服务器配置价格:热门ECS实例及CPU处理器型号说明
阿里云2025年4核8G服务器配置价格汇总,涵盖经济型e实例、计算型c9i等热门ECS实例,CPU含Intel Xeon及AMD EPYC系列,月费159元起,年付低至1578元,按小时计费0.45元起,实际购买享折扣优惠。
753 1