《泛娱乐行业技术服务白皮书》——三、泛娱乐典型业务架构与场景——3.2 游戏类泛娱乐——3.2.2 游戏泛娱乐技术服务(11)

简介: 《泛娱乐行业技术服务白皮书》——三、泛娱乐典型业务架构与场景——3.2 游戏类泛娱乐——3.2.2 游戏泛娱乐技术服务(11)

《泛娱乐行业技术服务白皮书》——三、泛娱乐典型业务架构与场景——3.2   游戏类泛娱乐——3.2.2 游戏泛娱乐技术服务(10) https://developer.aliyun.com/article/1230983?groupCode=supportservice



3.2.2.3.6 解决之道


现在我们经过多轮的验证与排查、观察,可以发现FBC,降低TDR是完成单台 VM<100次黑屏的解决之道,但是解决仅仅是切换DDA即可吗?答案显然不是,虽然 黑屏情况有了大幅提升,但是离客户的核心诉求依旧有一定差距(平均200+,目标 <100),另外DDA是否有其他坑?答案是肯定的,切换DDA后,虽然黑屏减少了很 多,但是编码采集慢问题有了线性增长,可以说为了解决黑屏问题却引入了次生问 题,同时DDA接口是一个高度集成的接口,即Rendering+Encode是合在一起的,对 于定位是具体什么链路导致的采集慢无法定位(后经过NV确认,DDA在微软侧已经确 认了存在非预期采集慢问题,但是由于底层机密无法透露具体原因,只承诺在新版本 会找解决方案,这就是一开始为什么提依赖于厂商链路的原因,依赖厂商相对可控性 就低了,比较黑盒),所以解决方法只能往FBC上想,脑暴汇聚如下:


image.png


 答案比较明显,在现有驱动版本的情况明确了在GRID12(图中A)下对于NVFBC、 DDA均不支持,作为售后角色综合考虑客户侧业务情况(友商驱动在GRID9下运行正 常)与业务线情况(友商步步紧逼,成本压力大),在当下上量节点,方案就仅剩余通过 降级驱动来评估是否FBC情况能否有明显改善,权衡后与研发一同讨论,确认启动 GRID11+NVFBC方案评估,这样即可以为NV去分析GRID12下FBC、DDA的异常问题 争取时间,同时也不影响客户上量诉求,另外GRID11本身也比其他友商要高两个级 别,在功能特性上有加分,若通过的话,该问题算是里程碑突破,当下立断,评估客 户侧环境,确认采用20/80测试,将20%机器采用带有降级驱动的镜像进行重新部 署,观察效果,经过两周观察再逐步拓展到全量,总体看优化前后平均黑屏数 393.93次下降到目前51.15次,优化了87.01%,大部分在个位数,基本达到优化效果。


总结:

•系统内:

o游戏进程,最好有游戏发行线测试,在确认上架前的POC阶段加入游戏对于负 载,特别是GPU负载的压力如何。


o驱动版本,老生常谈,合适的驱动版本 > 匹配的驱动版本 > 新版本驱动,特别 是NV厂商,坑坑洼洼很多,很多问题换个前端驱动(所谓的后端驱动就是宿主机层面层面的虚拟化驱动)可能就解决了


o游戏核心链路协议:DDA在某些特定游戏场景下有坑,采集慢,同时链路耦合 度太高,不便于排查,但是对于新Guest1OS版本友好(虽然在GRID112上有坑), FBC是NV老牌接口,目前已确认废弃(对特定客户开放持续支持,比如本篇中的客户 就是NV单向承诺了,所以才敢继续使用),但是其相关链路分开,不同链路间可打点 位置多,对于游戏业务比较友好。


o设备层面:从设备管理器看可以确认映射的虚拟显卡是否有被注册到OS内的 PCI接口上,若有显示但是未能被正确识别则很可能是驱动问题;


•系统外:

oGPU硬件(更建议找虚拟化团队、AIS团队):从从业经历来讲,GPU硬件应该是 为数不多能够与内存故障相匹敌(如果相同基数的情况)的部件了,在本次专项中笔者 做得最多的就是上NC、VM打nvidia-smi(VM内部看到得更多是进程对应的GPU损 耗),  这个可以确认GPU是否存在掉卡以及显性的UCE错误,  而对于GPU硬件故障也 可以看对应NC或CN的具体message,看看是否有XID之类(有XID不一定是硬件故 障,具体可参阅NV的XID列表)的报错:


image.png


o软件层面(更建议找虚拟化团队、管控团队):可以重点检查下vmem分配情况以及相 关xml对应的pci设备是否正常,还有后端版本是否符合预期。

 

3.2.2.4 游戏陪练场景与架构


3.2.2.4.1 游戏陪练简介


游戏陪练是指陪客户玩指定的网络游戏,并提供随程语音、文字聊天服务。


陪练服务也分为有偿和无偿两种。有偿陪练是指玩家个人主动提出需求,并需要 支付一定的报酬才能够获得陪练服务;无偿陪练通常是游戏厂商为推广游戏而安排人 员在网吧陪伴玩家。当然,也有一些游戏公司让员工在游戏里陪玩家玩,借机圈钱。 其中,  有偿陪练是一种被游戏玩家逐渐关注的全新游戏服务形式。之前报道的魔兽 VIP会所便是专门为有钱人提供的线下陪练服务,但这样高规格游戏陪玩服务属于凤 毛麟角,网上讨论比较多的还是线上游戏陪练。有偿游戏陪练分为两种:


1)第一种是游戏陪练江湖中的自由派,个人单个和用户陪练,不愿意加入任何 游戏组织公会,他们的生意有时候会很冷淡,需要自己在各个社交平台上推销自己。


2)第二种是加入一定游戏组织公会,价格收取就高很多,有时候游戏公会组织 会给派一些比较好的陪练单,这样的陪练费会更高。对于游戏陪练服务,有评论称这 可以满足部分玩家追求热闹的游戏需求。但也要谨防陪练过程中产生的利益纠纷或诈 骗行为,以及警惕借游戏陪练之名进行色情活动等违法情况的出现。



《泛娱乐行业技术服务白皮书》——三、泛娱乐典型业务架构与场景——3.2   游戏类泛娱乐——3.2.2 游戏泛娱乐技术服务(12) https://developer.aliyun.com/article/1230979?groupCode=supportservice

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
18天前
|
机器学习/深度学习 安全 算法
十大主流联邦学习框架:技术特性、架构分析与对比研究
联邦学习(FL)是保障数据隐私的分布式模型训练关键技术。业界开发了多种开源和商业框架,如TensorFlow Federated、PySyft、NVFlare、FATE、Flower等,支持模型训练、数据安全、通信协议等功能。这些框架在灵活性、易用性、安全性和扩展性方面各有特色,适用于不同应用场景。选择合适的框架需综合考虑开源与商业、数据分区支持、安全性、易用性和技术生态集成等因素。联邦学习已在医疗、金融等领域广泛应用,选择适配具体需求的框架对实现最优模型性能至关重要。
252 79
十大主流联邦学习框架:技术特性、架构分析与对比研究
|
2月前
|
Kubernetes Cloud Native 微服务
探索云原生技术:容器化与微服务架构的融合之旅
本文将带领读者深入了解云原生技术的核心概念,特别是容器化和微服务架构如何相辅相成,共同构建现代软件系统。我们将通过实际代码示例,探讨如何在云平台上部署和管理微服务,以及如何使用容器编排工具来自动化这一过程。文章旨在为开发者和技术决策者提供实用的指导,帮助他们在云原生时代中更好地设计、部署和维护应用。
|
14天前
|
机器学习/深度学习 缓存 自然语言处理
DeepSeek背后的技术基石:DeepSeekMoE基于专家混合系统的大规模语言模型架构
DeepSeekMoE是一种创新的大规模语言模型架构,融合了专家混合系统(MoE)、多头潜在注意力机制(MLA)和RMSNorm归一化。通过专家共享、动态路由和潜在变量缓存技术,DeepSeekMoE在保持性能的同时,将计算开销降低了40%,显著提升了训练和推理效率。该模型在语言建模、机器翻译和长文本处理等任务中表现出色,具备广泛的应用前景,特别是在计算资源受限的场景下。
298 29
DeepSeek背后的技术基石:DeepSeekMoE基于专家混合系统的大规模语言模型架构
|
2月前
|
监控 安全 API
使用PaliGemma2构建多模态目标检测系统:从架构设计到性能优化的技术实践指南
本文详细介绍了PaliGemma2模型的微调流程及其在目标检测任务中的应用。PaliGemma2通过整合SigLIP-So400m视觉编码器与Gemma 2系列语言模型,实现了多模态数据的高效处理。文章涵盖了开发环境构建、数据集预处理、模型初始化与配置、数据加载系统实现、模型微调、推理与评估系统以及性能分析与优化策略等内容。特别强调了计算资源优化、训练过程监控和自动化优化流程的重要性,为机器学习工程师和研究人员提供了系统化的技术方案。
203 77
使用PaliGemma2构建多模态目标检测系统:从架构设计到性能优化的技术实践指南
|
11天前
|
机器学习/深度学习 算法 文件存储
YOLOv11改进策略【模型轻量化】| MoblieNetV3:基于搜索技术和新颖架构设计的轻量型网络模型
YOLOv11改进策略【模型轻量化】| MoblieNetV3:基于搜索技术和新颖架构设计的轻量型网络模型
37 10
YOLOv11改进策略【模型轻量化】| MoblieNetV3:基于搜索技术和新颖架构设计的轻量型网络模型
|
7天前
|
机器学习/深度学习 算法 文件存储
RT-DETR改进策略【模型轻量化】| MoblieNetV3:基于搜索技术和新颖架构设计的轻量型网络模型
RT-DETR改进策略【模型轻量化】| MoblieNetV3:基于搜索技术和新颖架构设计的轻量型网络模型
19 4
RT-DETR改进策略【模型轻量化】| MoblieNetV3:基于搜索技术和新颖架构设计的轻量型网络模型
|
23天前
|
存储 缓存 关系型数据库
社交软件红包技术解密(六):微信红包系统的存储层架构演进实践
微信红包本质是小额资金在用户帐户流转,有发、抢、拆三大步骤。在这个过程中对事务有高要求,所以订单最终要基于传统的RDBMS,这方面是它的强项,最终订单的存储使用互联网行业最通用的MySQL数据库。支持事务、成熟稳定,我们的团队在MySQL上有长期技术积累。但是传统数据库的扩展性有局限,需要通过架构解决。
63 18
|
1月前
|
监控 JavaScript 数据可视化
建筑施工一体化信息管理平台源码,支持微服务架构,采用Java、Spring Cloud、Vue等技术开发。
智慧工地云平台是专为建筑施工领域打造的一体化信息管理平台,利用大数据、云计算、物联网等技术,实现施工区域各系统数据汇总与可视化管理。平台涵盖人员、设备、物料、环境等关键因素的实时监控与数据分析,提供远程指挥、决策支持等功能,提升工作效率,促进产业信息化发展。系统由PC端、APP移动端及项目、监管、数据屏三大平台组成,支持微服务架构,采用Java、Spring Cloud、Vue等技术开发。
|
1月前
|
人工智能 运维 监控
云卓越架构:企业稳定性架构体系和AI业务场景探秘
本次分享由阿里云智能集团公共云技术服务部上海零售技术服务高级经理路志华主讲,主题为“云卓越架构:企业稳定性架构体系和AI业务场景探秘”。内容涵盖四个部分:1) 稳定性架构设计,强调高可用、可扩展性、安全性和可维护性;2) 稳定性保障体系和应急体系的建立,确保快速响应和恢复;3) 重大活动时的稳定重宝策略,如大促或新业务上线;4) AI在企业中的应用场景,包括智能编码、知识库问答、创意广告生成等。通过这些内容,帮助企业在云计算环境中构建更加稳定和高效的架构,并探索AI技术带来的创新机会。
|
2月前
|
消息中间件 存储 安全
分布式系统架构3:服务容错
分布式系统因其复杂性,故障几乎是必然的。那么如何让系统在不可避免的故障中依然保持稳定?本文详细介绍了分布式架构中7种核心的服务容错策略,包括故障转移、快速失败、安全失败等,以及它们在实际业务场景中的应用。无论是支付场景的快速失败,还是日志采集的安全失败,每种策略都有自己的适用领域和优缺点。此外,文章还为技术面试提供了解题思路,助你在关键时刻脱颖而出。掌握这些策略,不仅能提升系统健壮性,还能让你的技术栈更上一层楼!快来深入学习,走向架构师之路吧!
73 11

热门文章

最新文章