《泛娱乐行业技术服务白皮书》——三、泛娱乐典型业务架构与场景——3.2 游戏类泛娱乐——3.2.2 游戏泛娱乐技术服务(11)

简介: 《泛娱乐行业技术服务白皮书》——三、泛娱乐典型业务架构与场景——3.2 游戏类泛娱乐——3.2.2 游戏泛娱乐技术服务(11)

《泛娱乐行业技术服务白皮书》——三、泛娱乐典型业务架构与场景——3.2   游戏类泛娱乐——3.2.2 游戏泛娱乐技术服务(10) https://developer.aliyun.com/article/1230983?groupCode=supportservice



3.2.2.3.6 解决之道


现在我们经过多轮的验证与排查、观察,可以发现FBC,降低TDR是完成单台 VM<100次黑屏的解决之道,但是解决仅仅是切换DDA即可吗?答案显然不是,虽然 黑屏情况有了大幅提升,但是离客户的核心诉求依旧有一定差距(平均200+,目标 <100),另外DDA是否有其他坑?答案是肯定的,切换DDA后,虽然黑屏减少了很 多,但是编码采集慢问题有了线性增长,可以说为了解决黑屏问题却引入了次生问 题,同时DDA接口是一个高度集成的接口,即Rendering+Encode是合在一起的,对 于定位是具体什么链路导致的采集慢无法定位(后经过NV确认,DDA在微软侧已经确 认了存在非预期采集慢问题,但是由于底层机密无法透露具体原因,只承诺在新版本 会找解决方案,这就是一开始为什么提依赖于厂商链路的原因,依赖厂商相对可控性 就低了,比较黑盒),所以解决方法只能往FBC上想,脑暴汇聚如下:


image.png


 答案比较明显,在现有驱动版本的情况明确了在GRID12(图中A)下对于NVFBC、 DDA均不支持,作为售后角色综合考虑客户侧业务情况(友商驱动在GRID9下运行正 常)与业务线情况(友商步步紧逼,成本压力大),在当下上量节点,方案就仅剩余通过 降级驱动来评估是否FBC情况能否有明显改善,权衡后与研发一同讨论,确认启动 GRID11+NVFBC方案评估,这样即可以为NV去分析GRID12下FBC、DDA的异常问题 争取时间,同时也不影响客户上量诉求,另外GRID11本身也比其他友商要高两个级 别,在功能特性上有加分,若通过的话,该问题算是里程碑突破,当下立断,评估客 户侧环境,确认采用20/80测试,将20%机器采用带有降级驱动的镜像进行重新部 署,观察效果,经过两周观察再逐步拓展到全量,总体看优化前后平均黑屏数 393.93次下降到目前51.15次,优化了87.01%,大部分在个位数,基本达到优化效果。


总结:

•系统内:

o游戏进程,最好有游戏发行线测试,在确认上架前的POC阶段加入游戏对于负 载,特别是GPU负载的压力如何。


o驱动版本,老生常谈,合适的驱动版本 > 匹配的驱动版本 > 新版本驱动,特别 是NV厂商,坑坑洼洼很多,很多问题换个前端驱动(所谓的后端驱动就是宿主机层面层面的虚拟化驱动)可能就解决了


o游戏核心链路协议:DDA在某些特定游戏场景下有坑,采集慢,同时链路耦合 度太高,不便于排查,但是对于新Guest1OS版本友好(虽然在GRID112上有坑), FBC是NV老牌接口,目前已确认废弃(对特定客户开放持续支持,比如本篇中的客户 就是NV单向承诺了,所以才敢继续使用),但是其相关链路分开,不同链路间可打点 位置多,对于游戏业务比较友好。


o设备层面:从设备管理器看可以确认映射的虚拟显卡是否有被注册到OS内的 PCI接口上,若有显示但是未能被正确识别则很可能是驱动问题;


•系统外:

oGPU硬件(更建议找虚拟化团队、AIS团队):从从业经历来讲,GPU硬件应该是 为数不多能够与内存故障相匹敌(如果相同基数的情况)的部件了,在本次专项中笔者 做得最多的就是上NC、VM打nvidia-smi(VM内部看到得更多是进程对应的GPU损 耗),  这个可以确认GPU是否存在掉卡以及显性的UCE错误,  而对于GPU硬件故障也 可以看对应NC或CN的具体message,看看是否有XID之类(有XID不一定是硬件故 障,具体可参阅NV的XID列表)的报错:


image.png


o软件层面(更建议找虚拟化团队、管控团队):可以重点检查下vmem分配情况以及相 关xml对应的pci设备是否正常,还有后端版本是否符合预期。

 

3.2.2.4 游戏陪练场景与架构


3.2.2.4.1 游戏陪练简介


游戏陪练是指陪客户玩指定的网络游戏,并提供随程语音、文字聊天服务。


陪练服务也分为有偿和无偿两种。有偿陪练是指玩家个人主动提出需求,并需要 支付一定的报酬才能够获得陪练服务;无偿陪练通常是游戏厂商为推广游戏而安排人 员在网吧陪伴玩家。当然,也有一些游戏公司让员工在游戏里陪玩家玩,借机圈钱。 其中,  有偿陪练是一种被游戏玩家逐渐关注的全新游戏服务形式。之前报道的魔兽 VIP会所便是专门为有钱人提供的线下陪练服务,但这样高规格游戏陪玩服务属于凤 毛麟角,网上讨论比较多的还是线上游戏陪练。有偿游戏陪练分为两种:


1)第一种是游戏陪练江湖中的自由派,个人单个和用户陪练,不愿意加入任何 游戏组织公会,他们的生意有时候会很冷淡,需要自己在各个社交平台上推销自己。


2)第二种是加入一定游戏组织公会,价格收取就高很多,有时候游戏公会组织 会给派一些比较好的陪练单,这样的陪练费会更高。对于游戏陪练服务,有评论称这 可以满足部分玩家追求热闹的游戏需求。但也要谨防陪练过程中产生的利益纠纷或诈 骗行为,以及警惕借游戏陪练之名进行色情活动等违法情况的出现。



《泛娱乐行业技术服务白皮书》——三、泛娱乐典型业务架构与场景——3.2   游戏类泛娱乐——3.2.2 游戏泛娱乐技术服务(12) https://developer.aliyun.com/article/1230979?groupCode=supportservice

相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
相关文章
|
3天前
|
SpringCloudAlibaba Dubbo 应用服务中间件
【微服务】微服务初步认识 - 微服务技术如何学习 · 认识微服务架构
【微服务】微服务初步认识 - 微服务技术如何学习 · 认识微服务架构
12 0
|
3天前
|
存储 设计模式 架构师
编码之道:从技术细节到系统架构的升华
【5月更文挑战第9天】 在编程的世界里,每一行代码都承载着功能与美学的双重使命。本文将探讨如何从关注技术细节出发,逐步深化对系统架构的理解,并在实践中实现从代码编写者到系统设计师的转变。通过分析具体案例,我们将揭示那些看似平凡的技术感悟如何在复杂系统的构建中发挥关键作用,以及这一过程中对软件开发者的启示。
21 3
|
1天前
|
运维 Oracle 容灾
Oracle dataguard 容灾技术实战(笔记),教你一种更清晰的Linux运维架构
Oracle dataguard 容灾技术实战(笔记),教你一种更清晰的Linux运维架构
|
3天前
|
JSON JavaScript 前端开发
KOI 后台新的架构下,webshop如何消费后台服务 - websocket 初始化
KOI 后台新的架构下,webshop如何消费后台服务 - websocket 初始化
4 0
|
3天前
|
负载均衡 持续交付 API
构建高效微服务架构的五大关键技术
【5月更文挑战第13天】在当前软件开发领域,微服务架构已经成为一种流行趋势。本文将探讨构建高效微服务架构的五大关键技术,包括容器化部署、服务发现与注册、API网关、负载均衡以及持续集成与持续部署。这些技术可以帮助开发团队更快速、更可靠地构建和部署微服务应用,提高系统的可扩展性和可维护性。
|
3天前
|
算法 计算机视觉 网络架构
CVPR 202:擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet
【5月更文挑战第10天】在CVPR 2024会议上,清华大学与博世团队推出MagNet,一种针对复杂场景和语言表达的实例分割网络。MagNet通过Mask Grounding辅助任务强化视觉-语言对应,缩小模态差距,并结合跨模态对齐损失与模块,提升RIS任务的准确性。在RefCOCO、RefCOCO+和G-Ref基准上取得显著优势,但对罕见表达和复杂场景的处理仍有待优化。[论文链接](https://arxiv.org/abs/2312.12198)
18 5
|
3天前
|
Kubernetes Cloud Native 持续交付
探索云原生架构的未来:如何优化资源管理和服务部署
【5月更文挑战第6天】 随着云计算的快速发展,云原生技术已成为企业数字化转型的关键驱动力。此篇文章深入探讨了云原生架构的核心组件及其在资源管理和服务部署方面的优化策略。通过分析容器化、微服务及自动化管理的实践案例,本文旨在为读者提供一套系统的方法论,以利用云原生技术实现更高效、灵活且可靠的IT基础设施。
30 2
|
3天前
|
负载均衡 API 数据库
构建高效微服务架构的五大关键技术
【5月更文挑战第4天】 随着云计算和容器化技术的成熟,微服务架构已成为软件开发的主流模式。本文将详细探讨实现高效微服务架构的五个关键技术点:服务拆分策略、API网关设计、服务发现与注册、熔断机制以及分布式事务管理。这些技术点是确保微服务系统可扩展性、灵活性及稳定性的基石,对于后端开发者而言,掌握它们至关重要。文章将提供具体的实施建议和最佳实践,帮助读者构建和维护高性能的微服务系统。
|
3天前
|
负载均衡 Java API
构建高效微服务架构:API网关与服务熔断策略
【5月更文挑战第2天】 在微服务架构中,确保系统的高可用性与灵活性是至关重要的。本文将深入探讨如何通过实施有效的API网关和设计合理的服务熔断机制来提升分布式系统的鲁棒性。我们将分析API网关的核心职责,包括请求路由、负载均衡、认证授权以及限流控制,并讨论如何利用熔断器模式防止故障传播,维护系统的整体稳定性。文章还将介绍一些实用的技术和工具,如Netflix Zuul、Spring Cloud Gateway以及Hystrix,以帮助开发者构建一个可靠且高效的微服务环境。
|
3天前
|
设计模式 Cloud Native 算法
拥抱变化:我的技术适应之旅构建未来:云原生架构在企业数字化转型中的关键角色
【4月更文挑战第30天】 在技术的浪潮中,我学会了不仅仅是编码,还有如何与时俱进。本文记录了我从一名初出茅庐的开发者成长为一个能够适应不断变化技术环境的工程师的心路历程。从最初的困惑与挑战到后来的接纳与创新,我意识到,技术能力的提升和心态的转变同样重要。