5.3 云游戏超1 亿小时稳定运行的背后,元境保障体系 的最佳实践
节假日一直是游戏行业的旺季,在“就地过年”的倡导下,春节期间的流量持 续高涨,大多数游戏发行商非常重视这个时间窗口,众多游戏更新了新春版本, 期待着为玩家带来一场节日盛宴。2022 年的春节,是中国云游戏产业走向规 模化迎来的第一个春节。相比 2021 年,云游戏整体流量上升了很大一个台阶, 这对行业来讲意义重大,对于元境的技术及运维团队来讲,也将经历一个前 所未有的考验。
2021 年云游戏从点对点云化全面进入到大规模云移植阶段,技术的进一步成 熟使得玩家体验大幅提高,云游戏在跨端、精品化、内容创新等方面产生的 价值日益突显,大批游戏厂商在云游戏上加大投入力度。元境基于全平台、 全终端、企业级服务保障的特点,以及低延时、云边协同弹性调度、弱网对 抗等技术优势,达成了众多中大型客户的合作,其中不乏头部、现象级的游 戏厂商和平台。
数字增长的同时,也对云游戏的运行效率、 运维保障提出更高的要求和更全面的挑战
挑战一:云化适配与部署的效率和吞吐能力
春节期间,为提升用户的活跃度及付费率,与元境合作的多家游戏厂商 对其云游戏版本进行了更新,增加全新的角色、场景、活动等内容,更 新的包体较大;而游戏平台类客户则会批量上线和更新云游戏,上线数 量多、时间集中。大包体更新、大批量云化、集中性部署,这些需求对 于云游戏技术服务商而言挑战很大。不仅需要具备弹性扩容的基础设施, 还要拥有更加智能化的技术方案。考验着服务商的云化适配与部署效率 和并发吞吐能力。
挑战二:高流量、复杂场景的调度能力
春节期游戏流量高峰加之云游戏规模化上量,双重因素影响下,元境面 临的核心课题是:如何在突发的流量高峰、复杂的使用场景下,在极短 的时间内把云游戏实例有效地调度给玩家,从而降低玩家排队时间、保 障玩家流畅的游戏体验和稳定的运行环境。
揭秘元境“从云基座到业务层”的一体化保障体系
面对春节期间游戏厂商、平台、玩家等多角色的需要,元境技术和运维团队 基于大规模高并发的企业级服务经验、专项 7x24h 实时监控、自动化系统等 能力,实现从云基座到业务层的一体化保障,出色地完成了百余家客户的云 游戏稳定运行,保障了云游戏玩家流畅、稳定的体验。
自研云边协同弹性调度 确保以最近的节点高效服务玩家
要把云游戏的基础能力用好,需要投入一些新的研发工作,过去的云端计算, 其运行环境与基础条件相对标准化。而云游戏作为一个新的云端很重的计算 任务,需要更低的延时和更稳定的数据交互,这就需要将算力高效地使用起来, 将基础设施的优势更好地发挥出来。
云游戏最容易被提出来的挑战是延时高,在整个链路中浮动最大的是网络延 时,在这方面主要关注云主机离这个玩家多远、边缘部署多广泛,能不能找 到离玩家足够近的节点。
元境基于阿里巴巴云服务在全国范围内可覆盖的 2800 多个边缘节点,实现 31 个省运营商全覆盖,RTT 可低于 5ms。与此同时,元境在 2021 年非常重要的一个投入就是把边缘云和公共云真正的协同调度起来,把边缘节点的算 力、存储等资源和云计算资源统一管理起来,形成“逻辑集中,物理分散”的 高效协同。
正因为元境在云边协同上的投入,春节期间才得以在流量突增、运维工作量 增加和环境复杂度变高的情况下,实现了更高的运行效率,保障了玩家的低 延时、流畅的云游戏体验。
针对游戏行业的特性提供专属的保障方案
春节期间,元境支持了多家客户的大包体更新。通常情况下,云游戏版本更 新会将其全量包体进行更新,但当更新包体较大且用户数量较多时,受限于 机房及带宽的容量和弹性,常规方案很难支持。元境基于充足的机房、带宽 及自研的更新方案,帮助客户以增量的方式完成大包体的快速更新,在线 上高流量的情况下,版本更新时长降低了 80%,保障了游戏更新的及时性 和安全性。
对于平台类客户,保障平台上数百款游戏的云化适配、平台云游戏批量上线 的时效性非常重要。元境通过自动适配能力加之春节期间值班保障,分钟级 响应客户更新适配诉求,全力保障云化适配的产量,提升云化适配的效率。
建立云游戏场景下的 AIOps 智能运维大脑, 保障客户业务的稳定运行
元境基于阿里巴巴主流 AIOps 理念,建立云游戏场景下的智能运维大脑,从 发现故障,到根因分析,再到具体的修复动作,实现云游戏的自动化运维流程。
传统的运维工作大多在事中和事后进行处理,运维工作需要耗费大量的人力及 物力,在传统方式下无法满足高质量的云游戏体验和大规模服务的诉求。因此元境运维大脑引入 AI 算法,通过软硬件故障预测、检测的方式,来科学指导 稳定性的工作,分别在游戏运行环境性能衰退前和触发故障前进行提前处理。
诊断是一个根因分析的过程,非常强调领域知识,在元境服务的过程中,与 阿里云 IaaS 团队共同分析各类软硬件故障及修复方案,结合归因分析方法论, 沉淀出一整套的根因分析方案。最后修复动作的选择依赖充分的决策,即使 在全自动化的方式下,由于各客户的业务场景不同,游戏运行环境的不同, 也需要针对不同的触发源具备不同的修复策略,通过智能化决策能够有效地 提升故障修复的时效性和有效性。
春节期间智能运维大脑日决策数千次,自动化治愈率达到 96%,极大地提升 了云游戏基座的稳定性,在春节期间大规模扩量的情况下,为客户带来稳定 地运行和玩家流畅的体验。
保障团队与运营方式 复用阿里双 11 的保障体系与平台
为保障客户的云游戏在春节期间稳定运行,元境的技术及运维团队早在两个 月前便开始制定作战计划。
考虑到假期的各种影响因素,元境在智能化运维大脑的基础上,结合了阿里 双 11 的保障经验,复用阿里双 11 的保障体系和系统平台。前期从业务规划、 容量准备、风险盘点、应急预案、性能优化、封网管控、安全加固、值班协 同等方面开展全方位的准备工作,把保障工作在事前扎实准备;保障期间开 展多次故障场景与业务场景突袭演练,验证技术平台的运维稳定性,以及人 员的应急响应速度和质量;结合移动化的平台工具,做到了掌间运维,高效 协同。
与传统游戏的运维、运行都在厂商这一侧不同,云游戏的运维和运行一般由服 务商来完成,这就对云游戏的技术服务商提出了非常高的要求。
随着游戏产业内容精品化、运行全端化的需求日渐强烈,将会有更多游戏企 业布局云游戏,云游戏产业将会迎来新一轮的增长。