巨人网络《超自然行动组》携手阿里云打造云原生游戏新范式

简介: 通过 ACK(容器服务)、ESS(弹性伸缩)、网络型负载均衡 NLB、OpenKruiseGame(OKG)、SLS(日志服务)、ARMS(应用实时监控服务)、阿里云原生防护(Native Protection),以及云原生数据库 polardb 和 Redis 的深度协同,巨人网络构建了一套高弹性、高可用、低成本、智能化、高安全且高性能数据处理能力的新一代游戏基础设施,为行业树立了云原生落地的标杆。如今,随着日活跃用户(DAU)突破千万大关,这套技术体系,已经成为游戏行业“云原生转型”的标杆案例。

从开服第一天起,就跑在云上;

上线一年,DAU 已经突破 1000 万;

高峰期百万玩家同时在线,零重大故障。


这不是科幻,而是巨人网络与阿里云共书写的云原生实战。

1773811529472_fca37135af494e8d8ce8874ed328b80a.png

《超自然行动组》的云原生架构先行战略


2025 1 月,巨人网络推出多人组队欢乐冒险游戏《超自然行动组》,凭借创新的中式微恐+多人合作"的独特玩法,迅速成为现象级产品。最近,《超自然行动组》宣布 DAU 突破 1000 万,更攀升至 iOS 游戏畅销榜第四。尤为值得一提的是,自开服第一天起,这款游戏从未部署在任何物理机或传统虚拟机上——它从第一天起,就运行在云原生架构之上


对于大多数游戏公司而言,上线即爆款是甜蜜的烦恼——流量洪峰来得快、退得慢,而传统架构却笨重


  • 游戏服(如战斗服、房间服)部署在固定服务器,扩容需数天;
  • 为应对峰值需长期预留资源,空闲时浪费严重;
  • 版本更新靠脚本,灰度发布难,一出错就全服回滚
  • 日志分散、监控割裂,故障定位动辄几小时;
  • 安全防护薄弱,易受 DDoS 攻击;
  • 数据层瓶颈突出:战斗结算延迟、排行榜卡顿、玩家数据丢失等问题频发。


《超自然行动组》团队深知:若沿用旧模式,很可能倒在成功的路上


于是,他们选择了一条更难但更远的路——全面拥抱云原生


通过 ACK(容器服务)、ESS(弹性伸缩)、网络型负载均衡 NLBOpenKruiseGameOKG)、SLS(日志服务)、ARMS(应用实时监控服务)、阿里云原生防护(Native Protection),以及云原生数据库 polardb Redis 的深度协同,巨人网络构建了一套高弹性、高可用、低成本、智能化、高安全且高性能数据处理能力的新一代游戏基础设施,为行业树立了云原生落地的标杆。如今,随着日活跃用户(DAU突破千万大关,这套技术体系,已经成为游戏行业云原生转型的标杆案例。


高弹性×低延迟×零故障:解码<超自然行动组>的云原生底座


《超自然行动组》基于阿里云 ACK OpenKruiseGameOKG)构建了业界领先的云原生游戏服架构:通过蓝绿发布与原地升级实现零停机、无感交付;通过 OKG+ NLB 资源池,全面覆盖 BGP、电信、联通、移动等主流线路,实现多运营商网络自动化映射。结合 HPA 智能扩缩容与 OKG 优雅下线机制,在成本与用户体验间取得平衡;通过 ACK Koordinator 组件,实现 CPU Burst QoS 精细化调度,显著提升集群资源利用率;并通过基础设施与业务状态的双向感知,构建起业务语义驱动的自动化运维闭环——真正实现了高弹性、高可用、高性能、高安全的新一代游戏后端体系。在显著降低运维压力的同时,实现了机制化、可持续的成本优化


在网络层面,作为一款对延迟极度敏感的竞技手游,《超自然行动组》依托阿里云打造了云边协同、三网通吃、弹性集约的新一代云网络架构:通过 OKG NLB 实现电信、联通、移动、BGP 四线并发接入,全国玩家自动匹配最优链路,并以静态网络+动态计算创新模式达成 50 节点/分钟的极速扩容,15 分钟内可拉起数千战斗服,彻底告别排队;同时,借助阿里云高速通道,将本地机房的账号、支付等核心系统与上海 VPC 内网直连,构建毫秒级同步、金融级安全的混合云中枢;并通过共享带宽包统一聚合公网出口,在简化运维的同时显著降本,为玩家交互与高频状态同步提供弹性带宽蓄水池,真正实现千万玩家同场竞技零卡顿、零等待的极致体验。


在数据层面,云原生 polardb Tair(兼容 Redis构建了弹性,稳定的玩家存档方案,支持千万级玩家高并发登录和读写,基于 polardb 云原生数据库的存算分离和弹性能力,支持游戏在活动期间自动扩展弹性,并且支持玩家数据的秒级备份和回档,大幅降低了数据库的运维成本,并且 PolarDB Serverless 支持自动扩容和缩容,能够根据用户访问量的实时变化,秒级调整计算资源。在高峰时期自动增加资源,低谷时期自动减少资源,确保社区始终运行在最佳状态。基于阿里云 Tair(兼容 Redis支持玩家超高并发的访问,作为实时排行榜、战斗状态缓存和匹配池的核心,依托多线程与持久内存优化,单实例 QPS 超百万,实现毫秒级排名刷新、瞬时结算与断线无缝恢复。


当数百万玩家涌入《超自然行动组》,DDoS 攻击成为影响体验的关键风险。为此,巨人网络联合阿里云,基于云原生安全架构打造了一套高性能、智能化的防护体系。该方案依托阿里云原生高防能力,无需架构改造,一键接入即可实现 TB DDoS 攻击的毫秒级识别与精准清洗,防护能力行业领先。即便在版本更新或大型赛事等高并发场景下,系统仍保障 99.99% 以上服务可用性,真正做到攻击零感知、切换无中断。面对突发流量洪峰,系统支持防御带宽自动弹性伸缩,动态调配资源,避免因容量不足导致服务中断。同时,通过集成安全事件中心,运营团队可实时监控攻击事件,分析攻击类型与特征,并结合 AI 驱动的策略建议,快速部署定制化游戏协议防护规则,显著提升响应效率与防御精准度。从高效清洗到智能决策,阿里云以稳定、高效、安全为核心,为《超自然行动组》构筑起坚不可摧的数字护盾,在保障千万玩家流畅竞技的同时,也为游戏行业树立了云原生安全新标杆。


对于《超自然行动组》这款主打实时互动的竞技游戏,能跑只是起点,看得清、查得准才是保障千万玩家流畅体验的关键。运维团队摒弃传统分散监控工具,基于阿里云日志服务 SLS 、云监控 CMS Prometheus 服务、Grafana 服务,搭建起轻量、标准、深度集成的可观测体系:


  • 依托 Prometheus 实时采集百万级 PCU 下的资源水位与在线人数、匹配时长等核心业务指标,确保高并发下监控精准不丢点;
  • 通过 SLS 统一汇聚全链路日志,支持按 RequestID / 玩家 ID 秒级还原行为路径,结合 SQL 分析与自定义规则,实现地图报错统计、异常操作追踪;
  • 借助 Grafana 打造统一全景大盘,融合展示指标与日志数据,告警时可一键跳转 SLS 查看关联日志,实现指标发现问题、日志定位根因的闭环,将故障响应时间从小时级压缩至分钟级,充分发挥云原生可观测与协同优势。

1773812234088_7c29708305eb43c3b45bbc6bc7124884.png

超自然云原生架构


从“能跑”到“跑赢”:OKG 重塑游戏后端新范式


当一款游戏从能跑走向跑得快、跑得省、跑得稳,背后一定有一套先进的技术底座在支撑。《超自然行动组》的故事,源于巨人网络,也属于所有正在思考如何用云原生重构游戏后端的开发者。

1773812514341_23065294b3c74974a4b78364d014c6bb.png

面对全球游戏市场对高并发、低延迟及快速迭代的极致追求,OpenKruiseGame (OKG) 作为阿里云打造的为游戏而生的云原生游戏服管理方案,正成为推动行业架构平滑升级的核心引擎。针对游戏业务特有的异构性管理难题,OKG 提供了从精细化配置、自动化网络接入到业务状态感知的一站式管理体系。它不仅极大降低了游戏厂商的云原生转型门槛,更通过全球多地域一致性交付能力,助力开发者突破地域限制,实现业务的快速敏捷部署与全球化扩张。

1773812745241_e90ba355c6924981b684a94b398494de.png

云原生,已不再是互联网应用的专属,而是下一代游戏基础设施的必然选择。

相关实践学习
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
相关文章
|
1月前
|
人工智能 机器人 Serverless
打造云端数字员工:OpenClaw 的 SAE 弹性托管实践
OpenClaw GitHub星标破14万,标志着AI从对话框迈向自主智能体,以轻量CLI启动本地网关,提供安全、持久、可扩展的Agent运行时。依托阿里云SAE全托管Serverless容器环境,开箱即用、秒级弹性扩缩与跨可用区高可用,让AI真正成为可交付结果的“数字员工”。
|
人工智能 Kubernetes 安全
阿里云 ACK 新升级,打造智算时代的现代化应用平台
阿里云 ACK 新升级,打造智算时代的现代化应用平台
71307 10
|
1月前
|
人工智能 安全 机器人
企业OpenClaw部署实践:基于阿里云无影一键部署方案
OpenClaw(原Clawdbot/Moltbot)是一款开源本地优先AI智能体平台,支持自然语言调用浏览器、邮件、文件等工具,自动处理文档、日程、邮件等任务。阿里云提供一键部署方案,尤其推荐无影云电脑版——集中管理、多端接入、7×24稳定运行、数据不出域、开箱即用。
336 15
|
1月前
|
弹性计算 人工智能 前端开发
Agent/Skills/Teams 架构演进过程及技术选型之道
本文系统梳理Agent架构演进路径:Single Agent→Multi-Agent→Agent Skills→Agent Teams,剖析其本质是大模型“领域知识注入”与“长期记忆管理”能力不足的工程补偿。结合阿里云实践及Google、Anthropic最新研究,提出“由简入繁、按需升级”的科学选型方法论,强调架构复杂度须匹配问题复杂度。
Agent/Skills/Teams 架构演进过程及技术选型之道
|
1月前
|
移动开发 前端开发 JavaScript
【贪吃蛇小游戏】 HTML (Canvas)+ JavaScript
这是一个基于 HTML5(Canvas)+JavaScript 开发的贪吃蛇小游戏,通过800×800画布实现蛇体绘制、食物生成、碰撞检测及方向控制,支持键盘操作与重新开始功能,代码结构清晰,适合初学者学习Web游戏开发。
724 11
|
算法 程序员
从《阴阳师》到《原神》,抽卡中的程序算法
收集类的抽卡手游,是玩家们喜闻乐见的一类游戏,他们背后又有哪些程序算法?我们一起来探讨
5475 1
从《阴阳师》到《原神》,抽卡中的程序算法
|
1月前
|
SQL 人工智能 监控
阿里云 AI安全护栏2.0发布Agent运行时防护,抓住“自主执行任务”的“虾”
AI安全护栏为“龙虾”的每一次自动执行筑起关键防线
1680 6
|
1月前
|
人工智能 自然语言处理 测试技术
手把手教你用云效 MCP 实现项目自动化管理
云效 MCP Server 已正式发布。它是一个为研发全生命周期提供统一可编程能力的元控制平面,旨在打通工具间的壁垒,实现研发流程的高度自动化。
|
17天前
|
人工智能 运维 安全
|
3月前
|
存储 数据采集 弹性计算
面向多租户云的 IO 智能诊断:从异常发现到分钟级定位
当 iowait 暴涨、IO 延迟飙升时,你是否还在手忙脚乱翻日志?阿里云 IO 一键诊断基于动态阈值模型与智能采集机制,实现异常秒级感知、现场自动抓取、根因结构化输出,让每一次 IO 波动都有据可查,真正实现从“被动响应”到“主动洞察”的跃迁。
434 84

热门文章

最新文章