鹰角网络:EMR Serverless Spark 在《明日方舟》游戏业务的应用

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
EMR Serverless Spark 免费试用,1000 CU*H 有效期3个月
简介: 鹰角网络为应对游戏业务高频活动带来的数据潮汐、资源弹性及稳定性需求,采用阿里云 EMR Serverless Spark 替代原有架构。迁移后实现研发效率提升,支持业务快速发展、计算效率提升,增强SLA保障,稳定性提升,降低运维成本,并支撑全球化数据架构部署。

作者:鹰角网络高级大数据研发 茅旭辉


背景介绍

鹰角网络是一家年轻且富有创新的游戏公司,致力于开发充满挑战性和艺术价值的游戏产品。公司目前涵盖了游戏开发、运营和发行的全生命周期业务。随着业务的扩展,鹰角网络从单一爆款游戏发展到多赛道、多平台、全球化的战略布局,在数据业务上进行了全面的优化和升级。


从业务上看,以《明日方舟》为代表的长线运营游戏,具有相对高频的活动周期和丰富多样的活动玩法,反映到数据层面则是数据需求量高、潮汐现象显著,需要高效的开发模式支持和灵活的弹性资源供给。我们的数据支持不仅仅有传统的 BI 报表形式,更是深入集成到游戏玩法和运营层面透出,对于引擎稳定性有强烈诉求。另外,内部面向业务的分析跑数场景,存在基于 Thrift Server 等能力扩展支持的诉求。



为什么选择阿里云 EMR Serverless Spark

原有架构痛点

在业务发展过程中,原有架构逐渐暴露出了如下痛点:

  1. 产品功能上,缺少外部 Catalog 支持和 DolphinScheduler 等流行调度引擎集成支持。
  2. 引擎性能上,社区兼容性相对较低产生稳定性问题,且不支持 Remote Shuffle Service 服务导致性能问题。
  3. 服务保障上,技术支持力度较弱,在用户痛点发掘和产品迭代方面做得不足。



EMR Serverless Spark 优势

我们期待的云原生大数据架构是基于开放生态、资源弹性、可插拔集成理念下的半托管+全托管灵活组合架构,而 EMR Serverless Spark 正是完美匹配这套理念的重要一环。它是一款兼容开源 Spark 的高性能 Lakehouse 产品,为用户提供任务开发、调试、发布、调度和运维等全方位的产品化服务,显著简化了大数据计算的工作流程,使用户能更专注于数据分析和价值提炼,具备如下核心优势:

  • 丰富的功能支持
  • 元数据管理:支持管理 Paimon Catalog,并且支持对接外部 Hive MetaStore 元数据服务。
  • 调度引擎支持:提供了 Airflow、DolphinScheduler 等多种调度引擎无缝集成。
  • 资源管理模型:提供了易于理解的三级资源管理模型(工作空间、队列、会话)和细粒度的队列资源监控。
  • 生态能力:提供了 Spark Thrift Server、Notebook 等多种生态功能,便于业务灵活使用。


  • 优秀的引擎性能
  • Shuffle 性能:内置 Celeborn 服务,解决了大 Shuffle 场景下的磁盘限制问题。
  • SQL 执行引擎:内置的高性能 Fusion 引擎,为计算加速提供支持。
  • 稳定性:100%保持社区兼容性,并积极修复潜在 Bug。
  • 版本支持:持续追踪 Spark 社区版本,提供多版本迭代支持和完整的引擎特性使用。


  • 完善的服务保障
  • 问题响应:提供了专业的技术咨询和解决方案支持,增强合作信任度。
  • 产品规划:提供了清晰的产品迭代规划,持续解决用户痛点场景。



技术方案设计

image.png

数据采集

在数据采集和管理方面,我们采用了自研的埋点工具来获取和管理日志数据,并利用 Flink CDC 技术同步数据库表。这确保了数据的实时性和准确性,为后续的数据分析提供了可靠的基础。


离线调度

在离线调度方面,我们实施了两种策略一种引擎,一是使用 Airflow 服务支持有代码基础的研发用户,同时为普通数据分析师和数仓研发提供了 DolphinScheduler 服务,这两种调度系统都实现了对 EMR Serverless Spark 的对接,满足平台服务的灵活性。

我们选择了 Serverless Spark 作为其离线计算引擎,相比于之前的架构,Serverless Spark 显著减少了运维成本,并提高了系统的稳定性和可靠性。其 Celeborn 能力解决了大 Shuffle 任务操作中的磁盘限制问题,同时任务状态与调度工具实现了强一致性,无需二次确认,进一步优化了数据处理流程。


在线计算

为了支持在线计算和数据应用,我们使用 StarRocks 进行在线计算,高质量的指标数据通过智能 BI 系统实现可视化实时展示,并提供了清晰的业务洞察。同时,数据还被整合到经营分析平台,为其业务发展提供了统一支持。数据也应用于算法团队进行业务探索与数据科学分析。


典型应用场景

DolphinScheduler 集成作业开发

image.png

Serverless Spark 在 DolphinScheduler 中集成了专用的作业类型ALIYUN_SERVERLESS_SPARK,支持 SQL、SQL File、Jar 包等多种作业形式。我们在本地 Git 仓库开发作业,通过 CI 流程部署到 OSS 存储路径下,并使用 SQL File/Jar 作业类型,提交相应的作业文件到 Serverless Spark 执行计算。

image.png


Thrift Server 支持 Ad-Hoc

Serverless Spark 内置了 Thrift Server 服务,支持通过 JDBC 的方式连接 Spark执行 SQL 查询,提供了便捷将 Spark 环境与其他数据分析工具集成的途径。目前Spark Thrift Server 能力在内部主要支持以下两类场景:

  • 以产品运营人员为主的 Ad-Hoc 分析场景,期望通过 Spark 引擎执行 SQL 查询,但希望忽略资源配置等非必要信息,可以直接使用 DolphinScheduler 内置的 SQL 作业类型 + Spark 数据源进行简单查询。同时 Spark Thrift Server 会话支持动态资源配置,可以自适应支持 Ad-Hoc 查询所需资源。
  • 以数仓研发为主的数据结果返回场景,能够拿到 SQL 查询结果并传递给下游作业使用。

image.png


迁移后的收益

通过这一系列技术栈的优化,我们不仅优化了数据管理和分析流程,还有效支持了公司的全球化战略和业务扩展,目前我们已经在海外基于 EMR Serverless Spark 搭建类似数据架构。

EMR Serverless Spark 主要给我们带来了以下收益:

  1. 研发效率提升,支持业务快速发展
    迁移到 EMR Serverless Spark + DolphinScheduler 架构后,使用 Spark SQL 会话功能快速开发验证+DolphinScheduler 生产调度的模式,研发效率显著提升,多次保障了关键活动节点的数据产出支持。


  1. 计算效率提升,增强SLA保障
    在以用户宽表为代表的指标计算场景下,单作业计算用时从30分钟降低到15分钟,计算加速50%;核心 SLA 链路整体产出时间缩短1.5小时,大幅增强了 SLA 保障能力。


  1. 稳定性提升,降低运维压力
    EMR Serverless Spark 的多版本管理能力为用户提供了灵活的选择空间,支持快速升级至最新优化版本,确保用户始终享有最稳定的运行体验。



总结及后续期待

经过了业务实践证明,EMR Serverless Spark 在大数据研发下 Spark 生态领域的经典业务场景具备了足够的优势。对于未来,我们期望它能继续以开放原则发展 Lakehouse 生态能力,例如统一 Catalog 管理等能力,并逐步覆盖更多的边缘场景和探索型场景。



阿里云 EMR Serverless Spark 版是一款面向 Data+AI 的高性能 Lakehouse 产品。它为企业提供了一站式的数据平台服务,包括任务开发、调试、调度和运维等,极大地简化了数据处理和模型训练的全流程。同时,它100%兼容开源 Spark 生态,能够无缝集成到客户现有的数据平台。使用 EMR Serverless Spark,企业可以更专注于数据处理分析和模型训练调优,提高工作效率。


EMR Serverless Spark 交流钉钉群:58570004119

image.png

相关文章
|
2月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
423 29
|
2月前
|
机器学习/深度学习 PyTorch TensorFlow
卷积神经网络深度解析:从基础原理到实战应用的完整指南
蒋星熠Jaxonic,深度学习探索者。深耕TensorFlow与PyTorch,分享框架对比、性能优化与实战经验,助力技术进阶。
|
3月前
|
存储 人工智能 Serverless
函数计算进化之路:AI 应用运行时的状态剖析
AI应用正从“请求-响应”迈向“对话式智能体”,推动Serverless架构向“会话原生”演进。阿里云函数计算引领云上 AI 应用 Serverless 运行时技术创新,实现性能、隔离与成本平衡,开启Serverless AI新范式。
426 12
|
4月前
|
监控 安全 Shell
管道符在渗透测试与网络安全中的全面应用指南
管道符是渗透测试与网络安全中的关键工具,既可用于高效系统管理,也可能被攻击者利用实施命令注入、权限提升、数据外泄等攻击。本文全面解析管道符的基础原理、实战应用与防御策略,涵盖Windows与Linux系统差异、攻击技术示例及检测手段,帮助安全人员掌握其利用方式与防护措施,提升系统安全性。
197 6
|
3月前
|
消息中间件 运维 监控
爆款游戏背后:尚娱如何借助阿里云 Kafka Serverless 轻松驾驭“潮汐流量”?
阿里云 Kafka 不仅为尚娱提供了高可靠、低延迟的消息通道,更通过 Serverless 弹性架构实现了资源利用率和成本效益的双重优化,助力尚娱在快速迭代的游戏市场中实现敏捷运营、稳定交付与可持续增长。
198 32
|
6月前
|
存储 编解码 Serverless
Serverless架构下的OSS应用:函数计算FC自动处理图片/视频转码(演示水印添加+缩略图生成流水线)
本文介绍基于阿里云函数计算(FC)和对象存储(OSS)构建Serverless媒体处理流水线,解决传统方案资源利用率低、运维复杂、成本高等问题。通过事件驱动机制实现图片水印添加、多规格缩略图生成及视频转码优化,支持毫秒级弹性伸缩与精确计费,提升处理效率并降低成本,适用于高并发媒体处理场景。
321 0
|
3月前
|
人工智能 运维 安全
聚焦 AI 应用基础设施,云栖大会 Serverless AI 全回顾
2025 年 9 月 26 日,为期三天的云栖大会在杭州云栖小镇圆满闭幕。随着大模型技术的飞速发展,我们正从云原生时代迈向一个全新的 AI 原生应用时代。为了解决企业在 AI 应用落地中面临的高成本、高复杂度和高风险等核心挑战,阿里云基于函数计算 FC 发布一系列重磅服务。本文将对云栖大会期间 Serverless+AI 基础设施相关内容进行全面总结。
|
3月前
|
机器学习/深度学习 人工智能 算法
卷积神经网络深度解析:从基础原理到实战应用的完整指南
蒋星熠Jaxonic带你深入卷积神经网络(CNN)核心技术,从生物启发到数学原理,详解ResNet、注意力机制与模型优化,探索视觉智能的演进之路。
401 11
|
3月前
|
人工智能 Kubernetes 安全
重塑云上 AI 应用“运行时”,函数计算进化之路
回顾历史,电网的修建,深刻地改变了世界的经济地理和创新格局。今天,一个 AI 原生的云端运行时的进化,其意义也远不止于技术本身。这是一次设计哲学的升华:从“让应用适应平台”到“让平台主动理解和适应智能应用”的转变。当一个强大、易用、经济且安全的 AI 运行时成为像水电一样的基础设施时,它将极大地降低创新的门槛。一个独立的开发者、一个小型创业团队,将有能力去创造和部署世界级的 AI 应用。这才是技术平权的真谛,是激发全社会创新潜能的关键。
|
DataWorks 数据挖掘 Serverless
阿里云EMR Serverless StarRocks 内容合集
阿里云 EMR StarRocks 提供存算分离架构,支持实时湖仓分析,适用于多种 OLAP 场景。结合 Paimon 与 Flink,助力企业高效处理海量数据,广泛应用于游戏、教育、生活服务等领域,显著提升数据分析效率与业务响应速度。
259 1