日志服务助力江娱互动实现游戏运维能力跃迁

本文涉及的产品
对象存储 OSS,20GB 3个月
文件存储 NAS,50GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
简介: 阿里云日志服务SLS帮助江娱互动做了日志价值的最大化利用,包括业务监控、系统维稳、数据分析等。

一、 公司介绍

topwar-nav.png

北京江娱互动科技有限公司致力于开发Global级别的移动游戏产品并推广至全球。旗下产品现已推广至日本、俄罗斯及多个欧美国家。


《口袋奇兵》作为江娱互动的核心产品,是一款以“合成”为特色的卡通军事SLG游戏。该游戏用户量为150000000,下载量达到了1800000000。在出海过程中,营收也十分可观。仅仅2年的时间,江娱互动就凭借单款产品跻身中国游戏厂商出海30强。


二、 业务现状


随着游戏业务全球化覆盖越来越广,用户数也飞速增长,业务系统规模和复杂度也逐渐增加。团队要维护的资源的上升和问题数量的上升成了最大困扰,如何利用有限的技术精力处理问题成了急需解决的事情。


游戏行业中,日志的覆盖度几乎涵盖整个游戏的生命周期,从测试、上线、运营各个阶段,日志可以完全追溯一个游戏的全貌。当然,运维、研发相关团队对于游戏运行正常与否,也是通过日志来做检查的。导入游戏运行日志到阿里云日志服务SLS,即可找到玩家“违规”操作,下图为游戏工作室游戏中刷兑换码的聊天记录及告警。

刷兑换码.jpg

image.png

在尝试对游戏业务日志的简单运用后,研发部门发现日志服务可以针对很多场景进行预警,于是还针对日志服务的日志规则,专门去优化了游戏系统的全部日志,打造了基于日志服务SLS的日志格式体系,深度运用系统创造业务价值。


三、 最佳实践


我们和江娱互动资深技术专家赵聪慧进行了一次深入沟通。


阿里云:聪慧您这边主要负责的板块是什么?江娱互动的主营业务《口袋奇兵》在您这个纬度是如何保障稳定运行的?


聪慧:我这边是游戏相关日志层面的主要负责人,对游戏的稳定性关注度会很高,平常通过日志来进行一些业务开展。《口袋奇兵》是一款globe的游戏策略游戏,玩家遍布全球,但实时性并不是要求很高,所以我们将游戏的各个维度数据指标写入了日志,采取对日志进行常态化监测,及时修正问题,保证游戏稳定运行。

江娱互动架构图.jpg

阿里云:您刚说到日志,我们这边是如何使用日志的?


聪慧:我们这边主要是用了阿里云的日志服务SLS,对游戏相关的所有日志进行归纳采集,然后做了日志的全局监控,包括业务层面的数据和性能层面的数据,例如用户上线数、死锁等,并结合日志服务的告警系统做了细粒度的告警,基本上之前遇到的问题只要再次发生,日志服务的告警都可以给我们报出来。我这边给您展示一下我们的告警。

展示告警1.jpg

展示告警2.jpg

image.png

阿里云:我看您这边告警有很多类型,我们如何对处理这些告警的?


聪慧:是这样,上面说的告警信息都是可以下钻的,点击下去后,就能看到详细的原始日志,我们在每个日志上都进行了详细的记录,基本上看到日志就知道是什么时间什么人发生了什么事,有些事技术测修改一下就好,有一些可能需要给到运营测,让那边判断后通过后台处理。


阿里云:您刚说日志下钻后详细的记录,这么顺畅的流程是如何建立的?


聪慧:其实我们用阿里云日志服务也很多年了,并不是一蹴而就的,起初我们就是做简单的日志存储查询,发现日志服务查询相应很快,使用其他的查询工具就很不适应了,内部讨论后,一致同意将SLS作为主要日志查询工具。为了方便我们还针对性的将原本的杂乱格式的日志进行了梳理,做到了与阿里云SLS的无缝对接,随着这款游戏相关的日志全量采集,基本上所有的问题都能在SLS找到个所以然来。


阿里云:用了日志服务很多年,这边您最大的感触是什么?


聪慧:其实感触很多,我最深的体会就是,以前游戏圈里有个词叫回档 ,12-13年那会,游戏里出现问题后,我们排查问题,就人工写脚本,发送到去服务器上调取日志,日志查完后发现有些问题无法解决,比如盗号之后物品的流转路径根本没法去判断,最终只能回档。一套流程下来,时间久不说,客户体验还差,为此还天天和运营吵架。现在我们优化了日志,用SLS全面采集,分分钟找到问题原因,各种玩家物品的追溯起来非常简单,再也没有因为数据问题做过回档这个操作。


阿里云:看来日志帮助咱们出了不少力,阿里云的日志服务更是让日志本身的价值得到了最大的发挥,说到这里,有没有一些数据能让我们对日志服务SLS有一些直观的认识。


聪慧:没有SLS,发现问题以天为单位,解决问题以小时为级别,用了SLS之后,秒级发现问题,分钟级别解决问题。


阿里云:这种结论让我们感到很开心,能为客户提升效率这么多,我们会继续让SLS做的更好。


聪慧:确实,SLS帮助是蛮大的,我们不在像以前那样频繁登录服务器找日志来看了,简单高效的通过告警下钻,95%以上的问题几分钟就能搞定,后续我们会更精细化的对日志分类,打造以日志为中心的业务解决平台。


四、 结语


阿里云日志服务SLS帮助江娱互动做了日志价值的最大化利用,包括业务监控、系统维稳、数据分析等。一方面游戏业务精准监控,彻底消除了回退机制;一方面日志指标的告警全面覆盖,MTTR降低为分钟级别 。最终将运维能力带上了一个新的级别。

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
29天前
|
存储 运维 监控
API明细日志及运维统计日志全面提升API可运维性
在数字化转型的大潮中,数据已成为企业最宝贵的资产之一。而数据服务API可快速为数据应用提供数据接口。面对越来越多的API以及越来越多的应用调用,如何快速查看API的服务情况、异常情况及影响范围,以及查看API的调用详情,进行API的性能优化、错误排查变得越来越重要,本文将介绍如何配置和开通API运维统计及明细日志,以及如何查看日志进行介绍。
|
1月前
|
存储 人工智能 关系型数据库
拥抱Data+AI|解码Data+AI助力游戏日志智能分析
「拥抱Data+AI」系列第2篇:阿里云DMS+AnalyticDB助力游戏日志数据分析与预测
拥抱Data+AI|解码Data+AI助力游戏日志智能分析
|
1月前
|
存储 人工智能 关系型数据库
拥抱Data+AI|玩家去哪儿了?解码Data+AI如何助力游戏日志智能分析
本文为阿里云瑶池数据库「拥抱Data+AI」系列连载第2篇,基于真实客户案例和最佳实践,探讨如何利用阿里云Data+AI解决方案应对游戏行业挑战,通过AI为游戏行业注入新的活力。文章详细介绍了日志数据的实时接入、高效查询、开源开放及AI场景落地,展示了完整的Data+AI解决方案及其实际应用效果。
|
6月前
|
运维 Prometheus 监控
监控与日志分析:运维的双剑合璧
【6月更文挑战第21天】监控与日志分析在IT运维中至关重要。监控守护系统健康,通过性能指标、服务状态和安全事件预警确保稳定性;日志分析则用于问题追踪,通过错误、访问和安全日志定位故障。监控工具如Prometheus与日志分析工具如ELK堆栈协同工作,统一平台、合理告警、定期分析和团队协作是高效运维的关键。这两者的结合助力运维人员迅速响应和解决问题,维护系统稳定。
|
2月前
|
运维 监控 数据可视化
出海运维日志通到底重要不重要?
出海运维日志通到底重要不重要?
|
3月前
|
监控
莉莉丝-游戏用户日志分析
莉莉丝游戏用户日志分析案例图
|
4月前
|
存储 运维 监控
监控与日志管理:保障系统稳定运行与高效运维的基石
【8月更文挑战第16天】监控与日志管理是保障系统稳定运行和高效运维的基石。它们不仅能够帮助企业及时发现并解决问题,还能够为性能调优、资源优化和业务决策提供有力支持。因此,在构建系统架构时,企业应高度重视监控与日志管理的规划和实施,确保它们能够充分发挥作用,为企业的发展保驾护航。同时,随着技术的不断进步和应用场景的不断拓展,监控与日志管理也将持续演进和创新,为企业带来更多的价值和便利。
|
4月前
|
运维 分布式计算 DataWorks
DataWorks产品使用合集之运维中心中的运行日志可以保留多久
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
运维 监控 数据可视化
自动化运维:使用Python脚本进行日志分析
【8月更文挑战第31天】当系统出现问题时,我们通常会查看日志寻找线索。然而,手动阅读大量日志既费时又易出错。本文将介绍如何使用Python脚本自动分析日志,快速定位问题,提高运维效率。我们将从简单的日志读取开始,逐步深入到复杂的正则表达式匹配和错误统计,最后实现一个自动化的日志监控系统。无论你是新手还是老手,这篇文章都将为你提供有价值的参考。让我们一起探索如何用代码解放双手,让运维工作变得更加轻松吧!
|
4月前
|
运维 监控 安全
在Linux中,什么是运维?什么是游戏运维?
在Linux中,什么是运维?什么是游戏运维?

相关产品

  • 日志服务