互娱NoSQL架构优化 —— 暨MongoDB“在线换引擎”技术服务指南”

本文涉及的产品
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
云数据库 Tair(兼容Redis),内存型 2GB
云数据库 MongoDB,独享型 2核8GB
推荐场景:
构建全方位客户视图
简介: XX工作室是某大客户核心游戏工作室,其核心业务是国内二次元RPG手游,采用实时开放世界对战模式,整体采用阿里云方案,本次专项攻坚主要对于玩家在游戏期间各类游戏属性交互(包含过图、物品、面板、剧情等)的核心业务模块进行优化,其中涉及NoSQL部分由于在专项优化期间存在诸多细节,特此提炼出来给各位有类似互娱业务场景进行参考。

一、优化目标&架构

   如背景所述,并与客户技术交流沟通后确认从架构层面进行优化,确认采用MongoDB分片集群来代替原有MongoDB副本集架构实现相关优化特性,简化如图:

image.png

简单来说:

兜底:由于MonogoDB分片集采用On ECS架构,同时具备ESSD云盘能力,所以在客户的游戏业余场景上,可以实现更高频的备份(小时级,目前需要手动定时点击,预计7月份上线功能,具体见后面的一些案例解释)以及基于云盘的快照特性可以实现备份快速回滚,也就对应着游戏业务的秒级回档(在特定故障停服场景有重大功效)。

高可用:MongoDB分片在游戏场景上相比副本集的架构“横截面”更宽,使得故障几率进一步被打散,一分片三副本多分片即实现N * 三副本的功效,在抵御AZ级的极端故障场景相比副本集更具优势,使得客户游戏业务的可用性更高。

扩展性:经过NoSQL优化专项转化成分片集架构后,其多分片的架构以及协助客户一起做的压测场景,能够测算出QPS/每分片 的数据,这样子使得游戏业务在进行运营扩展时DAU上涨带来的稳定性风险得以解除,同时对于每分片所能承载的QPS,特别是有了更清晰的性能SLA数据,分片的动态增删使得客户可以横向扩展,不再需要靠堆叠实例级别来增加扩展性,侧面减少成本,也给客户提供更多的爆款可能。


二、阶段概述

从人员配置上,技术服务侧需要参考是否有现成的技术服务方案,如果没有则需要快速WBS确认核心阶段,在本次专项中拆分阶段后为:

image.png

2.1、阶段介绍

选型阶段:针对客户业务逻辑进行拆分,这里客户是游戏业务,更多是利用NoSQL的特性提升在线游戏的读取效率,所以选型建议原产品形态进行优化,MongoDB是符合这个业务特性的产品,其次针对客户现有的产品架构进行分析,如背景所属最终从副本集切换为分片集更合适,更细化的在技术服务NoSQL优化机制中体现。

压测阶段:在这个阶段,本次专项中客户采用自研的压测模型与工具进行,压测阶段与选型阶段定义的相关QPS强耦合,压测过程主要是为了暴露未知的问题以及综合业务场景下真实的QPS压力,在本次专项中压测阶段的输出提到了关键作用。

迁移阶段:压测阶段后收集相关压测数据集中解决,按预期会进入迁移阶段,该阶段主要利用DTS产品对现有的数据库数据进行预创建任务并执行数据迁移(此过程为同步/复制),并保持增量同步,确保最终切换阶段可以在预期时长里完成切换,该阶段越早进行暴露出迁移问题的几率越高,切换阶段的风险就越低。

切换阶段:迁移阶段的相关卡点解决后(具体在后续的典型问题来讲述)切换就显得相当轻松,不过依旧需要基于项目维度设计相关的切换时间点,好在前面三个阶段准备够充分,切换基本比较顺利。


2.2、阶段里程碑

为方便读者理解,这里通过一张图来展示,具体细节将在“专项“坑”点“一章中来阐述:

image.png

三、专项“坑”点

为方便读者理解,这里结合专项阶段情况针对此次专项中遇到的一些重点(特别是卡住项目进度的问题)问题进行逐一分解与解法建议:

 

3.1、选型阶段“坑”点

在讲坑点之前,我们所设想的是“先选架构—— 再选规格 —— 客户确认 —— 开始迁移”,而实际上,我们所经历的是“先选架构”这个阶段很顺利,因为要满足客户的需求如背景所属,必然是副本集往分片集进行切换,但是到了具体的“再选规格”阶段就开始出现一些点:


3.1.1、“真假QPS

这个坑点特别“隐蔽”也是在我们做完整个专项后复盘才发现,我们(特指技术服务TAM+架构师SA)视角与客户视角一开始其实并未对齐,直到提供了选型书后在压测阶段才出现了非预期情况,在游戏场景下,客户反馈的QPS诉求是单次业务交互的,比如:

  • 玩家做一次背包展开
  • 玩家增加技能属性点
  • 玩家进出副本场景
  • ……

所以在选型阶段,客户提供了国服“3000QPS”,海外服“1200QPS”(区服概念主要就是涉及到国内还是海外的资源部署,另外一个“坑”点),指的是一次玩家交互下的QPS,但是实际上这个“QPS”带来的MongoDB(或叫NoSQL QPS)其实不一定是一个QPS,从这次专项的情况看,一次业务 QPS有可能是来自于Update+Del+Command等(这里的概念参考NoSQL相关的概念)组合QPS,要解决这个问题,核心是找到 业务QPS:技术QPS 的比例,在本次专项经过压测阶段(这也是为什么压测阶段需要review选型并重新定型的原因)数据约300+次业务交互分析(从MongoDB云监控或高级监测可以获取)看出来比例为1:3(其中读占2/3、写1/3),所以在识别“真假QPS”上肯定选型,特别是阿里云MongoDB的选型需要依照技术QPS来进行选型,评估公式如下:

 

技术 QPS = ( 业务QPS * Avg(读比例) + 业务QPS * Avg(写比例) ) * Buff

 

所以最终这次专项的技术QPS总体其实是6000QPS(比原来翻了倍),很多在压测期间出现的问题也就符合预期了(比如频繁HA、客户认为QPS异常等)。

 

3.1.2、“真假规格”

很庆幸这个“坑”更多是来自于我们提前发现了,同时也引发了客户对于我们产品本身的挑战。

在选型阶段,确认了相关QPS再去换算需要的节点数量,MongoDB的组成核心需要关注的是Monogd节点、Shard节点、CS节点,其中在本专项中因为频繁交互以及游戏场景下,首先需要确认的重点是Shard节点,这也是每个节点性能上限的支撑角色,讲到这里还没聊到“真假规格”到底是什么意思,要了解这个背景其实要先知道MongoDB分片集群的架构:

image.png

看到这里或许体感还不明显,那么看下面这个图:

image.png


从这里就能看出来,其实MongoDb分片集用的是On ECS架构,底层是ECS(复用ECS架构) + MongoDB集群架构(这一点也在后期与产研团队讨论时出现了争议,后续总结说),所以基本Shard节点的规格基本等同于 ECS规格+Sharing消耗 ,这里的规格选择第一版公式为:

 

Shard节点规格 = (计算资源(CPU/RAM+ 存储资源(云盘))* Buff

 

然而,在MongoDB领域还需要考虑上存储资源与ECS本身的BPS限制,所以请参考以下公式进行评估: 

Shard节点规格 =(计算资源(CPU/RAM/BPS[需匹配云盘BPS]+ 存储资源(云盘))* Buff


3.2、压测阶段“坑”点

终于熬过选型阶段,如3.1所述,其实压测阶段与选型阶段是相得益彰的,在压测的前期其实会反复横跳与两个阶段之间,而在后半段则横跳在压测与迁移两个阶段之间,客户在游戏领域的专业程度也使得他们愿意付出这个成本来进行压测,没错,每一个MongoDB,或者说NoSQL得切换都最好有压测的阶段,因为无论是白皮书也好,还是经验丰富的架构师,始终会有一些评估死角,而压测就是暴露这些死角的最佳阶段,客户压测的场景采用的是游戏业务场景,转化成MonogDB技术场景就是基于“表数据量”、“平均文档大小”、“读QPS”、“写QPS”来进行。


 3.2.1、“Oplog调优”  

进入压测阶段,由于客户压测场景是模拟客户业务高并发的场景,换句话说就是oplog会有频繁的读写日志,导致Oplog的增量速率大于Oplog本身的容量时会触发节点状态异常进而使得节点HA等异常,关于Oplog在压测阶段有哪些需要考虑的点呢?

速率:速率的估算可以根据当下Oplog的容量设置得到的容量实际使用情况,以及其保留的时间进行粗估算,公式为:Oplog生产速率 = OplogSizeMb / 保留时间,这一点速率的获取的目标其实就是为了合理的设置OplogSizeMb与保留时间,而这两个数值最好就是根据压测期间的真实业务场景动态调整。

容量与保留时间:需要注意的是在分片式集群控制台设置的OplogSizeMB是单个分片的值,如果说设置的是50G,则一个集群实例下每个分片的Oplog大小都是50G了,在分片集群的oplogsize值计算和建议是oplogsize值配置为磁盘容量的50%oplog保存窗口时间在1h以上(但由于客户MongoDB版本为4.2,该参数得4.4及以上版本才支持),对dts的同步、dbs的增量备份、以及节点的主从同步都更为友好。 后续可根据压测时和业务的实际oplog保存窗口和大小进行调整,另外oplog保留时长参数是MongoDB 4.4版本才支持修改的,4.2不支持此参数调整(需要产研后端配置),同时暂时Oplog容量暂时是不支持按分片百分比来调整的,也就说这个容量的绝对值要估算得相对准确,所以,压测阶段的必要性就再次显性了。

容量与保留时间的评估公式为:

Oplog初始值 = ((磁盘容量 * 50%+ Buff< 磁盘容量– Buff

Oplog生产值 = (X̄[((磁盘容量 * 50%+ Buff] ) <磁盘容量 – Buff

 

这两个核心因素是在切换分片式集群时的关键指标。


 3.2.2、“Oplog放大”

Oplog放大问题是我们在专项前期遭遇到一个特别头疼的问题,核心原因是4.2内核情况下MongoDb hidden节点在压测场景(频繁读写Oplog)下会有Oplog放大问题,采用了引导客户4.4内核进行压测的方式即可。


3.3、迁移阶段“坑”点

3.3.1、迁移选型

根据互联网技术服务团队方案库中对于MonogDB迁移方案的一些经验,这次我们迁移上还是建议客户采用了DTS(本来是考虑到客户业务复杂度以及相关库表结构兼容问题不建议用DTS的),不过在DTS选型上还是吃了亏,主要原因还是在于仅评估了方案选型,却忽略了规格选型,分开来讲,方案选型是指要满足客户边做同步边做灾备的需求,所以最终设计的迁移方案架构如下:

image.png

在讨论架构选型上,我们也与客户讨论到了灾备的场景,对于灾备,切换成新分片集群后,从副本集单集群的可用性其实已经提升到了多分片集群的模式,加上原本就有的多可用区部署,也就是说可用性已经提升了两个档位,经过成本与方案的评估,对于跨Region的灾备在DB层面上的投入会过大,所以最终确认,保持可用区级别的容灾比较符合该客户现有的可用性要求,待业务整体的MAU达到客户超过预期的程度时再部署跨Region灾备(由于切换了集群架构,使得这里的灾备方案也更容易落地)。

在规格选型上,也是本次专项迁移出现评估失误的地方,对于RPS(就是迁移数据行数)评估存在问题,核心原因就是RPS 不等于 QPS,按3000QPS(也因3.1.1的误解)客户直接选择了medium规格DTS进行迁移,最终造成DTS迁移任务直接失败,所以这里有了3.1.1“坑”点打底,我们发现,实际上按Oplog速率、QPS情况看,需要讨论另外一个核心解决方案是:

  • 建立DTS监控(主要监控延迟、数据不一致)
  • 与客户一同盯盘检查是否延迟超过
  • DTS监控阈值公式 = (DTS Dealy >= 3600s) >= DTS Time(3600s)
  • (即一个小时内延迟超过了一个小时即报警,同时沉默周期为 3小时为佳 )
  • 发现告警联动产研进行调整配置并收集现场数据(Oplog、内存、QPS等)
  • 直到告警收敛完成并DTS Dealy < 10s
  • 记录完成的数据以便其他区服迁移参考


这么一套下来基本能解决到初始选型错误造成的性能问题,也避免了因为规格导致的性能问题并进而导致数据不一致(这一点会导致切换失败,可以在3.3.2详细了解),当然缺点就是会比较依赖于产研的效率(这一点可以在重点里程碑通过一些报备机制进行规避,后面单独一章报备机制会讲到),所以笔者希望在这个场景下能够产品化,减少客户使用产品的非战时成本。


3.3.2、数据纠正

   在本次专项的迁移阶段遭遇最多的除了性能不足导致各种DTS任务失败(包含超大字节异常、OOM、中断等),其次就是数据不一致问题了。

由于MongoDB是快速且活跃的NoSQL结构,QPS数极高加上超额的DTS规格时,在没有3.3.1中“动态调整规格”的机制情况下,出现数据不一致(无论是全量还是增量)几乎是必然的,只是如果不及时调整性能以及定制不一致数据,那么最终数据不一致的数量会随着DTS任务的运行越积累越多,所以DTS在这类场景下是一款高度需要盯盘、性能评估、源目数据结构需要高度一致的产品。

所以数据不一致如何解决呢?常规的做法是DTS任务全量迁移跑完后先对全量数据进行校验,请注意这里的性能是分两部分(也会影响数据纠正的效率):

image.png

在本项目中,A阶段的校验出现不一致以及B阶段的增量阶段的校验不一致前半段是需要通过实时的数据不一致监控来确保得到及时的校验任务性能调整与数据修正(这里的监控机制来自于DTS本身的数据校验监控,阈值为>10即告警),监控需要尽可能保持高敏,避免切换阶段出现异常。说回数据纠正,由于专项本身客户有严格的项目化管理,所以对于工期是非常严格的,在约定工期之前若等跑完全量、增量校验再进行数据订正很可能时间上来不及做应急预案,所以在本专项里有两个点可供参考:

  • 在进行校验任务时出现的数据不一致一旦超过阈值可以进行数据订正
  • 迁移/同步任务尽可能提前做

 

3.4、切换阶段无坑点

雨过则天晴,前面三个阶段都是不同的“坑”的情况下,到了切换阶段,就到了技术服务的主场了,在重保阶段,特别是DTS方面(因为涉及到最后一刻的点位)需要保证一定的保障阵营,现场技术服务团队则盯盘、播报持续,确保最终切换顺利与观察业务开服后的情况:

image.png


3.5、机制建设与同步

在本次专项中其实建立了N多机制,笔者挑了其中5个关键的机制给于读者在相同场景时可以参考:

 

机制名

描述

动作

压测应急机制

提升压测时效性,将非预期情况转化为预期内预案进行处理

建立Q-List,压测阶段非预期问题较多,通过技术服务问题收集统一收口,对于需要常期落地的问题记录临时规避方案并确保实时监控&修复

NoSQL预检查机制

基于实例维度的Checklist,在交付前进行二次检查,确保上线稳定

1Checklist

  • oplogsize200G
  • oplogMinRetentionHours1.25h
  • sh.enableSharding("XX_game_db")
  • sh.shardCollection("XX_game_db.player_data",{_id:"hashed"},false,{ numInitialChunks: 8192*n})


  •  db.settings.updateOne({ _id: "balancer" }, { $set: { activeWindow : { start : "02:00", stop : "06:00" } } },{ upsert: true })
  • 分片的配置要参考真实QPS要求来进行调整(二次确认分片配置

运维共建机制

基于MonogoDB优化专项,共建监控运维的机制可有效规避人工监控不及时与实时观察现网业务指标进行引导调整等动作

完成对重要实例/资源组的自动监控预警,同时运行1v1反馈机制,具体建立的监控策略见附录。(需要针对核心业务进行监控,对于非核心业务进行排除,同时确保一周更新一次实时性,最大程度减少监控噪音)

迁移应急机制

DTS包括迁移和数据同步任务,建立保障机制来确保迁移阶段顺利

核心是观察每次压测、模拟迁移的数据不一致进行设计阈值监控,对于超过阈值的部分进行告警(通过DTS任务本身的告警订阅相关短信、电话通知)

 

四、总结

我们在整个专项遭遇到的问题一共100+个,还有很多细枝末节的问题,因为篇幅有限,这里就在每个阶段中都精选了几个比较重点的因素进行展开阐述,力求诸位读者在遇到类似NoSQL优化专项时能够有所参考并提前躲过一些已知的“坑”点,为方便读者对此类项目有更立体的工期判断依据,以下为本次项目真实的时间轴情况:

image.png


完成后为客户带来的收益情况:

image.png

以上的技术细节、里程碑情况仅限特定场景下交流使用。


注:本文未经许可禁止转载或摘要


相关实践学习
MongoDB数据库入门
MongoDB数据库入门实验。
快速掌握 MongoDB 数据库
本课程主要讲解MongoDB数据库的基本知识,包括MongoDB数据库的安装、配置、服务的启动、数据的CRUD操作函数使用、MongoDB索引的使用(唯一索引、地理索引、过期索引、全文索引等)、MapReduce操作实现、用户管理、Java对MongoDB的操作支持(基于2.x驱动与3.x驱动的完全讲解)。 通过学习此课程,读者将具备MongoDB数据库的开发能力,并且能够使用MongoDB进行项目开发。 &nbsp; 相关的阿里云产品:云数据库 MongoDB版 云数据库MongoDB版支持ReplicaSet和Sharding两种部署架构,具备安全审计,时间点备份等多项企业能力。在互联网、物联网、游戏、金融等领域被广泛采用。 云数据库MongoDB版(ApsaraDB for MongoDB)完全兼容MongoDB协议,基于飞天分布式系统和高可靠存储引擎,提供多节点高可用架构、弹性扩容、容灾、备份回滚、性能优化等解决方案。 产品详情: https://www.aliyun.com/product/mongodb
相关文章
|
1月前
|
Kubernetes Cloud Native 微服务
探索云原生技术:容器化与微服务架构的融合之旅
本文将带领读者深入了解云原生技术的核心概念,特别是容器化和微服务架构如何相辅相成,共同构建现代软件系统。我们将通过实际代码示例,探讨如何在云平台上部署和管理微服务,以及如何使用容器编排工具来自动化这一过程。文章旨在为开发者和技术决策者提供实用的指导,帮助他们在云原生时代中更好地设计、部署和维护应用。
|
1月前
|
监控 安全 API
使用PaliGemma2构建多模态目标检测系统:从架构设计到性能优化的技术实践指南
本文详细介绍了PaliGemma2模型的微调流程及其在目标检测任务中的应用。PaliGemma2通过整合SigLIP-So400m视觉编码器与Gemma 2系列语言模型,实现了多模态数据的高效处理。文章涵盖了开发环境构建、数据集预处理、模型初始化与配置、数据加载系统实现、模型微调、推理与评估系统以及性能分析与优化策略等内容。特别强调了计算资源优化、训练过程监控和自动化优化流程的重要性,为机器学习工程师和研究人员提供了系统化的技术方案。
173 77
使用PaliGemma2构建多模态目标检测系统:从架构设计到性能优化的技术实践指南
|
1月前
|
弹性计算 运维 监控
阿里云云服务诊断工具:合作伙伴架构师的深度洞察与优化建议
作为阿里云的合作伙伴架构师,我深入体验了其云服务诊断工具,该工具通过实时监控与历史趋势分析,自动化检查并提供详细的诊断报告,极大提升了运维效率和系统稳定性,特别在处理ECS实例资源不可用等问题时表现突出。此外,它支持预防性维护,帮助识别潜在问题,减少业务中断。尽管如此,仍建议增强诊断效能、扩大云产品覆盖范围、提供自定义诊断选项、加强教育与培训资源、集成第三方工具,以进一步提升用户体验。
704 243
|
17天前
|
监控 JavaScript 数据可视化
建筑施工一体化信息管理平台源码,支持微服务架构,采用Java、Spring Cloud、Vue等技术开发。
智慧工地云平台是专为建筑施工领域打造的一体化信息管理平台,利用大数据、云计算、物联网等技术,实现施工区域各系统数据汇总与可视化管理。平台涵盖人员、设备、物料、环境等关键因素的实时监控与数据分析,提供远程指挥、决策支持等功能,提升工作效率,促进产业信息化发展。系统由PC端、APP移动端及项目、监管、数据屏三大平台组成,支持微服务架构,采用Java、Spring Cloud、Vue等技术开发。
|
1月前
|
机器学习/深度学习 算法 数据可视化
基于深度混合架构的智能量化交易系统研究: 融合SSDA与LSTM自编码器的特征提取与决策优化方法
本文探讨了在量化交易中结合时序特征和静态特征的混合建模方法。通过整合堆叠稀疏降噪自编码器(SSDA)和基于LSTM的自编码器(LSTM-AE),构建了一个能够全面捕捉市场动态特性的交易系统。SSDA通过降噪技术提取股票数据的鲁棒表示,LSTM-AE则专注于捕捉市场的时序依赖关系。系统采用A2C算法进行强化学习,通过多维度的奖励计算机制,实现了在可接受的风险水平下最大化收益的目标。实验结果显示,该系统在不同波动特征的股票上表现出差异化的适应能力,特别是在存在明确市场趋势的情况下,决策准确性较高。
74 5
基于深度混合架构的智能量化交易系统研究: 融合SSDA与LSTM自编码器的特征提取与决策优化方法
|
16天前
|
消息中间件 监控 小程序
电竞陪玩系统架构优化设计,陪玩app如何提升系统稳定性,陪玩小程序平台的测试与监控
电竞陪玩系统架构涵盖前端(React/Vue)、后端(Spring Boot/php)、数据库(MySQL/MongoDB)、实时通信(WebSocket)及其他组件(Redis、RabbitMQ、Nginx)。通过模块化设计、微服务架构和云计算技术优化,提升系统性能与可靠性。同时,加强全面测试、实时监控及故障管理,确保系统稳定运行。
|
22天前
|
存储 弹性计算 架构师
老板点赞!技术人如何用架构优化打赢降本增效战?
大家好,我是小米,一个喜欢分享技术的小架构师。通过亲身经历,我将介绍如何通过架构优化帮助公司降本增效。两年前,我加入一家初创公司,面对成本高企的问题,通过弹性伸缩、微服务化和数据治理等手段,成功降低了40%的技术成本,提升了60%的系统响应速度。希望我的经验能给你启发!关注我的微信公众号“软件求生”,获取更多技术干货。
37 5
|
1月前
|
存储 机器学习/深度学习 人工智能
【AI系统】计算图优化架构
本文介绍了推理引擎转换中的图优化模块,涵盖算子融合、布局转换、算子替换及内存优化等技术,旨在提升模型推理效率。计算图优化技术通过减少计算冗余、提高计算效率和减少内存占用,显著改善模型在资源受限设备上的运行表现。文中详细探讨了离线优化模块面临的挑战及解决方案,包括结构冗余、精度冗余、算法冗余和读写冗余的处理方法。此外,文章还介绍了ONNX Runtime的图优化机制及其在实际应用中的实现,展示了如何通过图优化提高模型推理性能的具体示例。
64 4
【AI系统】计算图优化架构
|
1月前
|
存储 SQL 分布式计算
大数据时代的引擎:大数据架构随记
大数据架构通常分为四层:数据采集层、数据存储层、数据计算层和数据应用层。数据采集层负责从各种源采集、清洗和转换数据,常用技术包括Flume、Sqoop和Logstash+Filebeat。数据存储层管理数据的持久性和组织,常用技术有Hadoop HDFS、HBase和Elasticsearch。数据计算层处理大规模数据集,支持离线和在线计算,如Spark SQL、Flink等。数据应用层将结果可视化或提供给第三方应用,常用工具为Tableau、Zeppelin和Superset。
455 8
|
1月前
|
机器学习/深度学习 前端开发 算法
婚恋交友系统平台 相亲交友平台系统 婚恋交友系统APP 婚恋系统源码 婚恋交友平台开发流程 婚恋交友系统架构设计 婚恋交友系统前端/后端开发 婚恋交友系统匹配推荐算法优化
婚恋交友系统平台通过线上互动帮助单身男女找到合适伴侣,提供用户注册、个人资料填写、匹配推荐、实时聊天、社区互动等功能。开发流程包括需求分析、技术选型、系统架构设计、功能实现、测试优化和上线运维。匹配推荐算法优化是核心,通过用户行为数据分析和机器学习提高匹配准确性。
113 3

相关产品

  • 云数据库 MongoDB 版