《泛娱乐行业技术服务白皮书》——三、泛娱乐典型业务架构与场景——3.2 游戏类泛娱乐——3.2.2 游戏泛娱乐技术服务(4) https://developer.aliyun.com/article/1230991?groupCode=supportservice
•容灾限流方案和演练
游戏业务虽然为在线业务,但出于对游戏生命周期、架构复杂度、成本等因素考 虑,一般从架构上没有高可用的容灾设计,主要依赖云产品稳定性和热迁移能力。因 此容灾演练需重点关注高压力下游戏服热迁移的性能和影响情况,业务服务模块间的
隔离性和健壮性、单点故障后的恢复速度等。尤其在使用大规格ECS实例的分服场景 下,需要确定热迁移时TCP连接保活、时钟跳变可在预计时间内完成补偿、机器人无 掉线、真人无感知。
检查项 |
用例 |
操作步骤 |
单个后台服务异常不能导致客户 端不相关逻辑不可用 |
逻辑服异常 |
1、登录并进行游戏 2、杀死所在的逻辑服务进程 |
|
战斗服异常 |
1、登录并进行游戏 2、杀死所在的战斗服进程 |
|
认证服异常 |
1、登录并进行游戏 2、杀死所在的认证服进程 |
|
网关服异常 |
1、登录并进行游戏 2、杀死所在的认证服进程 |
|
其他服务同理 |
其他服务同理 |
可靠的停服公告机制 |
服务可向玩家发送停 服公告 |
1、停服 2、发布停服公告 3、启动客户端 |
不能有单点故障或单点故障 时间少于xx分钟影响小于x%的用户 |
逻辑服异常 |
杀死单个小区的逻辑服务 |
其他服务同理 |
其他服务同理 |
|
单个服务进程异常结束不能导致 玩家关键数据丢失 |
逻辑服异常 |
1、客户端登录进游戏 2、客户端使用添加货币、 一级物品、二级物品 3、重启单个小区的战斗服 |
Dbgate 异常和对应的Redis, PolarDB异常与重启 |
1、客户端登录进游戏 2、客户端使用添加货币、 一级物品、二级物品 3、重启单个小区的DBGate和对应的Redis\PolarDB |
|
其他服务同理 |
其他服务同理 |
|
服务器模块隔离:单个服务支持独立 重启、单个服务进程异常结束不能引发 其他服务进程异常 |
服务进程异常、db进程异常 |
1、随机选择某些小区 2、按随机顺序重启小区的单个服务进程、redis、mysqi进程 |
sdk平台服务异常 |
1、关闭所有sdk平台非登录、支付服务模块 (防沉迷、敏感词等模块) |
|
服务器过载保护:接入层需要有 阀值控制 |
最大在线玩家数阀值控制 |
超过当前服务支持最大支持在线玩家数 |
服务器过载保护:服务器对一段 时间内不活跃连接要强制断开 |
登录一个玩家后断网 |
1、手机客户端进游戏 2、手机断开网络 |
服务器负载均衡:同等服务和 |
服务器负载均衡 |
1、启动压测机器人 |
数据是动态负载均衡的 |
sdk平台负载均衡 |
1、启动压测机器人 |
期待结果 |
1、其他逻辑服上的玩家不受影响 2、异常杀死的逻辑服进程可被自动拉起,或者新的玩家请求能被转发到其他正常的逻辑服节点 3、影响时间小于xx分钟,影响的玩家数量小于x% |
1、其他逻辑服上的玩家不受影响 2、异常杀死的战斗进程可被自动拉起,或者新的玩家请求能被转发到其他正常的战斗服节点 3、影响时间小于xx分钟,影响的玩家数量小于x% |
1、其他认证服上的的玩家不受影响 2、异常杀死的认证进程可被自动拉起,或者新的玩家请求能被转发到其他正常的认证服节点 3、影响时间小于xx分钟,影响的玩家数量小于x% |
1、其他网关服上的的玩家不受影响 2、异常杀死的网关服进程可被自动拉起,或者新的玩家请求能被转发到其他正常的网关服节点 3、影响时间小于xx分钟,影响的玩家数量小于x% |
其他服务同理 |
1、客户端不能尝试登录 2、停服会自动把在线玩家踢下线 |
1、等待逻辑服自动拉起 2、启动压测机器人 3、压测数据成功率大于xx%,xx%请求响应时间小于xx%秒 |
其他服务同理 |
1、客户端重新登录 2、查看货币,一级物品,二级物品是否正常 |
1、客户端重新登录 2、查看货币,一级物品,二级物品是否正常 |
其他服务同理 |
1、等待重启完成 2、启动压测机器人 3、压测数据正常 |
1、手机客户端登录,并能进行所有玩法操作 2、启动压测机器人 3、压测数据正常 4、敏感词、防沉迷糊模块全部异常,游戏服务器能否让玩家正常登录、创建角色 |
1、等待修改生效 2、启动压测机器人 3、观察在线人数是否正确 |
1、客户端会被动下线 |
1、各个服务的进程负载情况应该接近 |
1、登录、支付等各个服务的进程负载情况应该接近 |
《泛娱乐行业技术服务白皮书》——三、泛娱乐典型业务架构与场景——3.2 游戏类泛娱乐——3.2.2 游戏泛娱乐技术服务(6) https://developer.aliyun.com/article/1230988?groupCode=supportservice