《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.1新游上线稳定性保障实践(1) https://developer.aliyun.com/article/1232031?groupCode=supportservice
3. 热迁移测试
ECS热迁移过程是将虚拟机在运行状态下从一个物理机切换到新的物理机。迁移过程主要通过内存和网络session的拷贝技术,实现迁移对用户业务无感或轻微感知。热迁移能力可以有效规避宕机风险,极大提升ECS稳定性。
热迁移成功率主要受实例规格(内存大小)、业务负载及类型(内存读写密集,网络负载高)、库存资源情况影响。对于游戏场景,经常存在计算密集或内存读写密集的业务,这会直接影响热迁移的成功率,且各类业务对于热迁移影响的敏感度也不一样。为了保障业务稳定性,在上线前都需要进行多轮热迁移测试,覆盖全部机型、有条件最好有真人玩家,或通过机器人模拟实际业务负载水位。目的是确定客户业务对有损热迁移的接受程度,以便在热迁移成功率和业务降级之间找到平衡,制定出最佳的热迁移策略。
测试主要关注点:
监控指标:主要关注迁移前后CPU、网络流量、网络连接数等是否有明显变化
。系统内时间是否存在跳变等。
•业务感知:迁移过程中真人玩家是否有卡顿、掉线等实际感知等
•热迁移指标:完成耗时、成功率。失败返回码等。
基于测试结果,给出热迁移策略。如大规格内存实例上业务对热迁移敏感,可设置后端在检测到故障隐患后不进行自动运维,先进行内部告警,然后在TAM和客户沟通确认窗口期后再实施热迁移。如客户业务对热迁移不敏感,可打开宕机率优化和低风险运维策略,进一步通过热迁移能力降低宕机风险。
内部可通过嫦娥平台查看热迁移相关信息,如耗时、错误码。目前运维策略也已支持白屏配置。
4. ECS稳定性重保策略
针对游戏场景对ECS稳定性敏感的特性,TAM通过多个项目的经验积累,沉淀
出了一套前后端配合的全方位ECS稳定性重保服务策略。可以进一步提升ECS稳定性,满足新游上线初期对稳定性的更高要求。
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.1新游上线稳定性保障实践(3) https://developer.aliyun.com/article/1232029?groupCode=supportservice