《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.1新游上线稳定性保障实践(2)

简介: 《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.1新游上线稳定性保障实践(2)

《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.1新游上线稳定性保障实践(1) https://developer.aliyun.com/article/1232031?groupCode=supportservice



3. 热迁移测试


ECS热迁移过程是将虚拟机在运行状态下从一个物理机切换到新的物理机。迁移过程主要通过内存和网络session的拷贝技术,实现迁移对用户业务无感或轻微感知。热迁移能力可以有效规避宕机风险,极大提升ECS稳定性。


热迁移成功率主要受实例规格(内存大小)、业务负载及类型(内存读写密集,网络负载高)、库存资源情况影响。对于游戏场景,经常存在计算密集或内存读写密集的业务,这会直接影响热迁移的成功率,且各类业务对于热迁移影响的敏感度也不一样。为了保障业务稳定性,在上线前都需要进行多轮热迁移测试,覆盖全部机型、有条件最好有真人玩家,或通过机器人模拟实际业务负载水位。目的是确定客户业务对有损热迁移的接受程度,以便在热迁移成功率和业务降级之间找到平衡,制定出最佳的热迁移策略。


测试主要关注点:


监控指标:主要关注迁移前后CPU、网络流量、网络连接数等是否有明显变化

。系统内时间是否存在跳变等。

•业务感知:迁移过程中真人玩家是否有卡顿、掉线等实际感知等

•热迁移指标:完成耗时、成功率。失败返回码等。


基于测试结果,给出热迁移策略。如大规格内存实例上业务对热迁移敏感,可设置后端在检测到故障隐患后不进行自动运维,先进行内部告警,然后在TAM和客户沟通确认窗口期后再实施热迁移。如客户业务对热迁移不敏感,可打开宕机率优化和低风险运维策略,进一步通过热迁移能力降低宕机风险。


内部可通过嫦娥平台查看热迁移相关信息,如耗时、错误码。目前运维策略也已支持白屏配置。


4. ECS稳定性重保策略


针对游戏场景对ECS稳定性敏感的特性,TAM通过多个项目的经验积累,沉淀

出了一套前后端配合的全方位ECS稳定性重保服务策略。可以进一步提升ECS稳定性,满足新游上线初期对稳定性的更高要求。


image.png

image.png




《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.1新游上线稳定性保障实践(3) https://developer.aliyun.com/article/1232029?groupCode=supportservice

相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
存储 运维 Prometheus
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.1监控预警体系建设
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.1监控预警体系建设
297 0
|
运维 监控 测试技术
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.1新游上线稳定性保障实践(4)
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.1新游上线稳定性保障实践(4)
161 0
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.1新游上线稳定性保障实践(4)
|
弹性计算 监控 负载均衡
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.1新游上线稳定性保障实践(3)
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.1新游上线稳定性保障实践(3)
169 0
|
弹性计算 运维 安全
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.1新游上线稳定性保障实践(1)
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.1新游上线稳定性保障实践(1)
243 0
|
弹性计算 数据安全/隐私保护
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1游戏业务稳定性保障
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1游戏业务稳定性保障
150 0
|
编解码 监控 供应链
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.2 直播业务稳定性保障
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.2 直播业务稳定性保障
224 0
|
存储 弹性计算 Cloud Native
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.2 游戏容器化部署最佳实践(2)
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.2 游戏容器化部署最佳实践(2)
262 0
|
弹性计算 运维 Kubernetes
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.2 游戏容器化部署最佳实践(1)
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.2 游戏容器化部署最佳实践(1)
193 0
|
弹性计算 运维 Kubernetes
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.2 游戏容器化部署最佳实践(3)
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.2 游戏容器化部署最佳实践(3)
236 0
|
监控 Kubernetes 负载均衡
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.2 游戏容器化部署最佳实践(5)
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.2 游戏容器化部署最佳实践(5)
146 0