《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.1新游上线稳定性保障实践(2)

简介: 《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.1新游上线稳定性保障实践(2)

《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.1新游上线稳定性保障实践(1) https://developer.aliyun.com/article/1232031?groupCode=supportservice



3. 热迁移测试


ECS热迁移过程是将虚拟机在运行状态下从一个物理机切换到新的物理机。迁移过程主要通过内存和网络session的拷贝技术,实现迁移对用户业务无感或轻微感知。热迁移能力可以有效规避宕机风险,极大提升ECS稳定性。


热迁移成功率主要受实例规格(内存大小)、业务负载及类型(内存读写密集,网络负载高)、库存资源情况影响。对于游戏场景,经常存在计算密集或内存读写密集的业务,这会直接影响热迁移的成功率,且各类业务对于热迁移影响的敏感度也不一样。为了保障业务稳定性,在上线前都需要进行多轮热迁移测试,覆盖全部机型、有条件最好有真人玩家,或通过机器人模拟实际业务负载水位。目的是确定客户业务对有损热迁移的接受程度,以便在热迁移成功率和业务降级之间找到平衡,制定出最佳的热迁移策略。


测试主要关注点:


监控指标:主要关注迁移前后CPU、网络流量、网络连接数等是否有明显变化

。系统内时间是否存在跳变等。

•业务感知:迁移过程中真人玩家是否有卡顿、掉线等实际感知等

•热迁移指标:完成耗时、成功率。失败返回码等。


基于测试结果,给出热迁移策略。如大规格内存实例上业务对热迁移敏感,可设置后端在检测到故障隐患后不进行自动运维,先进行内部告警,然后在TAM和客户沟通确认窗口期后再实施热迁移。如客户业务对热迁移不敏感,可打开宕机率优化和低风险运维策略,进一步通过热迁移能力降低宕机风险。


内部可通过嫦娥平台查看热迁移相关信息,如耗时、错误码。目前运维策略也已支持白屏配置。


4. ECS稳定性重保策略


针对游戏场景对ECS稳定性敏感的特性,TAM通过多个项目的经验积累,沉淀

出了一套前后端配合的全方位ECS稳定性重保服务策略。可以进一步提升ECS稳定性,满足新游上线初期对稳定性的更高要求。


image.png

image.png




《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.1新游上线稳定性保障实践(3) https://developer.aliyun.com/article/1232029?groupCode=supportservice

相关实践学习
通义万相文本绘图与人像美化
本解决方案展示了如何利用自研的通义万相AIGC技术在Web服务中实现先进的图像生成。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
移动开发 小程序
IRS应用发布系统基本概念
服务侧负责将应用发布至浙里办APP和政务服务网,应用发布类型不同,应用发布流程也不同:
|
容灾 网络协议 数据库
云卓越架构:云上网络稳定性建设和应用稳定性治理最佳实践
本文介绍了云上网络稳定性体系建设的关键内容,包括面向失败的架构设计、可观测性与应急恢复、客户案例及阿里巴巴的核心电商架构演进。首先强调了网络稳定性的挑战及其应对策略,如责任共担模型和冗余设计。接着详细探讨了多可用区部署、弹性架构规划及跨地域容灾设计的最佳实践,特别是阿里云的产品和技术如何助力实现高可用性和快速故障恢复。最后通过具体案例展示了秒级故障转移的效果,以及同城多活架构下的实际应用。这些措施共同确保了业务在面对网络故障时的持续稳定运行。
|
数据采集 运维 监控
如何保障业务稳定性?一文详解蚂蚁业务智能可观测平台BOS
本文将从可观测性视角出发,分析云上云下业务稳定性的难点,介绍蚂蚁集团的BOS平台是如何建设完善的解决方案来解决这些实际的痛点难点,并通过多个实践案例分享企业与机构如何利用BOS平台来实现云上云下全链路可观测性的需求。
744 0
如何保障业务稳定性?一文详解蚂蚁业务智能可观测平台BOS
|
机器学习/深度学习 算法 Python
OpenAI Gym 中级教程----深入解析 Gym 代码和结构
OpenAI Gym 中级教程----深入解析 Gym 代码和结构
1377 1
|
消息中间件 缓存 监控
四个步骤,教你落地稳定性保障工作
本文将稳定性保障工作归纳为 梳理异常情况->配置监控告警->评估影响面->预定解决方案 四个步骤。从四个步骤详细介绍稳定性保障工作的落地方法。
50386 1
四个步骤,教你落地稳定性保障工作
|
Kubernetes Linux Docker
kubeadm安装Kubernetes
kubeadm安装Kubernetes
277 0
|
运维 监控 容灾
安全生产-系统稳定性建设
安全是产品的底座,是体验的基础,也是企业的一项核心竞争力。安全生产是一项系统性的工作,同时也是一件比较琐碎的事,需要做方方面面的考虑尽一切可能保障系统安全稳定运行。
安全生产-系统稳定性建设
|
弹性计算 运维 安全
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.1新游上线稳定性保障实践(1)
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.1新游上线稳定性保障实践(1)
462 0
|
容器 Cloud Native Perl
面向云原生的混沌工程工具-ChaosBlade
作者 | 肖长军(穹谷)阿里云智能事业群技术专家   导读:随着云原生系统的演进,如何保障系统的稳定性受到很大的挑战,混沌工程通过反脆弱思想,对系统注入故障,提前发现系统问题,提升系统的容错能力。ChaosBlade 工具可以通过声明式配置执行混沌实验,简单高效。
|
域名解析 Linux 视频直播
优秀开发者之美女站长的推广之路
一位80后美女宝妈的推广分享
10661 105

热门文章

最新文章