《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.2 北京冬奥稳定性治理实践——6.2.6 冬奥重保—变更管控

简介: 《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.2 北京冬奥稳定性治理实践——6.2.6 冬奥重保—变更管控

6.2.6 冬奥重保—变更管控


变更管控工作贯穿在网平基础架构环境各种设备架构的整个生命周期,是ITIL管理中非常重要的一个流程环节,和其他流程关系非常紧密,稍有不慎就容易导致故障。

在最古老的变更管控理论中Lewin提到过变更管理的三个基本逻辑, 基本定义了变更所需要做的准备,实施变更以及变更达到的效果三个大阶段。

Stage 1 entails persuading a group that change is necessary. Once they are amenable to the idea of change.

Stage 2 executes that change.

Finally, when the change is broadly complete, Stage 3 institutionalizes the new patterns of behavior and thought.

保证云资源稳定性的最有效方式是封网,这也是历次重大活动保障前的标准操作。但是封网过多则会影响阿里云正常的产品发布和迭代,尤其在冬奥重保周期跨度长达x天的情况下。因此,保障团队在系统和产品能力支持的情况下,尽量把封网精细化到资源颗粒度层面,减少封网对其他用户的影响。

image.png

图:封网公告


由于云的多租户环境特性,在长达x天的封网中,还是存在着多种变更需求。平衡变更对奥运业务的影响以及对其他客户的影响程度成为一件重要的事情。

在变更需求的评审中,我们引入了不同维度的评审机制,从变更地域、变更时间、变更产品、潜在影响、回滚方案成熟度等多个维度进行评审,并且和各产品稳定性负责人一起严格把关,最终实现变更期间奥运业务0中断。

image.png

图:北京冬奥变更管理


相关文章
|
7月前
|
人工智能 安全 架构师
不只是聊天:从提示词工程看AI助手的优化策略
不只是聊天:从提示词工程看AI助手的优化策略
465 119
|
8月前
|
机器学习/深度学习 人工智能 运维
运维不只是“修电脑”:聊聊运维如何助力 AI 优化服务质量
运维不只是“修电脑”:聊聊运维如何助力 AI 优化服务质量
526 9
|
测试技术 API 开发工具
在Python中实现安卓手机自动化
在Python中实现安卓手机自动化
2225 0
|
7月前
|
机器学习/深度学习 人工智能 缓存
AI运维不再是玄学:教你用AI提前预测系统故障,少熬几次夜!
AI运维不再是玄学:教你用AI提前预测系统故障,少熬几次夜!
762 13
|
10月前
|
人工智能 运维 监控
聚焦“AI+运维”深度融合,龙蜥系统运维联盟 MeetUp 圆满结束
现场 40 多位开发者进行了深入的技术交流,探索 AI 与运维深度融合的未来路径。
|
7月前
|
人工智能 运维 算法
AI来了,运维不慌:教你用人工智能把团队管理提速三倍!
AI来了,运维不慌:教你用人工智能把团队管理提速三倍!
834 8
|
数据可视化 程序员 数据处理
Python代码对身高进行分类
Python代码对身高进行分类
371 0
|
7月前
|
人工智能 运维 监控
MCP 打通AI大模型与 Zabbix,运维新时代来了!
管志勇,高级软件开发工程师、OceanBase认证专家,深耕软件开发多年,专注Zabbix运维开发与数据可视化。本文介绍其如何通过MCP协议实现大模型与Zabbix的智能联动,打造高效运维新范式。
1083 14
|
SQL 监控 数据库
如何解决 SQL Server 占用内存过多问题
SQL Server 占用过多内存会导致响应缓慢和查询性能低下。解决流程包括:1) 查看内存使用情况,2) 分析各数据库内存占用,3) 优化 SQL Server 配置(如限制最大内存),4) 优化查询(如创建索引),5) 持续监控效果。通过这些步骤可有效控制内存占用,提升系统性能。
1470 0
|
消息中间件 Java Spring
JavaWeb后端开发Spring框架之消息 消息队列案例--订单短信通知
JavaWeb后端开发Spring框架之消息 消息队列案例--订单短信通知
284 0