6.2.6 冬奥重保—变更管控
变更管控工作贯穿在网平基础架构环境各种设备架构的整个生命周期,是ITIL管理中非常重要的一个流程环节,和其他流程关系非常紧密,稍有不慎就容易导致故障。
在最古老的变更管控理论中Lewin提到过变更管理的三个基本逻辑, 基本定义了变更所需要做的准备,实施变更以及变更达到的效果三个大阶段。
Stage 1 entails persuading a group that change is necessary. Once they are amenable to the idea of change.
Stage 2 executes that change.
Finally, when the change is broadly complete, Stage 3 institutionalizes the new patterns of behavior and thought.
保证云资源稳定性的最有效方式是封网,这也是历次重大活动保障前的标准操作。但是封网过多则会影响阿里云正常的产品发布和迭代,尤其在冬奥重保周期跨度长达x天的情况下。因此,保障团队在系统和产品能力支持的情况下,尽量把封网精细化到资源颗粒度层面,减少封网对其他用户的影响。
图:封网公告
由于云的多租户环境特性,在长达x天的封网中,还是存在着多种变更需求。平衡变更对奥运业务的影响以及对其他客户的影响程度成为一件重要的事情。
在变更需求的评审中,我们引入了不同维度的评审机制,从变更地域、变更时间、变更产品、潜在影响、回滚方案成熟度等多个维度进行评审,并且和各产品稳定性负责人一起严格把关,最终实现变更期间奥运业务0中断。
图:北京冬奥变更管理