四、变更管控体系
变更是指对线上系统的任何操作(如:发布、增加、修改或移除等),或其他对生产业务可能有影响的任何操作。基于历史经验,有一半以上的重大故障皆为变更触发,因此,变更过程的风险防御显得尤为重要,会直接关乎业务的稳定性。公共云的变更可分为阿里云侧的产品发布变更以及客户侧的运维类变更。阿里云对变更有一套完善严格的管控、通知体系,尽可能地降低相关风险。而针对公共云客户发起的运维类变更,我们也希望能通过标准的流程规范参考,来增强变更执行人员的风险意识和操作习惯;同时也希望通过阿里云TAM的技术服务能力,在变更过程中协助提前拦截风险,提供辅助客户安全变更的能力。同时客户可参考规范逐步建立标准化的变更规范,最终再通过技术能力实现自动化的变更管控。
4.1 变更标准流程规范
变更发布标准流程参考示意图:
变更过程可分为:计划、执行、结束三个部分,其中:
计划阶段:该阶段主要包含变更申请,以及申请的准入审批。变更申请需要明确变更计划、窗口期、潜在影响以及回滚方案,具体见后文准入章节。生产环境云资源的运维变更建议客户至少提前一个工作日同步至TAM,以便有充分时间评估风险并协调资源进行护航保障。阿里云侧公共云变更都会由各产品侧发起对客户进行通知,根据影响程度会有不同的通知渠道和提前日期的要求。一般会提前7天进行第一次通知。通知渠道包括官网公告、短信、邮件、站内信、电话、企业钉群推送以及TAM的点对点通知。
执行阶段:首先对变更行为进行二次校验,如确定变更环境是否满足要求,业务流量已按预期停止等。变更过程建议先在测试环境验证后,再进入生产环境变更阶段,同时灰度、分批进行。每批次间设定一定间隔时间,并进行观察记录至少一项可反应核心业务健康状态的指标(业务监控项、日志文件名等),同时须具备回滚能力。
结束阶段:通过监控、日志等数据验证业务是否正常,并记录上报相关数据。