《云上业务稳定性保障实践白皮书》——四. 变更管控体系——4.1 变更标准流程规范

简介: 《云上业务稳定性保障实践白皮书》——四. 变更管控体系——4.1 变更标准流程规范

四、变更管控体系

变更是指对线上系统的任何操作(如:发布、增加、修改或移除等),或其他对生产业务可能有影响的任何操作。基于历史经验,有一半以上的重大故障皆为变更触,因此,变更过程的风险防御显得尤为重要,会直接关乎业务的稳定性。公共云的变更可分为阿里云侧的产品发布变更以及客户侧的运维类变更。阿里云对变更有一套完善严格的管控、通知体系,尽可能地降低相关风险。而针对公共云客户发起的运维类变更,我们也希望能通过标准的流程规范参考,来增强变更执行人员的风险意识和操作习惯;同时也希望通过阿里云TAM的技术服务能力,在变更过程中协助提前拦截风险,提供辅助客户安全变更的能力。同时客户可参考规范逐步建立标准化的变更规范,最终再通过技术能力实现自动化的变更管控。

4.1 变更标准流程规范


变更发布标准流程参考示意图:

image.png

变更过程可分为:计划、执行、结束三个部分,其中:


计划阶段:该阶段主要包含变更申请,以及申请的准入审批。变更申请需要明确变更计划、窗口期、潜在影响以及回滚方案,具体见后文准入章节。生产环境云资源的运维变更建议客户至少提前一个工作日同步至TAM,以便有充分时间评估风险并协调资源进行护航保障。阿里云侧公共云变更都会由各产品侧发起对客户进行通知,根据影响程度会有不同的通知渠道和提前日期的要求。一般会提前7天进行第一次通知。通知渠道包括官网公告、短信、邮件、站内信、电话、企业钉群推送以及TAM的点对点通知。


执行阶段:首先对变更行为进行二次校验,如确定变更环境是否满足要求,业务流量已按预期停止等。变更过程建议先在测试环境验证后,再进入生产环境变更阶段,同时灰度、分批进行。每批次间设定一定间隔时间,并进行观察记录至少一项可反应核心业务健康状态的指标(业务监控项、日志文件名等),同时须具备回滚能力。


结束阶段:通过监控、日志等数据验证业务是否正常,并记录上报相关数据。

image.png

image.png

相关文章
|
运维 监控 算法
稳定性保障6步走:高可用系统大促作战指南!
年年有大促,大家对于大促稳定性保障这个词都不陌生,业务场景尽管各不相同,“套路”往往殊路同归,全链路压测、容量评估、限流、紧急预案等,来来去去总少不了那么几板斧。跳出这些“套路”,回到问题的本质,我们为什么要按照这些策略来做?除了口口相传的历史经验,我们还能做些什么?又有什么理论依据?
稳定性保障6步走:高可用系统大促作战指南!
|
敏捷开发 数据可视化 Devops
云效需求管理与迭代规划
云效需求管理与迭代规划
796 0
|
容灾 网络协议 数据库
云卓越架构:云上网络稳定性建设和应用稳定性治理最佳实践
本文介绍了云上网络稳定性体系建设的关键内容,包括面向失败的架构设计、可观测性与应急恢复、客户案例及阿里巴巴的核心电商架构演进。首先强调了网络稳定性的挑战及其应对策略,如责任共担模型和冗余设计。接着详细探讨了多可用区部署、弹性架构规划及跨地域容灾设计的最佳实践,特别是阿里云的产品和技术如何助力实现高可用性和快速故障恢复。最后通过具体案例展示了秒级故障转移的效果,以及同城多活架构下的实际应用。这些措施共同确保了业务在面对网络故障时的持续稳定运行。
|
负载均衡 容灾 网络协议
《云上容灾交付服务白皮书》——2.容灾技术架构——21容灾技术架构简介(上)
《云上容灾交付服务白皮书》——2.容灾技术架构——21容灾技术架构简介(上)
978 0
|
人工智能 Serverless API
一键服务化:从魔搭开源模型到OpenAI API服务
在多样化大模型的背后,OpenAI得益于在领域的先发优势,其API接口今天也成为了业界的一个事实标准。
一键服务化:从魔搭开源模型到OpenAI API服务
|
存储 运维 虚拟化
Docker技术概论(1):Docker与虚拟化技术比较
Docker技术概论(1):Docker与虚拟化技术比较
566 17
Docker技术概论(1):Docker与虚拟化技术比较
|
API 开发者
通义灵码实践场景与效果分享
作为后端开发工程师,我利用通义灵码结合企业知识库和代码库,生成符合团队规范的代码,效率提升约40%。灵码支持实时智能补全、代码质量提升及文档自动生成,简化了开发流程,减少了重复工作,显著提升了团队的开发效率和代码质量。
|
UED
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.1 故障等级定义
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.1 故障等级定义
2349 0
|
消息中间件 数据采集 监控
ELK搭建(十二):搭建Nginx访问、错误日志监控平台
Nginx是一款轻量级、高性能的流量分发和反向代理的web服务。随着市场业务量的增加,普通的web容器,如tomcat的并发量已经远不能满足我们的业务量,同时随着分布式架构的普及,我们需要一款反向代理服务的支持,于是Nginx应运而生。 Nginx已经在大多数业务中普遍使用,因此针对Nginx的流量监控,错误日志监控极其必要,这样才能让我们能够及时了解系统运行情况。 那么今天,我们就来看看如何搭建Nginx访问记录、错误日志监控平台
765 0
ELK搭建(十二):搭建Nginx访问、错误日志监控平台
|
域名解析 网络协议 数据可视化
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.2 全链路压测与容量评估(2)
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.2 全链路压测与容量评估(2)
421 0