《云上业务稳定性保障实践白皮书》——四. 变更管控体系——4.2 变更管控动作——4.2.2灰度

简介: 《云上业务稳定性保障实践白皮书》——四. 变更管控体系——4.2 变更管控动作——4.2.2灰度

4.2.2灰度


灰度为变更提供一种快速低成本的试错机制,其具有多种不同层面的实现形式。一种典型的灰度机制,是提供一套完整而独立的测试环境,用于正式生产变更前的提前验证。另一种较为典型的灰度机制,为在生产环境分批次变更,通过细化控制变更的节奏和影响范围,实现小规模生产试错能力。


image.png


测试环境(SPE)


灰度测试环境的目的是隔离生产流量,减少风险影响,在环境内形成调用闭环,方便测试。测试环境灰度的时间点位一定要在上线生产之前。可引流内网全部流量和线上1%流量作为测试覆盖的基础。


生产灰度分批


这里列举三个常见的分批方式:簇内分批、簇间串行、簇间打散,每个层面中对应的灰度方式如下图所示:


image.png


图中的簇指的是可以继续拆分的逻辑组,包含但不限于单元、Region、机房、

Availability Zone、VPC、Cluster、分组、自定义逻辑区域等。


线上生产环境灰度变更建议包含以下要求:可分批、可控制分批间隔、可观测/可验证、可暂停/可回滚。


•可分批:指灰度方式必须至少满足灰度分批方式中的一项:簇内分批、簇间串行、簇间打散。确定好灰度方式后,至少需要2批进行发布。如果确实不具备灰度能力,建议提升审批申报层级。


可控制间隔:指变更可对每批次的发布时间间隔进行控制。


•可观测:指变更系统每批次发完后,需要观测并验证本批次发布无问题后才能进行下一批次的发布。观测和验证的手段包括但不限于以下方式:在变更系统里至少记录一项核心反应健康状态的指标(业务监控项、日志文件名等)或记录double check人员或采用自动化观测等,并能通过对线上文件验证等方式确定已发布成功。


•可回滚:指灰度时需具备分批回滚、全量回滚的能力,回滚单要有变更记录并可追溯。

相关文章
|
3天前
|
存储 运维 监控
什么是运维自动化巡检中心,优势有哪些?
IT运维自动化通过将大量重复性工作转化为自动化操作,实现“零延时”运维,提高运维的主动性和准确性,降低技术人员工作强度。自动化巡检则将手动巡检转变为自动化形式,全面深度检测设备状态,补充监控无法覆盖的范围。其优势包括巡检对象多样、自定义巡检计划和区域、多种通知方式及高效执行,有效提升巡检效率,降低人为失误风险,确保业务稳定运行。
10 0
|
存储 数据采集 监控
数据治理利器Dataphin:数据安全管理3步走,保障全链路数据安全(V3.11版本)
瓴羊Dataphin(智能数据建设与治理),一直在探索数据安全管理能力的产品化最佳实践,即如何帮助企业利用产品工具能力,基于法律法规、主管部门要求和自身行业和业务的需要,建立起规范的分级分类制度,并对敏感数据制定相应的保护策略。企业通过Dataphin构建起合规的数据安全体系,将数据安全风险降至最低,让数据资产在安全合规的基础上,得到最大的价值释放。
775 4
|
算法 BI
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.2故障分体系
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.2故障分体系
336 0
|
监控
《云上业务稳定性保障实践白皮书》——四. 变更管控体系——4.2 变更管控动作——4.2.3 观测
《云上业务稳定性保障实践白皮书》——四. 变更管控体系——4.2 变更管控动作——4.2.3 观测
137 0
《云上业务稳定性保障实践白皮书》——四. 变更管控体系——4.2 变更管控动作——4.2.1 准入
《云上业务稳定性保障实践白皮书》——四. 变更管控体系——4.2 变更管控动作——4.2.1 准入
162 0
《云上业务稳定性保障实践白皮书》——四. 变更管控体系——4.2 变更管控动作——4.2.4 回滚
《云上业务稳定性保障实践白皮书》——四. 变更管控体系——4.2 变更管控动作——4.2.4 回滚
173 0
《云上业务稳定性保障实践白皮书》——四. 变更管控体系——4.2 变更管控动作——4.2.5 数据记录上报
《云上业务稳定性保障实践白皮书》——四. 变更管控体系——4.2 变更管控动作——4.2.5 数据记录上报
150 0
|
运维 监控 安全
《云上业务稳定性保障实践白皮书》——四. 变更管控体系——4.1 变更标准流程规范
《云上业务稳定性保障实践白皮书》——四. 变更管控体系——4.1 变更标准流程规范
491 0
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.5 改进追踪
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.5 改进追踪
135 0
|
UED
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.1 故障等级定义
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.1 故障等级定义
1309 0