《云上容灾交付服务白皮书》——3交付标准化参考框架——3.5 演练实施(下)

简介: 《云上容灾交付服务白皮书》——3交付标准化参考框架——3.5 演练实施(下)

《云上容灾交付服务白皮书》——3交付标准化参考框架——3.5 演练实施(上) https://developer.aliyun.com/article/1229833?groupCode=supportservice



组织保障是否到位,是容灾演练成功与否的最关键因素之一。在大型项目中,涉及的关联团队通常比较复杂。在演练开始前,需要梳理保障团队,并举行演练开工会,保证每个团队的参与人清楚时间和职责范围。下图是阿里云某大型项目容灾演练的保障队形及职责分工的一个例子。


image.png

图 3-17 容灾演练人员保障矩阵


容灾演练组织保障的重点关注项如下:

应确保业务验证人员熟悉业务,确保在有限的时间窗口内,高效地完成业务验证。

应确保和远程保障的技术专家沟通到位,确保深夜出现紧急的复杂问题时,能够及时联系产品技术专家。

应明确问题管理负责人和问题修复负责人,确保问题通报和问题修复的过程有序开展。


3.5.2 演练复盘


容灾演练是为了全方位验证灾难场景下的响应能力,包括方案、技术、流程、人员等综合因素。通过演练发现系统短板,通过复盘动作持续修复短板。复盘的基本逻辑是一个PDCA(Plan-Do-Check-Act)的循环过程。


image.png

图 3-18 演练复盘的流程


容灾演练复盘的重点关注项如下:


应检查演练的场景,确保能够应对真实世界中的故障场景。

应检查演练的计划,是否按期完成。如未完成,应评估客观因素,是否需要和有条件新增演练窗口。

应评估业务的影响范围,确保影响的用户数、功能和时间是在可接受范围内。

应检查组织保障机制,确保分工明确、职责清晰。

应分析方案改进点,识别在容灾方案和演练方案上可优化改进的地方。

应分析技术改进点,识别在容灾切换演练的过程中,可观察、可灰度、可回滚三个维度上可改进的地方。

应分析管理改进点,识别在变更评审、组织协调上可改进的地方。

应评估人员成长的情况,分别对自有人员和合作方的能力,是否可达到自主开展容灾切换的水平。

应明确改进的落地计划,对于识别出来的改进项,任务分解到跟踪人、负责人和时间计划。


相关文章
|
资源调度 算法 关系型数据库
5G 物理层|带你读《5G无线网络规划与设计》之十
使用非授权频谱是移动通信系统扩展频谱资源的重要手段之一。非授权频谱上的业务非常繁忙,抢占信道最好的方法是一旦发现信道空闲马上开始传输。在 LTE 中,资源调度以时隙为单位,即使监听到信道空闲,也必须等到下一个时隙开始进行传输
5G 物理层|带你读《5G无线网络规划与设计》之十
|
11月前
|
安全 算法 BI
《HarmonyOSNext 应用/元服务上架全攻略:从签名到过审的保姆级指南,让你一次跑通不踩坑!》
本文为HarmonyOS应用/元服务上架提供详细指南,涵盖签名到过审全流程。首先在AGC创建项目与应用,接着通过DevEco Studio生成密钥和CSR文件,申请发布证书与Profile。然后配置签名并编译打包,最后提交至AppGallery Connect审核。附避坑指南,助你顺利上架。
|
前端开发 JavaScript Serverless
「译文」目前大火的 Jamstack 到底是什么?
「译文」目前大火的 Jamstack 到底是什么?
|
数据采集 机器学习/深度学习 算法
利用Python进行数据预处理的实用指南
【9月更文挑战第15天】在探索数据科学之旅时,数据预处理是不可或缺的一环。本文将引导你通过Python实现数据清洗、转换和归一化等关键步骤,确保你的数据集为后续分析做好准备。我们将一起学习如何去除空值、异常值,以及如何标准化数据格式,从而让数据变得更加“乖巧”。让我们开始吧,将原始数据转化为洞察力量的旅程!
|
数据可视化 定位技术 vr&ar
商场3D楼层导视软件功能详解与实施效益
**维小帮3D楼层导视软件**提供创新的商场导航体验:3D地图清晰呈现楼层布局,跨楼层导航智能规划路径;实时定位防止迷路;AR实景导航增强沉浸感;广告推送及可视化招商平台助力商业运营。软件结合VR、AR技术,优化顾客导航,促进营销,实现智慧化管理与招商,引领商场服务升级。
1013 1
商场3D楼层导视软件功能详解与实施效益
|
存储 监控 安全
OSS如何保证数据安全?
【7月更文挑战第19天】OSS如何保证数据安全?
1011 7
|
存储 分布式计算 大数据
Hadoop 生态圈中的组件如何协同工作来实现大数据处理的全流程
Hadoop 生态圈中的组件如何协同工作来实现大数据处理的全流程
|
Kubernetes 容器 Perl
在K8S中,Replica Set和Replication Controller之间有什么区别?
在K8S中,Replica Set和Replication Controller之间有什么区别?
|
监控 NoSQL JavaScript
《Redis服务监控神器:用RedisLive轻松掌控实时数据》
【8月更文挑战第13天】确保Redis稳定运行可通过监控工具RedisLive实现,它实时监控服务状态以便及时处理问题。RedisLive是款开源工具,具备易用、实时与可视化特性,透过Web界面展示内存使用及命令统计等关键指标。使用前需确认已安装Redis、Node.js环境,并配置MongoDB用于数据持久化。安装步骤包括克隆项目、安装依赖、配置连接信息,最后启动应用并通过浏览器访问监控页面。
587 0
|
应用服务中间件 测试技术 Linux