《云上容灾交付服务白皮书》——5.交付典型案例——5.5交付成果保鲜化

简介: 《云上容灾交付服务白皮书》——5.交付典型案例——5.5交付成果保鲜化

容灾项目的交付成果,指目标应用系统的容灾能力。当发生数据中心级别的重大风险或 灾难时 ,快速完成容切换来保障业务连续性,  是检验容灾能力的终极手段。重大风险 灾难,  是一种不确定性的概率事件。如何让容灾演练已经验证过的能力,  持久化生效, 是交付成果保鲜化的重要话题。变化就像一只看不见的手,容易被忽略,并影响着应用 系统的容灾能力。本文用“容灾能力保鲜度”来描述,从演练切换到灾难切换的过程, 保鲜度是如何随着时间逐步变化的。特别需要注意的事项包括:


复盘 & 改完成的时候,是保鲜度最高的时候,要求对演练发现的问题进行修复后才能达到。


系统日常运行过程中,随着各种软硬件设备的变化,会造成保鲜度降低,而且容易被略。


image.png

图 5-4 容灾能力低保鲜曲线


容灾能力保鲜的关键是用计划性的容灾演练和日常运维规范来应对不确定的重大风险或 难。容灾能力保鲜的过程, 存在四种状态, 分别是:容灾演练、复盘 & 改进、变化、 巡检,四种状态循环演进。针对每种状态,在该项目中,开发、运维和管理部门,严格 执行如下标准动作


1. 演练状态:指生产环境的容灾切换和回切的演练,要求如下:


检查业务的连续性,确保在计划的窗口期内恢复业务正常。

检查数据的完整性,对历史业务数据和增量业务数据进行校验,确保生产中心和灾备 的数据一致性。

检查方案的可行性,确保容灾切换演练的步骤清晰并易操作。


2. 复盘 & 改进状态:指每次演练结束后,对演练过程进行总结,要求如下:

收集业务部门的反馈,确认演练过程的业务影响范围和程度,处于可接受范围之内。

检查组织协同的效率,确认通告范围是否完整和响应机制是否健全。

检查演练结果是否符合预期,并开展回归验收。

析演练中暴露的问题,找到对应的解决方案,并推进改进方案落地。

 

3. 变化状态:变化是持续存在的,发生变化后,需及时确认是否遵循容灾规范并完成适,要求如下:


记录并检查硬件设备的变化情况,包括网络设备、安全设备、服务器、专用硬件等,对其高可用配置和容灾配置进行确认。

记录并检查应用系统的变化情况,包括新的应用系统、新的运行版本、新的云产品、新的渠道系统等,并对其高可用配置和容灾配置进行确认,对容灾规范满足度进行确认或改造。

定期检查硬件维保期和软件 Lincense 的有效期, 及时更新即将过保的硬件和软件License。

对关键人员的变化,及时安排好能力交接。


4. 巡检状态:指日常巡检和演练巡检,要求如下:

面监控生产中心和灾备中心的工作状态,及时响应和处理告警信息。

进行容灾切换的深度巡检。

演练规划时,对应用系统、云平台和基础设施,进行全链路的分析。

演练开始前,多次执行深度巡检,及时清理潜在风险。


image.png


在完成医保系统的多次演练和运维交接后,项目达到验收条件,业务专家和技术专家从 场支持转为远程支持,现场只保留了少数的运维同学。在运维过程中,业务系统的设计、 开发、部署、运维,始终按照容灾切换演练积累下来的方法论,保障了医保系统的容灾 能力处于“高保鲜”的状态。


在容灾系统建设完成后的正常运行期,该地区医保系统曾面临一次生产数据中心即将停 电的风险。在医保局决策和指导下,运维人员顺利将业务系统从生产中心切换到灾备中 心,成功避免了系统性风险,保障了医保系统的业务连续性。这充分证明了日常开发和 运维规范的执行到位,对于维持容灾能力的“高保鲜”的状态是非常重要的。该项目容灾能力的保鲜曲线如下图所示。


image.png

图 5-6 容灾能力高保鲜曲线

相关文章
|
JavaScript 前端开发 Java
正则表达式深度解析:匹配任意字符串
【4月更文挑战第1天】
8121 0
|
弹性计算 虚拟化 异构计算
2023阿里云GPU服务器租用费用说明:包年包月、小时收费、学生GPU服务器租用费用
阿里云GPU服务器租用价格表包括包年包月价格、一个小时收费以及学生GPU服务器租用费用,阿里云GPU计算卡包括NVIDIA V100计算卡、T4计算卡、A10计算卡和A100计算卡,GPU云服务器gn6i可享受3折优惠,分享阿里云GPU服务器租用价格表、GPU一个小时多少钱以及学生GPU服务器收费价格表:
4046 0
|
存储 关系型数据库 MySQL
MySQL数据类型详解及实例应用
MySQL数据类型详解及实例应用
|
C语言
初识C语言2——分支语句和循环语句
初识C语言2——分支语句和循环语句
484 5
|
网络协议 Linux 应用服务中间件
Socket通信之网络协议基本原理
【9月更文挑战第14天】网络协议是机器间交流的约定格式,确保信息准确传达。主要模型有OSI七层与TCP/IP模型,通过分层简化复杂网络环境。IP地址全局定位设备,MAC地址则在本地网络中定位。网络分层后,数据包层层封装,经由不同层次协议处理,最终通过Socket系统调用在应用层解析和响应。
|
前端开发 测试技术 API
GraphQL 中的分页与排序:一分钟浅谈
本文深入介绍了 GraphQL 中的分页与排序功能,解释了为何这些功能在处理大量数据时至关重要,并详细说明了如何通过 `first` 和 `after` 参数实现分页,以及如何使用 `orderBy` 参数进行排序。同时,文章还探讨了常见问题及解决方法,帮助开发者避免陷阱,提升查询性能和用户体验。
428 70
|
JSON 文字识别 API
如何提取手写票据信息
本文主要讲述在处理票据信息结构化提取任务时,如何结合OCR(光学字符识别)技术和多模态大模型Qwen-VL来提高票据信息提取的准确性和效率。
1006 17
|
DataWorks 搜索推荐 大数据
聊聊DataWorks——这个一站式智能大数据开发治理平台
聊聊DataWorks——这个一站式智能大数据开发治理平台
865 2
|
机器学习/深度学习 人工智能 弹性计算
阿里云AI服务器价格表_GPU服务器租赁费用_AI人工智能高性能计算推理
阿里云AI服务器提供多种配置,包括CPU+GPU、CPU+FPGA等组合,支持高性能计算需求。本文整理了阿里云GPU服务器的价格信息,涵盖NVIDIA A10、V100、T4、P4、P100等型号,适合人工智能、机器学习和深度学习等计算密集型任务。具体价格和适用场景详见表格。
761 10
|
弹性计算 运维 负载均衡
容器化管理云上应用体验评测
从解读方案开始,带你领略容器化管理云上应用的奇妙之旅。
13183 20
容器化管理云上应用体验评测