《云上容灾交付服务白皮书》——3交付标准化参考框架——3.4演练方案设计(3)

简介: 《云上容灾交付服务白皮书》——3交付标准化参考框架——3.4演练方案设计(3)

《云上容灾交付服务白皮书》——3交付标准化参考框架——3.4演练方案设计(2) https://developer.aliyun.com/article/1229853?groupCode=supportservice



3.4.2 应急预案设计

应急预案,并非独立存在和一蹴而就,应和容灾场景相互配合并互相促进的循环过程。常见的应急预案设计及改进流程如下。


image.png

图 3-12 应急预案设计和更新流程


应急预案设计的循环过程中,重要关注点如下:


全链路梳理:对用户进行分类,明确每一类用户的业务敏感时间。根据容灾演练的时间窗,重点对业务敏感的用户进行全链路分析,从用户登录系统开始到用户退出系统结束进行分析。这个分析过程,通常以现状调研的结果作为重要输入。在演练开始前,需要对调研结果进行查缺补漏。


控制点分析:面对异常或故障的时候,用于快速恢复应用系统正常的关键节点。这些控制点应以恢复应用系统关键功能正常为目的,而不是以分析问题根因为目的。常见的控制点应包括应用系统流量的入口和出口。


应急预案制定:在所有控制点实施应急修复的详细操作步骤和人员分工。


容灾演练:在指定演练窗口期内开展的生产环境容灾切换演练。


问题复盘:在演练结束后,对应急预案的范围和准确度进行评估,并查缺补漏,更新到下一次演练的应急预案中。


全链路梳理:下一次演练可能发生在较长的时间之后(比如生产环境每年的定期容灾演练),期间可能全链路的环境已经发生了一些改变,需要在下次容灾演练开始前,再次进行全链路梳理,并迭代更新控制点。


3.4.3 DRP 方案设计


DRP(disaster recovery planning),灾难恢复规划。为了减少灾难带来的损失和保证信息系统所支持的关键业务功能在灾难发生后能及时恢复和继续运作所做的事前计划和安排。


事件报告和响应流程


事件报告流程用于确认在发生事件或灾难时应当通知的相关人员。在事件最初发生的半个小时,运维人员按照标准事件处理流程、创建工单、组建工单群、通知相关技术支持人员处理问题。当出现严重性级别灾难事件时,需要立即通知灾难恢复团队。灾难事件应急响应流程如下:


运维人员收到事件通知,需初步判断该突发事件为紧急事件,并判断影响范围和影响程度、确认故障等级,并根据报告流程,通知相关人员。


通知方式:钉钉消息 / 短信 / 电话等

通知内容:环境信息、故障描述、业务状态


image.png

图 3-13 灾难恢复响应流程



灾难恢复技术流程


对于非常严重级别的故障(地震、洪水、火灾、战争等)需要尽快将业务系统切换到灾备中心。一般严重机房故障(机房断电、断网)由高层决策是否把业务系统切换到容灾机房。


DRP 流程建设的重点关注事项如下:


技术上应具备故障及时感知和通知机制。

流程上明确分工机制、问题流转机制和决策机制。

能力上通过常态化的演练和复盘,不断提升 DRP 的成熟度。

相关文章
|
SQL 分布式计算 运维
如何对付一个耗时6h+的ODPS任务:慢节点优化实践
本文描述了大数据处理任务(特别是涉及大量JOIN操作的任务)中遇到的性能瓶颈问题及其优化过程。
|
9月前
|
网络协议 安全 测试技术
Nping工具详解:网络工程师的瑞士军刀
### Nping工具详解:网络工程师的瑞士军刀 Nping是Nmap项目的一部分,支持TCP、UDP、ICMP和ARP等多种协议,用于生成和分析网络数据包。它提供灵活的命令行界面,适用于网络探测、安全测试和故障排除。本文介绍Nping的基础与高级用法,包括发送不同类型的网络请求、自定义TCP标志位、路由跟踪等,并通过实战案例展示其应用。掌握Nping有助于更好地理解和管理网络环境。 (239字符)
659 9
|
12月前
|
存储 边缘计算 城市大脑
阿里云入选Gartner®分布式混合基础设施魔力象限
Gartner正式发布了《分布式混合基础设施魔力象限》(Magic Quadrant™ for Distributed Hybrid Infrastructure),阿里云在入选的中国厂商中于执行能力(纵轴)和愿景完整性(横轴)上均处在最高、最远的位置。
238 1
|
12月前
|
缓存 NoSQL Redis
Redis命令:列表模糊删除详解
Redis命令:列表模糊删除详解
343 3
|
11月前
|
SQL 分布式计算 运维
如何优化超长定时任务:慢节点优化实践
本文介绍了一个复杂的ODPS任务优化过程。通过对任务耗时卡点的分析,发现主要问题是数据倾斜和join任务资源不足。通过提高join任务资源分配、对空值加随机值打散、视图物化落表、节点拆分、前置裁剪和使用Distributed Mapjoin等方法,成功将宽表产出时间从下午一点提前到早上八点半,节省了4小时以上。优化过程中还拆分了宽表节点,降低了回刷成本。文章强调了在设计开发初期应避免代码耦合度过高,以提高代码运行效率和可维护性。
243 0
|
DataWorks 关系型数据库 MySQL
DataWorks产品使用合集之RDS和ADB的区别是什么
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
401 2
|
Linux 开发者 iOS开发
Python常用打包工具比较
以上是常用的四种打包工具比较。各自有着自己的优缺点,开发者可以根据自己的需求来选择合适的工具。如果你只需要在 Windows 平台上运行应用程序,可以选择 py2exe。如果你需要跨平台支持,并且希望打包过程简单,可以选择 Briefcase。如果你需要支持多个平台,并且打包过程比较复杂,可以选择 cx_Freeze。如果你需要支持多个平台,并且对第三方库的兼容性有较高的要求,可以选择 PyInstaller。
1103 4
|
数据处理 PyTorch 算法框架/工具
PyTorch 2.2 中文官方教程(七)(1)
PyTorch 2.2 中文官方教程(七)
271 0
PyTorch 2.2 中文官方教程(七)(1)
|
监控 容灾 测试技术
《云上容灾交付服务白皮书》——3交付标准化参考框架——3.4演练方案设计(2)
《云上容灾交付服务白皮书》——3交付标准化参考框架——3.4演练方案设计(2)
200 0
|
容灾
《云上容灾交付服务白皮书》——3交付标准化参考框架——3.4演练方案设计(1)
《云上容灾交付服务白皮书》——3交付标准化参考框架——3.4演练方案设计(1)
250 0