《云上容灾交付服务白皮书》——3交付标准化参考框架——3.4演练方案设计(2) https://developer.aliyun.com/article/1229853?groupCode=supportservice
3.4.2 应急预案设计
应急预案,并非独立存在和一蹴而就,应和容灾场景相互配合并互相促进的循环过程。常见的应急预案设计及改进流程如下。
图 3-12 应急预案设计和更新流程
应急预案设计的循环过程中,重要关注点如下:
全链路梳理:对用户进行分类,明确每一类用户的业务敏感时间。根据容灾演练的时间窗,重点对业务敏感的用户进行全链路分析,从用户登录系统开始到用户退出系统结束进行分析。这个分析过程,通常以现状调研的结果作为重要输入。在演练开始前,需要对调研结果进行查缺补漏。
控制点分析:面对异常或故障的时候,用于快速恢复应用系统正常的关键节点。这些控制点应以恢复应用系统关键功能正常为目的,而不是以分析问题根因为目的。常见的控制点应包括应用系统流量的入口和出口。
应急预案制定:在所有控制点实施应急修复的详细操作步骤和人员分工。
容灾演练:在指定演练窗口期内开展的生产环境容灾切换演练。
问题复盘:在演练结束后,对应急预案的范围和准确度进行评估,并查缺补漏,更新到下一次演练的应急预案中。
全链路梳理:下一次演练可能发生在较长的时间之后(比如生产环境每年的定期容灾演练),期间可能全链路的环境已经发生了一些改变,需要在下次容灾演练开始前,再次进行全链路梳理,并迭代更新控制点。
3.4.3 DRP 方案设计
DRP(disaster recovery planning),灾难恢复规划。为了减少灾难带来的损失和保证信息系统所支持的关键业务功能在灾难发生后能及时恢复和继续运作所做的事前计划和安排。
事件报告和响应流程
事件报告流程用于确认在发生事件或灾难时应当通知的相关人员。在事件最初发生的半个小时,运维人员按照标准事件处理流程、创建工单、组建工单群、通知相关技术支持人员处理问题。当出现严重性级别灾难事件时,需要立即通知灾难恢复团队。灾难事件应急响应流程如下:
运维人员收到事件通知,需初步判断该突发事件为紧急事件,并判断影响范围和影响程度、确认故障等级,并根据报告流程,通知相关人员。
通知方式:钉钉消息 / 短信 / 电话等
通知内容:环境信息、故障描述、业务状态
图 3-13 灾难恢复响应流程
灾难恢复技术流程
对于非常严重级别的故障(地震、洪水、火灾、战争等)需要尽快将业务系统切换到灾备中心。一般严重机房故障(机房断电、断网)由高层决策是否把业务系统切换到容灾机房。
DRP 流程建设的重点关注事项如下:
技术上应具备故障及时感知和通知机制。
流程上明确分工机制、问题流转机制和决策机制。
能力上通过常态化的演练和复盘,不断提升 DRP 的成熟度。