《云上容灾交付服务白皮书》——3交付标准化参考框架——3.4演练方案设计(3)

简介: 《云上容灾交付服务白皮书》——3交付标准化参考框架——3.4演练方案设计(3)

《云上容灾交付服务白皮书》——3交付标准化参考框架——3.4演练方案设计(2) https://developer.aliyun.com/article/1229853?groupCode=supportservice



3.4.2 应急预案设计

应急预案,并非独立存在和一蹴而就,应和容灾场景相互配合并互相促进的循环过程。常见的应急预案设计及改进流程如下。


image.png

图 3-12 应急预案设计和更新流程


应急预案设计的循环过程中,重要关注点如下:


全链路梳理:对用户进行分类,明确每一类用户的业务敏感时间。根据容灾演练的时间窗,重点对业务敏感的用户进行全链路分析,从用户登录系统开始到用户退出系统结束进行分析。这个分析过程,通常以现状调研的结果作为重要输入。在演练开始前,需要对调研结果进行查缺补漏。


控制点分析:面对异常或故障的时候,用于快速恢复应用系统正常的关键节点。这些控制点应以恢复应用系统关键功能正常为目的,而不是以分析问题根因为目的。常见的控制点应包括应用系统流量的入口和出口。


应急预案制定:在所有控制点实施应急修复的详细操作步骤和人员分工。


容灾演练:在指定演练窗口期内开展的生产环境容灾切换演练。


问题复盘:在演练结束后,对应急预案的范围和准确度进行评估,并查缺补漏,更新到下一次演练的应急预案中。


全链路梳理:下一次演练可能发生在较长的时间之后(比如生产环境每年的定期容灾演练),期间可能全链路的环境已经发生了一些改变,需要在下次容灾演练开始前,再次进行全链路梳理,并迭代更新控制点。


3.4.3 DRP 方案设计


DRP(disaster recovery planning),灾难恢复规划。为了减少灾难带来的损失和保证信息系统所支持的关键业务功能在灾难发生后能及时恢复和继续运作所做的事前计划和安排。


事件报告和响应流程


事件报告流程用于确认在发生事件或灾难时应当通知的相关人员。在事件最初发生的半个小时,运维人员按照标准事件处理流程、创建工单、组建工单群、通知相关技术支持人员处理问题。当出现严重性级别灾难事件时,需要立即通知灾难恢复团队。灾难事件应急响应流程如下:


运维人员收到事件通知,需初步判断该突发事件为紧急事件,并判断影响范围和影响程度、确认故障等级,并根据报告流程,通知相关人员。


通知方式:钉钉消息 / 短信 / 电话等

通知内容:环境信息、故障描述、业务状态


image.png

图 3-13 灾难恢复响应流程



灾难恢复技术流程


对于非常严重级别的故障(地震、洪水、火灾、战争等)需要尽快将业务系统切换到灾备中心。一般严重机房故障(机房断电、断网)由高层决策是否把业务系统切换到容灾机房。


DRP 流程建设的重点关注事项如下:


技术上应具备故障及时感知和通知机制。

流程上明确分工机制、问题流转机制和决策机制。

能力上通过常态化的演练和复盘,不断提升 DRP 的成熟度。

相关文章
|
关系型数据库 MySQL 数据库
2分钟教你用DTS做数据库迁移
工作或者个人开发中,使用的数据库快到期了。不想续费,想换个数据库用,比如从阿里云换到腾讯云数据库。原有的数据怎么一键迁移到新数据库呢,今天就教大家用阿里云DTS做数据库的迁移
1425 0
|
机器学习/深度学习 数据采集 数据处理
掌握时间序列特征工程:常用特征总结与 Feature-engine 的应用
本文介绍了时间序列特征工程,包括滚动统计量、滞后特征、差分和变换等技术,用于提升机器学习模型性能。文章还推荐了Python库`feature-engine`,用于简化特征提取,如处理缺失值、编码分类变量和进行时间序列转换。示例代码展示了如何使用`feature-engine`提取时间戳信息、创建滞后特征和窗口特征。通过创建管道,可以高效地完成整个特征工程流程,优化数据预处理并提高模型效果。
2391 15
|
9月前
|
人工智能 运维 监控
运维还能“自愈”?聊聊AI加持下的运维进化
运维还能“自愈”?聊聊AI加持下的运维进化
399 1
|
8月前
|
传感器 人工智能 算法
分层架构解耦——如何构建不依赖硬件的具身智能系统
硬件与软件的彻底解耦,并通过模块化、分层的架构进行重构,是突破这一瓶颈、构建通用型具身智能系统的核心基石。这种架构将具身智能系统解耦为三个核心层级:HAL、感知决策层和任务执行层。这一模式使得企业能够利用预置的技能库和低代码工具快速配置新任务,在不更换昂贵硬件的前提下,实现从清洁机器人到物流机器人的快速功能切换。本文将通过对HAL技术原理、VLA大模型和行为树等核心技术的深度剖析,并结合Google RT-X、RobotecAI RAI和NVIDIA Isaac Sim等主流框架的案例,论证这一新范式的可行性与巨大潜力,探讨硬件解耦如何将机器人从一个“工具”升级为“软件定义”的“多面手”,从而
1123 3
|
容灾 网络协议 数据库
云卓越架构:云上网络稳定性建设和应用稳定性治理最佳实践
本文介绍了云上网络稳定性体系建设的关键内容,包括面向失败的架构设计、可观测性与应急恢复、客户案例及阿里巴巴的核心电商架构演进。首先强调了网络稳定性的挑战及其应对策略,如责任共担模型和冗余设计。接着详细探讨了多可用区部署、弹性架构规划及跨地域容灾设计的最佳实践,特别是阿里云的产品和技术如何助力实现高可用性和快速故障恢复。最后通过具体案例展示了秒级故障转移的效果,以及同城多活架构下的实际应用。这些措施共同确保了业务在面对网络故障时的持续稳定运行。
|
人工智能 搜索推荐 安全
听悟 + 魔笔,定制你的企业智能会议系统
本文介绍了基于阿里云魔笔平台的企业智能会议系统搭建方案。通过整合通义听悟的强大AI能力,该系统可实现音频视频处理、自动记录、实时翻译等功能,满足个性化定制、数据安全与高效集成的需求。
|
缓存 NoSQL Redis
Redis命令:列表模糊删除详解
Redis命令:列表模糊删除详解
543 3
|
DataWorks 关系型数据库 MySQL
DataWorks产品使用合集之RDS和ADB的区别是什么
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
764 2
|
容灾
《云上容灾交付服务白皮书》——3交付标准化参考框架——3.4演练方案设计(1)
《云上容灾交付服务白皮书》——3交付标准化参考框架——3.4演练方案设计(1)
380 0
|
监控 容灾 测试技术
《云上容灾交付服务白皮书》——3交付标准化参考框架——3.4演练方案设计(2)
《云上容灾交付服务白皮书》——3交付标准化参考框架——3.4演练方案设计(2)
330 0