《云上容灾交付服务白皮书》——3交付标准化参考框架——3.4演练方案设计(2)

简介: 《云上容灾交付服务白皮书》——3交付标准化参考框架——3.4演练方案设计(2)

《云上容灾交付服务白皮书》——3交付标准化参考框架——3.4演练方案设计(1) https://developer.aliyun.com/article/1229854?groupCode=supportservice



3)演练操作手册

演练操作手册是针对上述容灾演练的场景,分别描述完整操作步骤的文档。一次容灾演练,相当于一次生产环境的变更操作,在遵循生产变更三板斧(可监控、可灰度、可应急)的前提下,还需要具备易操作的要求。


image.png

图 3-11 容灾演练手册的编写原则




基于上述理念,一份高质量的容灾切换操作手册及其配套手册,应满足如下要求:

完整的保障人员清单及联系方式。一个面面俱到的监控系统,是需要长期来完善的。在很多项目中,监控系统是可能存在观察盲区的。因此需要根据应用系统上下游的依赖关系,明确保障人员的信息,作为监控系统的有效补充。


详细的巡检步骤。在容灾演练开始前,需要通过巡检工具或人工巡检,对应用系统及其依赖关系,进行健康度检查,来提升容灾切换的成功率。


关键的测试用例。生产环境的一次容灾演练,通常发生在凌晨的有限时间内。此时很多业务在夜间无流量或流量较少,难以在限定的时间内验证灾备中心的业务系统是否完全正常。因此当完成容灾切换后,需要自动化或人工验证关键的测试用例。


清晰准确的执行步骤。理想的状态,是不强依赖操作人员的经验、图文结合、无歧义、自动化和白屏化。在一些大型的项目中,由于应用系统的依赖关系非常复杂,每一部分依赖关系都有专业化的分工。因此,一个合理的做法,是在操作手册中注明每个环节的负责团队,整合或链接至对应团队的操作手册文档。


场景化的步骤。根据上一节中的容灾场景分类,以场景为目录分类的依据,分别描述操作步骤。


可行的应急预案。当容灾切换过程中发生异常,或容灾切换后业务效果不达预期时,有提前准备好的应急预案,用于止血和恢复正常。应急预案应包括已知风险的技术手段和未知风险的技术手段及关键联系人清单。



《云上容灾交付服务白皮书》——3交付标准化参考框架——3.4演练方案设计(3) https://developer.aliyun.com/article/1229852?groupCode=supportservice

相关文章
|
NoSQL Redis 数据库
深入理解redis cluster的failover机制
社区版redis cluster是无中心节点P2P的集群架构,内部采用gossip协议传递维护集群的拓扑结构和集群元数据。社区文档地址:https://redis.io/topics/cluster-tutorial failover是redis cluster提供的容错机制,cluster最核心的功能之一。
13773 0
|
9月前
|
存储 弹性计算 运维
保障业务连续性,企业灾备建设新思路
本次分享主题为“保障业务连续性,企业灾备建设新思路”,由阿里云专家李媛和胡航丽主讲。内容涵盖企业业务连续性与灾备建设的重要性、新产品及其界面特点、Regional ESID、云备份Call back up、跨账号备份等。重点介绍了数据灾备中心BDRC,其具备全面覆盖阿里云资源、可视化设计、简化运维等特点,帮助企业高效实现数据灾备及合规管理。同时,针对企业面临的灾备挑战,如勒索病毒攻击、数据误删等,提供了不可变备份、自动病毒检测等功能,确保数据安全性和业务连续性。最后,通过案例展示了如何通过云备份服务满足企业的高阶需求,降低运维成本并提高效率。
225 13
|
存储 人工智能 监控
云端护航:企业灾备策略与实践
云灾备已经成为现代企业不可或缺的一部分,它不仅能够帮助企业快速从灾难中恢复,还能提升整体的业务连续性和数据安全性。随着云计算技术的发展,未来的云灾备将会更加智能化、自动化,更好地满足企业在数字化转型过程中的需求。
|
SQL 分布式计算 DataWorks
DataWorks产品使用合集之在DataWorks的数据开发模式中,在presql和postsql中支持执行多条SQL语句如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
397 1
|
分布式计算 API Spark
Spline部署&测试
Spline是Spark的元数据管理和血缘追踪工具,通过Docke部署。安装涉及下载docker-compose.yml和.env文件,使用`docker compose up -d`命令启动,包括rest-server(核心,处理血缘数据并存储在ArangoDB)、arangodb(多模型数据库)、ui(Web服务)等组件。测试中使用pyspark进行血缘捕获,通过spark-submit命令指定Spline相关依赖并连接到Spline服务器。成功后,血缘数据可在Spline UI中查看。未来计划在DolphinScheduler上测试Spark SQL任务并启用血缘追踪。
623 0
|
运维 容灾
《云上容灾交付服务白皮书》——3交付标准化参考框架——3.4演练方案设计(3)
《云上容灾交付服务白皮书》——3交付标准化参考框架——3.4演练方案设计(3)
244 0
|
机器学习/深度学习 数据可视化 算法
多项式Logistic逻辑回归进行多类别分类和交叉验证准确度箱线图可视化
多项式Logistic逻辑回归进行多类别分类和交叉验证准确度箱线图可视化
|
JSON API 数据格式
Postman 导入导出API 的用法
Postman 导入导出API 的用法
1370 0
|
SQL 存储 运维
带你读《Apache Doris 案例集》——08秒级数据写入,毫秒查询响应,天眼查基于 Apache Doris 构建统一实时数仓(1)
带你读《Apache Doris 案例集》——08秒级数据写入,毫秒查询响应,天眼查基于 Apache Doris 构建统一实时数仓(1)
622 0
|
Ubuntu Linux 开发工具
阿里云主机的Milk-V Duo开发板python环境搭建
Milk-V Duo是一款基于算能CV1800B芯片的开发板。搭载阿里云平头哥玄铁C906处理器核心,最高频率为1GHz,视频解码、2D图形加速能力强,可应用于智能语音、智能汽车及高清显示等领域。开发板身材小巧,大小和树莓派Pico相当,引脚也基本一致,但是功能更强大一些,能够运行基于LINUX和RTOS的操作系统。
1400 0