带你读《云上自动化运维宝典》——一文详解云上跨可用区容灾解决方案和异地多活能力建设最佳案例(3)

本文涉及的产品
轻量应用服务器 2vCPU 4GiB,适用于搭建容器环境
轻量应用服务器 2vCPU 1GiB,适用于搭建电商独立站
轻量应用服务器 2vCPU 4GiB,适用于网站搭建
简介: 带你读《云上自动化运维宝典》——一文详解云上跨可用区容灾解决方案和异地多活能力建设最佳案例(3)

更多精彩内容,欢迎观看:

带你读《云上自动化运维宝典》——一文详解云上跨可用区容灾解决方案和异地多活能力建设最佳案例(2):https://developer.aliyun.com/article/1405311


4. 云上容灾建设最佳实践

1)    建设路径

 

image.png

 

以上这张图片是阿里云对外提供的云上容灾交付服务白皮书中关于云上建设容灾能力的路径说明,主要分成五个步骤:

(1)需求分析 

在该阶段,主要关注服务是否需要进行容灾建设,以及需要建设到何种程度的容灾能力。因为对于业务不同的阶段,所要关注的重点也不同。如对于起步阶段的业务,其更多关注的是如何吸引更多的客户;

 

第一阶段发展过后,客户数量有了一定程度的增加,此时则会对应用带来更高的流量,此时更关注的是如何建设应用的稳定性,如高并发或慢搜克的问题,该阶段一般采用同城双活的容灾架构。即可满足大部分的诉求;

 

再进一步,如果业务发展成了国民级别,或公司的基础层面的设施服务,则要考虑进一步的容灾能力的建设,包括异地双活火或异地多活的容灾能力。

 

因此,要基于自身业务的发展情况及自身应用的特征分析所需的应用的容灾要满足怎样的诉求,定义具体的RTORPO。即使是同一公司,不同的应用、不同的服务对容灾的诉求也是不同的。比如库存服务,因为库存对数据一致性要求非常高,因此库存一类的服务就不太适合进行异地多活或异地双活的容灾架构建设。

(2)现状调研

包括去分析每个应用的情况(不同的应用对业务的重要程度不同,对容灾的诉求也不同),云平台的调研(如云平台上能提供哪些容灾能力,可以在哪些层面降低容灾建设的成本),以及基础设施层面的调研。在调研阶段,可以产出调研报告指导设计工作。

3)容灾方案设计

包括总体的容灾方案,云平台方面进行容灾部署的方案,应用层面要进行容灾方面的改造设计,以及在具体的应用容灾部署方案。这一阶段可以产出应用容灾的方案以及平台容灾的方案。 

 

∙        容灾能力的演练设计

包括要进行哪些场景的演练,对应的应急预案如何,DRP方案如何。这个阶段可以产出容灾演练的方案。

 

∙        演练的实施

包括演练如何操作,演练之后内部的复盘会议。通过演练的实施,可以产出容灾演练报告,进行相应的查漏补缺,以完善系统整体的容灾能力。

2)    同城双活

接下来以具体的云上同城双活容灾建设为例,学习在云上如何做容灾能力建设。

 

image.png

 

在云上进行容灾建设,目前云上很多的云产品都已经具备了容灾的能力,可以大幅降低自身业务层面落地容灾能力时的成本。这里主要从计算高可用、存储高可用,以及业务改造层面学习在云上做同城双火时,可以借助云上的哪些服务降低容灾能力建设的成本。

 

首先,在应用高可用部署层面,可以采用跨可用区的ECSECI进行冗余部署。ECS主要解决的是VM层面部署的技术部署方案,ECI可以解决容器层面的技术部署方案。如果服务目前还是在云下,未部署到云上,可以考虑使用服务器迁移中心SMC云产品把线下的云下的服务栏快速部署上云,甚至服务无需要中断。如果服务已经部署在云上,为了进行同城双活容灾,则需要将服务同从一个可用区快速部署到另外一个可用区,则可以考虑使用资源编排ROS云产品,满足服的一键快速部署。最上层还需要进行流量的负债均衡,可以考虑使用SLB的多可用区部署。

 

在存储高可用方面,主要关注数据库以及缓存中间件、消息中间件以及文件的存储。在这一层面,很多云产品也都提供具备容灾能力的产品服务,包括说云数据库RDS的高可用系列多可用区部署方案,云数据库 Redis高可用系列双可用区部署方案,消息队列 RocketMQ 版,它本身具备容灾能力,以及OSS 同城冗余存储。

 

在具体的业务改造层面,首先要做的是业务要支持读写分离,第二为了满足更好的应用性能,应尽量是做到可用区内部RPC流量的封闭。基本上,目前主流的W3等都支持该能力的。

3)异地双活

异地双活由于两个数据中心距离较远,直线距离大于1000千米。

 

在计算高可用方面,除了刚提到的应用高可用容灾部署,以及流量的负债均衡之外,还需要跨地域高可用的网络服务,推荐使用云企业网CEN云产品,它可以帮助我们构建数据中心之间较高质量的网络链路。

 

在数据存储的高可用方面,除了刚才提到的数据库高可用、缓存组件的高可用、消息组件高可用和文件存储高可用之外,由于涉及到数据中心广域网的数据同步,还需要进行数据双向同步服务,可以采用数据传输服务DTS云产品,帮助我们解决包括常见数据库以及数据类的中间件组件层面的数据的双向同步能力。

 

最大的挑战还是在业务改造层面,在业务改造层面,除了要继续支持RPC流量内部封闭之外,还需要在最上层进行业务路由层的改造、业务单元化的划分以及一些读写分离方面的改造。这里的路由层还要满足使得相同特征的流量尽量能够在单个数据中心闭环处理。如果使用的是地理位置方面的路由服务,可以考虑使用云解析 DNS - 智能DNS解析能力,前面提到ECS内部的Web应用现在采用的异地多活全球化的容灾架构最上层的DNS是解析使用的云解析 DNS - 智能DNS解析能力。

 

异地双活对业务改造成本较高,因此,我们推荐进一步采用阿里云提供的多活容灾 MSHA云产品,进一步降低在业务层面的改造成本。

 

image.png

 

最后就本次的交流内容进行简单的总结和回顾。

 

image.png

 

在第一部分的内容中介绍了系统容灾方面的内容,包括常见的故障类型,特别是市政方面的断电断网以及自然灾害方面的故障。在介绍故障的同时,以具体的案例展开讲解了在云上也需进行容灾方面的能力建设,以避免此类故障对业务产生的致命的影响。此外,还介绍了常见的容灾级别,包括同城级别的容灾,异地级别的容灾,以及同城容灾和异地容灾的组合形态。

 

在第二部分,介绍了业界比较主流的容灾架构,以及在容灾能力方面比较有影响力的两个评价指标,分别是RPORTO。在主流容灾架构对比中,详细展开介绍了包括同城灾备、同城双活、异地双活和异地多活四种容灾架构。

 

在第三部分,就ECS团队内部某具体Web服务在业务不同的发展阶段采用不同的容灾架构的思考和实践进行了详细的介绍。包括在应用的起初始阶段采用的同城双火容灾架构,以及随着业务的快速发展和客户数量的增加,逐渐演变到单元化和全球化容灾架构。

 

最后一部分,介绍了在云上如何进行容灾能力的建设,包括在云上如何进行容灾建设的最佳实践路径,以及具体地在云上如何进行同城双活和异地双活能力的建设。在具体的案例介绍中,还介绍了包括在计算高可用、存储高可用以及业务具体的改造方面的一些内容,以及相关的具备灾备能力的云产品,在云上进行容灾能力建设的同时,借助这样云产品可以大幅降低在云上容灾建设的成本。

 

以上就是本节课程的全部内容

《云上自动化运维宝典》:https://developer.aliyun.com/ebook/8220

目录
打赏
0
0
0
0
1034
分享
相关文章
智能运维,由你定义:SAE自定义日志与监控解决方案
通过引入 Sidecar 容器的技术,SAE 为用户提供了更强大的自定义日志与监控解决方案,帮助用户轻松实现日志采集、监控指标收集等功能。未来,SAE 将会支持 istio 多租场景,帮助用户更高效地部署和管理服务网格。
271 51
云上DevOps自动化的最佳实践
本文介绍了云上DevOps自动化最佳实践,重点探讨了企业在上云过程中面临的成本管理、运维效率和弹性等问题。通过阿里云的产品和服务,企业可以实现自动化的资源管理、成本优化和高效运维。文章详细阐述了如何利用标签进行成本分析、选择合适的付费类型和实例规格、以及通过弹性伸缩降低成本。此外,还介绍了新功能发布,如统一的实例运维通道界面、AI辅助的运维工具等,帮助企业提升云上业务的管理和运营效率。
阿里云携手神州灵云打造云内网络性能监测标杆 斩获中国信通院高质量数字化转型十大案例——金保信“云内网络可观测”方案树立云原生运维新范式
2025年,金保信社保卡有限公司联合阿里云与神州灵云申报的《云内网络性能可观测解决方案》入选高质量数字化转型典型案例。该方案基于阿里云飞天企业版,融合云原生引流技术和流量“染色”专利,解决云内运维难题,实现主动预警和精准观测,将故障排查时间从数小时缩短至15分钟,助力企业降本增效,形成可跨行业复制的数字化转型方法论。
idc机房智能运维解决方案
华汇数据中心一体化智能运维方案应运而生,以“自主可控、精准洞察、智能决策”三大核心能力,助力企业实现运维效率提升与综合成本下降的数字化转型目标。
116 24
自动化与统一管理:Websoft9 平台为教师提供的一站式解决方案
教育场景常面临资源分散、技术门槛高、资源利用低效及安全风险等问题。Websoft9 提供自动化部署与统一管理方案,通过预集成应用模板库、容器化资源隔离和智能运维监控等技术,大幅缩短环境搭建时间,提升资源利用率并保障数据安全。其典型应用场景包括混合教学环境搭建、科研项目管理和实验课程弹性扩展,助力高校降低成本、提高效率。Websoft9 的图形化界面降低技术门槛,支持自定义开发,推动教育数字化转型,未来有望成为教学生产力提升的底层基座。
53 6
智能运维,由你定义:SAE自定义日志与监控解决方案
SAE(Serverless应用引擎)是阿里云推出的全托管PaaS平台,致力于简化微服务应用开发与管理。为满足用户对可观测性和运维能力的更高需求,SAE引入Sidecar容器技术,实现日志采集、监控指标收集等功能扩展,且无需修改主应用代码。通过共享资源模式和独立资源模式,SAE平衡了资源灵活性与隔离性。同时,提供全链路运维能力,确保应用稳定性。未来,SAE将持续优化,支持更多场景,助力用户高效用云。
140 2
Prometheus+Grafana+NodeExporter:构建出色的Linux监控解决方案,让你的运维更轻松
本文介绍如何使用 Prometheus + Grafana + Node Exporter 搭建 Linux 主机监控系统。Prometheus 负责收集和存储指标数据,Grafana 用于可视化展示,Node Exporter 则采集主机的性能数据。通过 Docker 容器化部署,简化安装配置过程。完成安装后,配置 Prometheus 抓取节点数据,并在 Grafana 中添加数据源及导入仪表盘模板,实现对 Linux 主机的全面监控。整个过程简单易行,帮助运维人员轻松掌握系统状态。
593 3
构建全天候自动化智能导购助手:从部署者的视角审视Multi-Agent架构解决方案
在构建基于多代理系统(Multi-Agent System, MAS)的智能导购助手过程中,作为部署者,我体验到了从初步接触到深入理解再到实际应用的一系列步骤。整个部署过程得到了充分的引导和支持,文档详尽全面,使得部署顺利完成,未遇到明显的报错或异常情况。尽管初次尝试时对某些复杂配置环节需反复确认,但整体流程顺畅。
111 3
云计算环境下的运维挑战与解决方案
本文探讨了云计算环境中运维面临的主要挑战,包括资源管理、自动化部署、安全性问题等,并提出了相应的解决策略。通过案例分析和最佳实践,为云环境下的运维工作提供了指导和参考。
233 1
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等