多集群协同,构建企业级 K8s 容灾方案

简介: 多集群管理伴随着一系列严峻挑战:如何在复杂的多集群环境中实现统一管理、高效运维、应用分发和资源调度。尤为重要的是,如何构建具备强大韧性的多集群容灾方案,确保业务连续性成为企业核心关切。阿里云ACK One助力企业构建多集群容灾体系,支持统一管理、应用分发与跨云容灾。通过多集群网关和ASM服务网格,实现集群级与Service级双活容灾,保障业务高可用与数据零丢失,赋能企业应对复杂环境挑战。

以下内容整理自阿里云容器产品专家穆寰在 2025 云栖大会“AI 时代的基础设施:容器计算的实践与突破”分论坛演讲分享。


多集群时代:机遇与挑战并存


十年前,Kubernetes仍是前沿概念;十年后的今天,随着企业业务的蓬勃发展,K8s 已成为数字化基础设施的核心平面。众多企业因业务隔离刚需、全球化战略要求,或为追求极致的系统韧性与扩展能力,纷纷迈入多集群时代。


然而,多集群管理伴随着一系列严峻挑战:如何在复杂的多集群环境中实现统一管理、高效运维、应用分发和资源调度。尤为重要的是,如何构建具备强大韧性的多集群容灾方案,确保业务连续性成为企业核心关切。


多集群环境的管理复杂度远超单集群,对企业IT组织形成全方位挑战:平台运维人员面临着跨云、跨区域集群治理的难题,如何统一监控,并在故障时高效定位等;安全工程师需关注合规性失控风险,确保每个集群遵循合规配置与最小权限原则;高级架构师则还会进一步期望实现应用的统一分发与弹性调度,以提高资源利用率。


针对这些痛点,阿里云容器服务 ACK One 沉淀了并打磨了一系列产品能力,并通过服务客户场景持续提升产品价值:

  • 统一集群管理: 极氪汽车通过 ACK One 统一管理数十个异构 K8s 集群,基于统一可观测性和 FinOps 功能,在保障业务稳定与性能的同时,每年节约数百万 IT 成本。
  • 统一应用管理: 万兴科技凭借 ACK One GitOps,将全球应用分发效率提升 50%,显著加速了 AIGC 软件的交付。
  • 统一业务容灾: 为全球企业提供财务服务的合思科技,基于 ACK One 与 ASM 构建了业界领先的跨云容灾方案,确保业务高可用。


阿里云分布式容器平台 ACK One 围绕统一集群管理、统一应用管理、统一资源调度和统一业务容灾四大核心诉求持续演进,不断交付创新功能,赋能企业应对多集群挑战。本文接下来将重点聚焦 ACK One 帮助企业构建业务多活容灾架构。


多 K8s 集群容灾策略:分层防护,极致可用


构建企业级容灾架构需全面考虑流量层、应用层与数据层。本次讨论侧重于应用层容灾,并辅以流量层防护,数据层不在本次探讨范围。

ACK One 的容灾与高可用方案,依据切流颗粒度可分为两类:

  1. 集群维度多活容灾当发生整体故障时,将所有业务流量从故障集群整体切换至健康集群。
  2. Service 维度多活容灾:在某个集群的 特定服务 Service 异常中断时,仅切换这部分流量到其他集群中可用的 Service 端点。

这两类方案均旨在实现 RPO (恢复点目标) 和 RTO (恢复时间目标) 等于 0 的多活容灾,确保业务连续性与数据零丢失。


基于 ACK One 注册集群的混合云容灾


面对混合云部署场景,非阿里云 K8s 集群如何融入统一容灾体系?核心在于将其注册为 ACK One 注册集群。通过在目标集群部署多副本 connector pod,ACK One 得以建立安全通信通道。注册后,这些集群不仅能补充获得ECS/ACS 算力、可观测性/FinOps 及安全等阿里云能力,而且还能作为子集群被 ACK One 舰队统一管理。


对于已采用 Istio 技术栈的用户,可选择阿里云 ASM 服务网格托管 Istio 控制面。为提升跨云、跨 Region 集群的网格配置推送效率,推荐开启 ASM 的多主控制面架构,有效降低延迟,保障策略及时生效。

方案一:集群维度双活容灾实践

在混合云双 K8s 集群的对等部署场景下,ACK One 提供成熟的集群维度双活容灾方案。其核心在于多集群网关


多集群网关通过单一实例统一管理多个集群的 Ingress 路由,显著降低了网关数量与配置成本。多集群网关,客户可以根据业务需求或习惯,按需使用 ALB 网关、MSE 网关或 ASM 网关,三者都支持多个可用区高可用部署,确保网关自身可靠性。在多集群网关前,还可以叠加使用 DNS GTM 配置转发规则,实现如自动就近接入等智能流量调度。


举例说明,日常情形下,两个集群各自承担 50% 流量。当故障发生时,故障集群的整体流量会自动平滑切换到健康集群。这个过程中需要注意监控集群状态,确保应用是否及时扩容、关键服务是否需调整限流熔断等保护措施;故障解除后也要平稳安全地恢复流量。

方案二:Service 维度多活容灾实践


当故障仅限于集群内某个特定服务时,Service 维度容灾策略能提供更精细的防护。这正是 Istio 服务网格发挥其核心价值的场景。 服务网格ASM支持打通多个集群的服务发现以及网络互访,结合多地域、多集群的服务对等部署模式,在任意的服务发生故障时,只要集群中还存在可用的服务工作负载实例,服务网格 ASM(Service Mesh)都可以秒级对流量目标实现无感切换,保证业务应用在全局的可用性。具体可以参看文档: https://mp.weixin.qq.com/s/aUaCgU-YTyq_300kRxMo7A


在 Istio 经典的 Sidecar 模式中:每个服务(Pod)旁注入一个智能代理。所有进出服务的东西向流量均经由 Sidecar 处理。当上游服务(如 Reviews)需调用下游服务(如 Ratings),而下游服务在当前集群出现故障时,Istio 服务网格的自动化机制将启动。


Istio 控制面会实时感知服务实例的健康状态。一旦检测到本地集群的 Ratings 服务异常,它将指示 Reviews 服务旁的 Sidecar 代理,透明地将请求路由至远程集群中可用且健康的 Ratings 服务实例。


这一过程对应用完全无感知Reviews 服务无需修改代码,无需变更配置。所有故障检测、服务地址更新、流量路由决策及执行,均由 Istio 服务网格在底层自动化完成,确保业务连续性,大幅简化了开发与运维复杂性。



ASM 的多主控制面架构进一步提升了 Istio 容灾能力。通过在不同地域部署多个 Istio/ASM 控制面实例,共同管理多个 K8s 集群。每个控制面管理本 Region 集群,同时发现并感知对侧 Region 的服务信息。


该架构带来两大核心优势:

  • Istio 控制面 Region 级别多活: 确保即使单一 Region 的控制面故障,其他控制面仍能正常运行,提供管理与控制能力。
  • 网格配置隔离性: 有效隔离配置故障的影响,简化运维。


在跨集群网络不互通的场景(如IP 地址冲突、专线建设周期长等),传统的跨集群服务容灾面临挑战。ASM 跨集群网格代理在此发挥关键作用。


ASM 跨集群网格代理能在公网上创建并暴露加密、安全的访问端点。即使底层网络不互通,跨集群流量也能安全流转,并路由至可用 Pod。全程保持 mTLS 加密通信,确保数据在传输过程中的机密性与完整;相较于开源 Istio,ASM 还提供七层客户端负载均衡,为复杂环境下的跨集群服务互联提供了安全可靠的解决方案。


服务平台幕后英雄,容器创新永不停歇


阿里云 ACK One 容器产品家族,始终致力于为企业级平台工程师——这些肩负平台稳定重任、全力支撑业务发展的“幕后英雄”——提供强大支撑。


众多客户已通过 ACK One 舰队统一管理数十上百的集群,成功构建了双活、甚至三活的极致容灾方案。我们深感荣幸与感激,能与客户携手,共同见证并推动业务场景与技术的不断演进。


阿里云 ACK One 将持续谨记每一位客户的信任与期待,砥砺前行,与客户共同开创云原生新未来。

相关实践学习
深入解析Docker容器化技术
Docker是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。Docker是世界领先的软件容器平台。开发人员利用Docker可以消除协作编码时“在我的机器上可正常工作”的问题。运维人员利用Docker可以在隔离容器中并行运行和管理应用,获得更好的计算密度。企业利用Docker可以构建敏捷的软件交付管道,以更快的速度、更高的安全性和可靠的信誉为Linux和Windows Server应用发布新功能。 在本套课程中,我们将全面的讲解Docker技术栈,从环境安装到容器、镜像操作以及生产环境如何部署开发的微服务应用。本课程由黑马程序员提供。     相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
目录
相关文章
|
2月前
|
人工智能 自然语言处理 监控
2025 精选|免费 AI Agent 工具大盘点,轻松搞定日常琐事与商业流程
2025年,AI Agent成科技热点,免费工具助力个人与企业提效。本文盘点多款实用免费AI Agent,涵盖效率、协作、数据分析等场景,重点推荐从RPA进化而来的商业级工具实在Agent,助你轻松入门智能自动化时代。
753 8
|
存储 Kubernetes Linux
helm 简介及基本使用
helm 简介及基本使用
3785 0
helm 简介及基本使用
|
Kubernetes Devops jenkins
ArgoCD 简明教程
ArgoCD 简明教程
3174 0
ArgoCD 简明教程
|
3月前
|
jenkins Java 应用服务中间件
Jenkins 、gitlab、实现CICD持续集成
本文介绍了GitLab与Jenkins的完整安装配置流程。涵盖环境依赖、RPM包安装、配置修改、服务启停及汉化、SSH密钥设置等内容,并详细说明Jenkins插件管理与初始密码获取,助力搭建高效DevOps平台。
134 0
|
2月前
|
Kubernetes 负载均衡 网络协议
裸机 Kubernetes 负载均衡全景:从 MetalLB、Service 到 Ingress,再到云厂商实现原理
本文系统解析裸机Kubernetes中MetalLB、Service与Ingress的协作机制,深入剖析LoadBalancer实现原理,对比云厂商方案,揭示高可用、IP稳定与网络分层真相,助你构建媲美公有云的生产级流量入口体系。
|
监控 应用服务中间件 BI
nginx日志统计分析自动报表工具goaccess(推荐)
## 功能描述 - nginx日志统计分析自动报表工具goaccess(推荐) - 网站总访问量统计,按天统计访问量,按页面(不同URL)统计访问量(不包括JS、css),按静态页面统计访问量(包括JS、css),不存在的页面统计访问量 - 按不同的IP统计访问量,按不同的操作系统统计访问量,...
8466 0
|
3月前
|
Kubernetes Cloud Native 调度
寻因生物 × 阿里云 ACS:Argo Workflows 驱动的基因分析新范式
国家级专精特新“小巨人”企业寻因生物[1],基于阿里云容器服务全托管工作流引擎 Argo Workflows[2] (以下简称:全托管 Argo Workflows)与容器计算服务 ACS[3](以下简称:ACS)构建的了新一代基因生信分析平台。该平台实现生信流程编排效率提升 70%、计算成本降低超 50%、运维复杂度下降 70%,为单细胞、空间转录组、表观测序技术等前沿研究提供了高效、弹性、标准化的算力基础设施。
264 1
|
7月前
|
机器学习/深度学习 人工智能 Kubernetes
Argo Workflows 加速在 Kubernetes 上构建机器学习 Pipelines
Argo Workflows 是 Kubernetes 上的工作流引擎,支持机器学习、数据处理、基础设施自动化及 CI/CD 等场景。作为 CNCF 毕业项目,其扩展性强、云原生轻量化,受到广泛采用。近期更新包括性能优化、调度策略增强、Python SDK 支持及 AI/大数据任务集成,助力企业高效构建 AI、ML、Data Pipelines。
762 1
|
10月前
|
弹性计算 运维 自动驾驶
首个云超算国标正式发布!
近日,我国首个云超算国家标准GB/T 45400-2025正式发布,将于今年10月实施。该标准由阿里云联合多家机构起草,为云超算在高性能计算领域的应用提供规范。云超算结合传统HPC与云计算优势,解决传统HPC复杂、昂贵等问题。阿里云E-HPC V2.0是国内首批通过该标准认证的产品,支持大规模弹性计算,显著降低成本。新标准将推动算力基础设施迈向标准化、智能化新时代。
|
存储 Kubernetes 调度