以下内容整理自阿里云容器产品专家穆寰在 2025 云栖大会“AI 时代的基础设施:容器计算的实践与突破”分论坛演讲分享。
多集群时代:机遇与挑战并存
十年前,Kubernetes仍是前沿概念;十年后的今天,随着企业业务的蓬勃发展,K8s 已成为数字化基础设施的核心平面。众多企业因业务隔离刚需、全球化战略要求,或为追求极致的系统韧性与扩展能力,纷纷迈入多集群时代。
然而,多集群管理伴随着一系列严峻挑战:如何在复杂的多集群环境中实现统一管理、高效运维、应用分发和资源调度。尤为重要的是,如何构建具备强大韧性的多集群容灾方案,确保业务连续性成为企业核心关切。
多集群环境的管理复杂度远超单集群,对企业IT组织形成全方位挑战:平台运维人员面临着跨云、跨区域集群治理的难题,如何统一监控,并在故障时高效定位等;安全工程师需关注合规性失控风险,确保每个集群遵循合规配置与最小权限原则;高级架构师则还会进一步期望实现应用的统一分发与弹性调度,以提高资源利用率。
针对这些痛点,阿里云容器服务 ACK One 沉淀了并打磨了一系列产品能力,并通过服务客户场景持续提升产品价值:
- 统一集群管理: 极氪汽车通过 ACK One 统一管理数十个异构 K8s 集群,基于统一可观测性和 FinOps 功能,在保障业务稳定与性能的同时,每年节约数百万 IT 成本。
- 统一应用管理: 万兴科技凭借 ACK One GitOps,将全球应用分发效率提升 50%,显著加速了 AIGC 软件的交付。
- 统一业务容灾: 为全球企业提供财务服务的合思科技,基于 ACK One 与 ASM 构建了业界领先的跨云容灾方案,确保业务高可用。
阿里云分布式容器平台 ACK One 围绕统一集群管理、统一应用管理、统一资源调度和统一业务容灾四大核心诉求持续演进,不断交付创新功能,赋能企业应对多集群挑战。本文接下来将重点聚焦 ACK One 帮助企业构建业务多活容灾架构。
多 K8s 集群容灾策略:分层防护,极致可用
构建企业级容灾架构需全面考虑流量层、应用层与数据层。本次讨论侧重于应用层容灾,并辅以流量层防护,数据层不在本次探讨范围。
ACK One 的容灾与高可用方案,依据切流颗粒度可分为两类:
- 集群维度多活容灾:当发生整体故障时,将所有业务流量从故障集群整体切换至健康集群。
- Service 维度多活容灾:在某个集群的 特定服务 Service 异常中断时,仅切换这部分流量到其他集群中可用的 Service 端点。
这两类方案均旨在实现 RPO (恢复点目标) 和 RTO (恢复时间目标) 等于 0 的多活容灾,确保业务连续性与数据零丢失。
基于 ACK One 注册集群的混合云容灾
面对混合云部署场景,非阿里云 K8s 集群如何融入统一容灾体系?核心在于将其注册为 ACK One 注册集群。通过在目标集群部署多副本 connector pod,ACK One 得以建立安全通信通道。注册后,这些集群不仅能补充获得ECS/ACS 算力、可观测性/FinOps 及安全等阿里云能力,而且还能作为子集群被 ACK One 舰队统一管理。
对于已采用 Istio 技术栈的用户,可选择阿里云 ASM 服务网格托管 Istio 控制面。为提升跨云、跨 Region 集群的网格配置推送效率,推荐开启 ASM 的多主控制面架构,有效降低延迟,保障策略及时生效。
方案一:集群维度双活容灾实践
在混合云双 K8s 集群的对等部署场景下,ACK One 提供成熟的集群维度双活容灾方案。其核心在于多集群网关。
多集群网关通过单一实例统一管理多个集群的 Ingress 路由,显著降低了网关数量与配置成本。多集群网关,客户可以根据业务需求或习惯,按需使用 ALB 网关、MSE 网关或 ASM 网关,三者都支持多个可用区高可用部署,确保网关自身可靠性。在多集群网关前,还可以叠加使用 DNS GTM 配置转发规则,实现如自动就近接入等智能流量调度。
举例说明,日常情形下,两个集群各自承担 50% 流量。当故障发生时,故障集群的整体流量会自动平滑切换到健康集群。这个过程中需要注意监控集群状态,确保应用是否及时扩容、关键服务是否需调整限流熔断等保护措施;故障解除后也要平稳安全地恢复流量。
方案二:Service 维度多活容灾实践
当故障仅限于集群内某个特定服务时,Service 维度容灾策略能提供更精细的防护。这正是 Istio 服务网格发挥其核心价值的场景。 服务网格ASM支持打通多个集群的服务发现以及网络互访,结合多地域、多集群的服务对等部署模式,在任意的服务发生故障时,只要集群中还存在可用的服务工作负载实例,服务网格 ASM(Service Mesh)都可以秒级对流量目标实现无感切换,保证业务应用在全局的可用性。具体可以参看文档: https://mp.weixin.qq.com/s/aUaCgU-YTyq_300kRxMo7A
在 Istio 经典的 Sidecar 模式中:每个服务(Pod)旁注入一个智能代理。所有进出服务的东西向流量均经由 Sidecar 处理。当上游服务(如 Reviews)需调用下游服务(如 Ratings),而下游服务在当前集群出现故障时,Istio 服务网格的自动化机制将启动。
Istio 控制面会实时感知服务实例的健康状态。一旦检测到本地集群的 Ratings 服务异常,它将指示 Reviews 服务旁的 Sidecar 代理,透明地将请求路由至远程集群中可用且健康的 Ratings 服务实例。
这一过程对应用完全无感知:Reviews 服务无需修改代码,无需变更配置。所有故障检测、服务地址更新、流量路由决策及执行,均由 Istio 服务网格在底层自动化完成,确保业务连续性,大幅简化了开发与运维复杂性。
ASM 的多主控制面架构进一步提升了 Istio 容灾能力。通过在不同地域部署多个 Istio/ASM 控制面实例,共同管理多个 K8s 集群。每个控制面管理本 Region 集群,同时发现并感知对侧 Region 的服务信息。
该架构带来两大核心优势:
- Istio 控制面 Region 级别多活: 确保即使单一 Region 的控制面故障,其他控制面仍能正常运行,提供管理与控制能力。
- 网格配置隔离性: 有效隔离配置故障的影响,简化运维。
在跨集群网络不互通的场景(如IP 地址冲突、专线建设周期长等),传统的跨集群服务容灾面临挑战。ASM 跨集群网格代理在此发挥关键作用。
ASM 跨集群网格代理能在公网上创建并暴露加密、安全的访问端点。即使底层网络不互通,跨集群流量也能安全流转,并路由至可用 Pod。全程保持 mTLS 加密通信,确保数据在传输过程中的机密性与完整;相较于开源 Istio,ASM 还提供七层客户端负载均衡,为复杂环境下的跨集群服务互联提供了安全可靠的解决方案。
服务平台幕后英雄,容器创新永不停歇
阿里云 ACK One 容器产品家族,始终致力于为企业级平台工程师——这些肩负平台稳定重任、全力支撑业务发展的“幕后英雄”——提供强大支撑。
众多客户已通过 ACK One 舰队统一管理数十上百的集群,成功构建了双活、甚至三活的极致容灾方案。我们深感荣幸与感激,能与客户携手,共同见证并推动业务场景与技术的不断演进。
阿里云 ACK One 将持续谨记每一位客户的信任与期待,砥砺前行,与客户共同开创云原生新未来。