阿里云 ACK 高可用稳定性最佳实践

本文涉及的产品
无影云电脑个人版,1个月黄金款+200核时
资源编排,不限时长
无影云电脑企业版,4核8GB 120小时 1个月
简介: 本文整理自2024云栖大会刘佳旭的演讲,主题为《ACK高可用稳定性最佳实践》。文章探讨了云原生高可用架构的重要性,通过Kubernetes的高可用案例分析,介绍了ACK在单集群高可用架构设计、产品能力和最佳实践方面的方法,包括控制面和数据面的高可用策略、工作负载高可用配置、企业版容器镜像服务高可用配置等内容,旨在帮助企业构建更加可靠和高效的应用运行环境。

本文整理自2024云栖大会刘佳旭演讲


引言


大家好,我是来自弹性计算容器服务的技术专家刘佳旭(花名:佳旭),很荣幸今天有机会做分享,我今天分享的主题是《ACK高可用稳定性最佳实践》。


随着云原生技术的快速发展以及在企业IT领域的深入应用,云原生场景下的高可用架构,对于企业服务的可用性、稳定性、安全性越发重要。通过合理的架构设计和云平台的技术支持,云原生高可用架构可以提供高可用性、弹性扩展性、简化运维管理、提升可靠性和安全性等多方面的优势,为企业提供了更加可靠和高效的应用运行环境。


Kubernetes是云原生的核心技术之一,提供了容器编排和管理的能力,包括基础设施自动化、弹性扩展性、微服务架构和自动化运维等,Kubernetes的应用高可用架构是云原生高可用的基石。本次会以阿里云容器服务ACK(Alibaba  Cloud Container Service for Kubernetes)为例,介绍基于ACK的应用高可用架构和治理的最佳实践。



Kubernetes集群的

高可用场景的错误案例和痛点!


高可用架构容灾设计是K8s系统稳定性的基石,在生产环境有非常重要的意义。


我们先来看一下Kubernetes集群的高可用场景的错误案例和痛点,然后再看看ACK是如何通过架构设计、产品能力和最佳实践来应对这些问题的。


图片.png


案例一:集群节点单可用区部署,可用区级别异常导致服务下线


在集群节点单可用区部署的场景中,K8s集群中的节点都被部署在同一个可用区中,可用区级别的异常(如可用区网络故障、硬件故障等)可能导致整个集群中的服务不可用。


案例二:集群节点多可用区部署,业务Pod没有配置按可用区打散


用户通过配置Pod打散调度规则,K8s自动将Pod分散调度到多可用区,从而确保某一可用区发生故障时集群范围内业务仍然能够正常运行。


在集群节点多可用区部署的场景中,如果业务Pod没有配置按可用区均匀打散,单可用区故障依然可能导致业务全部或者部分受损、服务下线。


案例三:对集群应用可用性、可用区维度节点可用性的健康监控告警不足


K8s层面应用的高可用监控对业务至关重要,需要在部分受损的情况下就可以告警或者通知自愈系统进行修复,可以显著提升1-5-10的快速告警能力;可用区级别健康节点监控,可以感知集群层面底层资源可用性并进行告警。


案例四:多集群的应用分发、流量控制以及高可用管理复杂


多个集群的应用分发、安全策略、流量控制、全局监控、作业分发如果没有统一管理平台纳管,会带来显著的复杂性。 在ACK的产品能力上,可以通过ACK  One Fleet舰队,统一管理多个集群实例来提高整个系统的可用性,并在单个集群出现问题时自动切换到另一个集群实例上,从而保证系统的稳定运行。


ACK单集群高可用架构


在总结了常见的Kubernetes场景错误配置和痛点后,我们来看看ACK的单集群高可用架构以及如何应对高可用稳定性风险的。


图片.png

我们来看一下ACK单集群高可用架构。左面是ACK集群的高可用架构图,上半部分是在ACK   VPC中的资源,包括ACK的元集群(元集群是ACK专有版集群的形态,承载用户ACK托管版集群的控制面组件和托管组件),ACK元集群的节点和以Pod形态运行的托管组件分布在多个可用区,实现了高可用容灾能力;下半部分是在用户VPC中的资源,包括ECS、SLB、ECI等。


对于一个ACK托管版集群,包含控制面和数据面两部分。控制面组件全部以Pod形式运行在ACK的元集群中,使用KoK的架构进行管理,ACK负责管理控制面组件的全生命周期;数据面资源在用户的VPC中,ACK为用户提供可配置的高可用产品能力和最佳实践。



控制面实现可用区+节点级别高可用


全部控制面组件实现与阿里云ECS的可用区能力对齐的高可用打散。在3AZ地域,ACK Pro托管集群控制面的SLA是99.95%。对于不具备3AZ 的地域,ACK Pro托管集群控制面SLA是99.5%(不具备单可用区的故障容忍)。


以APIServer为例,多副本跨AZ、跨节点高可用部署方式,任何一个AZ失效不影响服务可用性。同时,支持etcd分区的增强治理能力,也就是:APIServer自动探测后端etcd端点健康度,自动移除异常为No  Leader的后端etcd端点,即使etcd出现网络分区异常,ACK  APIServer依然正常服务。控制面整体基于KoK架构,Pod形式自动化管理托管组件,具体包括:自动化强制跨AZ打散、探活健康检查以及自愈、自适应副本弹性、升级管理、节点异常自动迁移等。



数据面支持客户

配置丰富的高可用策略+最佳实践


在数据面,结合Kubernetes原生的调度能力(例如:拓扑分布约束  Topology Spread  Constraints)和阿里云云产品能力,ACK对Pod支持基于节点、部署集、AZ等不同故障域,实现不同等级的高可用策略;对于应用负载,可以使用K8s的健康检查和自愈、PDB等策略提升应用负载的稳定性;负载均衡、虚机节点、云盘等云资源均支持Kubernetes场景下多AZ高可用配置以及相应的容器化配置界面。下面对数据面高可用最佳实践展开介绍。


单集群高可用

最佳实践-节点/可用区高可用


图片.png

左上部分是业务Pod按节点、部署集和可用区打散调度以及容灾能力的示意图。应该将Pod尽量按节点和AZ打散,按需可以进行更严格的按部署集节点打散。



业务按节点打散分布


配置Pod的按节点反亲和调度策略,实现Pod按节点打散,达到业务的节点级别高可用。



业务按部署集节点打散分布


配置Pod的按部署集节点反亲和调度策略,实现物理机打散,达到业务的物理机级别高可用。


部署集是控制ECS实例分布的策略,将ECS实例分散部署在不同的物理服务器上,避免由于一台物理机失效导致多台ECS实例宕机。通过为节点池指定部署集,能够保证节点池扩容出的ECS实例不会分布于同一物理机上。



业务按多可用区打散分布


配置Pod的按AZ反亲和调度策略,实现Pod按可用区均匀打散,达到业务的可用区级别高可用。





单集群高可用

最佳实践-工作负载高可用





基于Kubernetes的功能,可以参考如下最佳实践来增强应用负载的可用性。



配置Pod拓扑分布约束


拓扑分布约束Topology Spread Constraints,可以确保Pod在不同的节点和可用区之间均匀分布,以提高应用程序的高可用性和稳定性。


适用于Deployment、StatefulSet、DaemonSet、Job、CronJob等工作负载。



配置Pod反亲和


Pod反亲和(PodAntiAffinity)用于调度Pod到不同节点,以提高应用程序的高可用性和故障隔离能力。



配置Pod Disruption Budget


PDB允许定义一个最小可用副本数,当节点处于维护或故障状态时,集群将确保至少有指定数量的副本保持运行。PDB可以防止过多的副本同时终止,尤其适合多副本处理流量型的场景。


配置Pod健康检测与自愈


配置不同类型的探针来监测和管理容器的状态和可用性,包括存活探针(Liveness Probes)、就绪探针(Readiness Probes)、启动探针(Startup Probes)


存活检查(Liveness):用于检测何时重启容器


就绪检查(Readiness):确定容器是否已经就绪,且可以接受流量


启动探测(Startup Probes):用于检测何时启动容器


单集群高可用最佳实践-企业版

容器镜像服务高可用配置


图片.png

企业版容器镜像服务高可用配置包括可用区容灾和跨地域容灾两种最佳实践。


可用区容灾:使用企业版容器镜像服务及同城冗余OSS Bucket


生产环境使用企业版容器镜像服务,不使用个人版容器镜像服务,因为前者支持高可用、安全扫描等产品能力


对于企业版镜像服务,在支持OSS同城冗余的地域,创建实例默认会创建支持同城冗余的OSSBucket,实现跨可用区高可用;如果OSS在地域新增支持同城冗余,用户可以在OSS控制台将镜像服务Bucket转换为同城冗余,进而实现镜像服务的同城冗余能力。


跨地域容灾:使用多地域企业版容器镜像服务,配置异地容灾


至少在两个不同的地域开通企业版容器镜像服务,将容器镜像同时推送至多个不同地域的企业版实例,来实现异地容灾。


概要流程如下:


1. 为不同地域的实例配置相同的自定义域名,并在集群中使用自定义域名拉取容器镜像。


2. 为不同地域间的实例配置镜像同步规则,确保核心的业务镜像存在于不同地域的实例中。


3. 为实例配置访问控制


4. 切换域名解析实现容灾。


单集群高可用最佳实践-云资源

高可用以及K8s配置界面


图片.png

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
相关文章
|
14天前
|
供应链 安全 Cloud Native
阿里云飞天企业版获【可信云·容器平台安全能力】先进级认证
阿里云飞天企业版容器系列产品获中国信息通信研究院【可信云·容器平台安全能力】先进级认证,这是飞天企业版容器产品获得《等保四级PaaS平台》和《 云原生安全配置基线规范V2.0》之后,本年度再一次获得行业权威认可,证明飞天企业版的容器解决方案具备符合行业标准的最高等级容器安全能力。
阿里云飞天企业版获【可信云·容器平台安全能力】先进级认证
|
23天前
|
Prometheus Kubernetes 监控
OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性
聚焦近日OpenAI的大规模K8s集群故障,介绍阿里云容器服务与可观测团队在大规模K8s场景下我们的建设与沉淀。以及分享对类似故障问题的应对方案:包括在K8s和Prometheus的高可用架构设计方面、事前事后的稳定性保障体系方面。
|
15天前
|
人工智能 运维 监控
容器服务Kubernetes场景下可观测体系生产级最佳实践
阿里云容器服务团队在2024年继续蝉联Gartner亚洲唯一全球领导者象限,其可观测体系是运维的核心能力之一。该体系涵盖重保运维、大规模集群稳定性、业务异常诊断等场景,特别是在AI和GPU场景下提供了全面的观测解决方案。通过Tracing、Metric和Log等技术,阿里云增强了对容器网络、存储及多集群架构的监控能力,帮助客户实现高效运维和成本优化。未来,结合AI助手,将进一步提升问题定位和解决效率,缩短MTTR,助力构建智能运维体系。
|
1月前
|
Kubernetes 算法 调度
阿里云 ACK FinOps成本优化最佳实践
本文源自2024云栖大会梁成昊演讲,讨论了成本优化策略的选择与实施。文章首先介绍了成本优化的基本思路,包括优化购买方式、调整资源配置等基础策略,以及使用弹性、资源混部等高级策略。接着,文章详细探讨了集群优化和应用优化的具体方法,如使用抢占式实例降低成本、通过资源画像识别并优化资源配置,以及利用智能应用弹性策略提高资源利用效率。
|
1月前
|
运维 Kubernetes Serverless
阿里云Argo X K8s玩转工作流引擎,实现大规模并行计算
本文基于2024云栖大会田双坤的演讲,介绍了Kubernetes作为云原生操作系统的角色及其在各类任务中的应用,重点探讨了Argo Workflows在Kubernetes上编排并行任务的能力。面对自建Argo Workflows的挑战,如稳定性、成本和安全性等问题,阿里巴巴云推出了全托管的Serverless Argo工作流,提供全托管、免运维、可观测和易集成的特点,显著提升了任务编排的效率和稳定性。适用于数据处理、科学计算、自动驾驶仿真等多个领域。
|
10天前
|
缓存 容灾 网络协议
ACK One多集群网关:实现高效容灾方案
ACK One多集群网关可以帮助您快速构建同城跨AZ多活容灾系统、混合云同城跨AZ多活容灾系统,以及异地容灾系统。
|
20天前
|
Kubernetes Ubuntu 网络安全
ubuntu使用kubeadm搭建k8s集群
通过以上步骤,您可以在 Ubuntu 系统上使用 kubeadm 成功搭建一个 Kubernetes 集群。本文详细介绍了从环境准备、安装 Kubernetes 组件、初始化集群到管理和使用集群的完整过程,希望对您有所帮助。在实际应用中,您可以根据具体需求调整配置,进一步优化集群性能和安全性。
85 12
|
25天前
|
Kubernetes 网络协议 应用服务中间件
Kubernetes Ingress:灵活的集群外部网络访问的利器
《Kubernetes Ingress:集群外部访问的利器-打造灵活的集群网络》介绍了如何通过Ingress实现Kubernetes集群的外部访问。前提条件是已拥有Kubernetes集群并安装了kubectl工具。文章详细讲解了Ingress的基本组成(Ingress Controller和资源对象),选择合适的版本,以及具体的安装步骤,如下载配置文件、部署Nginx Ingress Controller等。此外,还提供了常见问题的解决方案,例如镜像下载失败的应对措施。最后,通过部署示例应用展示了Ingress的实际使用方法。
57 2
|
1月前
|
存储 Kubernetes 关系型数据库
阿里云ACK备份中心,K8s集群业务应用数据的一站式灾备方案
本文源自2024云栖大会苏雅诗的演讲,探讨了K8s集群业务为何需要灾备及其重要性。文中强调了集群与业务高可用配置对稳定性的重要性,并指出人为误操作等风险,建议实施周期性和特定情况下的灾备措施。针对容器化业务,提出了灾备的新特性与需求,包括工作负载为核心、云资源信息的备份,以及有状态应用的数据保护。介绍了ACK推出的备份中心解决方案,支持命名空间、标签、资源类型等维度的备份,并具备存储卷数据保护功能,能够满足GitOps流程企业的特定需求。此外,还详细描述了备份中心的使用流程、控制台展示、灾备难点及解决方案等内容,展示了备份中心如何有效应对K8s集群资源和存储卷数据的灾备挑战。
|
2月前
|
Kubernetes 监控 Cloud Native
Kubernetes集群的高可用性与伸缩性实践
Kubernetes集群的高可用性与伸缩性实践
86 1

热门文章

最新文章