阿里云 ACK 高可用稳定性最佳实践

本文涉及的产品
无影云电脑企业版,4核8GB 120小时 1个月
资源编排,不限时长
无影云电脑个人版,1个月黄金款+200核时
简介: 本文整理自2024云栖大会刘佳旭的演讲,主题为《ACK高可用稳定性最佳实践》。文章探讨了云原生高可用架构的重要性,通过Kubernetes的高可用案例分析,介绍了ACK在单集群高可用架构设计、产品能力和最佳实践方面的方法,包括控制面和数据面的高可用策略、工作负载高可用配置、企业版容器镜像服务高可用配置等内容,旨在帮助企业构建更加可靠和高效的应用运行环境。

本文整理自2024云栖大会刘佳旭演讲


引言


大家好,我是来自弹性计算容器服务的技术专家刘佳旭(花名:佳旭),很荣幸今天有机会做分享,我今天分享的主题是《ACK高可用稳定性最佳实践》。


随着云原生技术的快速发展以及在企业IT领域的深入应用,云原生场景下的高可用架构,对于企业服务的可用性、稳定性、安全性越发重要。通过合理的架构设计和云平台的技术支持,云原生高可用架构可以提供高可用性、弹性扩展性、简化运维管理、提升可靠性和安全性等多方面的优势,为企业提供了更加可靠和高效的应用运行环境。


Kubernetes是云原生的核心技术之一,提供了容器编排和管理的能力,包括基础设施自动化、弹性扩展性、微服务架构和自动化运维等,Kubernetes的应用高可用架构是云原生高可用的基石。本次会以阿里云容器服务ACK(Alibaba  Cloud Container Service for Kubernetes)为例,介绍基于ACK的应用高可用架构和治理的最佳实践。



Kubernetes集群的

高可用场景的错误案例和痛点!


高可用架构容灾设计是K8s系统稳定性的基石,在生产环境有非常重要的意义。


我们先来看一下Kubernetes集群的高可用场景的错误案例和痛点,然后再看看ACK是如何通过架构设计、产品能力和最佳实践来应对这些问题的。


图片.png


案例一:集群节点单可用区部署,可用区级别异常导致服务下线


在集群节点单可用区部署的场景中,K8s集群中的节点都被部署在同一个可用区中,可用区级别的异常(如可用区网络故障、硬件故障等)可能导致整个集群中的服务不可用。


案例二:集群节点多可用区部署,业务Pod没有配置按可用区打散


用户通过配置Pod打散调度规则,K8s自动将Pod分散调度到多可用区,从而确保某一可用区发生故障时集群范围内业务仍然能够正常运行。


在集群节点多可用区部署的场景中,如果业务Pod没有配置按可用区均匀打散,单可用区故障依然可能导致业务全部或者部分受损、服务下线。


案例三:对集群应用可用性、可用区维度节点可用性的健康监控告警不足


K8s层面应用的高可用监控对业务至关重要,需要在部分受损的情况下就可以告警或者通知自愈系统进行修复,可以显著提升1-5-10的快速告警能力;可用区级别健康节点监控,可以感知集群层面底层资源可用性并进行告警。


案例四:多集群的应用分发、流量控制以及高可用管理复杂


多个集群的应用分发、安全策略、流量控制、全局监控、作业分发如果没有统一管理平台纳管,会带来显著的复杂性。 在ACK的产品能力上,可以通过ACK  One Fleet舰队,统一管理多个集群实例来提高整个系统的可用性,并在单个集群出现问题时自动切换到另一个集群实例上,从而保证系统的稳定运行。


ACK单集群高可用架构


在总结了常见的Kubernetes场景错误配置和痛点后,我们来看看ACK的单集群高可用架构以及如何应对高可用稳定性风险的。


图片.png

我们来看一下ACK单集群高可用架构。左面是ACK集群的高可用架构图,上半部分是在ACK   VPC中的资源,包括ACK的元集群(元集群是ACK专有版集群的形态,承载用户ACK托管版集群的控制面组件和托管组件),ACK元集群的节点和以Pod形态运行的托管组件分布在多个可用区,实现了高可用容灾能力;下半部分是在用户VPC中的资源,包括ECS、SLB、ECI等。


对于一个ACK托管版集群,包含控制面和数据面两部分。控制面组件全部以Pod形式运行在ACK的元集群中,使用KoK的架构进行管理,ACK负责管理控制面组件的全生命周期;数据面资源在用户的VPC中,ACK为用户提供可配置的高可用产品能力和最佳实践。



控制面实现可用区+节点级别高可用


全部控制面组件实现与阿里云ECS的可用区能力对齐的高可用打散。在3AZ地域,ACK Pro托管集群控制面的SLA是99.95%。对于不具备3AZ 的地域,ACK Pro托管集群控制面SLA是99.5%(不具备单可用区的故障容忍)。


以APIServer为例,多副本跨AZ、跨节点高可用部署方式,任何一个AZ失效不影响服务可用性。同时,支持etcd分区的增强治理能力,也就是:APIServer自动探测后端etcd端点健康度,自动移除异常为No  Leader的后端etcd端点,即使etcd出现网络分区异常,ACK  APIServer依然正常服务。控制面整体基于KoK架构,Pod形式自动化管理托管组件,具体包括:自动化强制跨AZ打散、探活健康检查以及自愈、自适应副本弹性、升级管理、节点异常自动迁移等。



数据面支持客户

配置丰富的高可用策略+最佳实践


在数据面,结合Kubernetes原生的调度能力(例如:拓扑分布约束  Topology Spread  Constraints)和阿里云云产品能力,ACK对Pod支持基于节点、部署集、AZ等不同故障域,实现不同等级的高可用策略;对于应用负载,可以使用K8s的健康检查和自愈、PDB等策略提升应用负载的稳定性;负载均衡、虚机节点、云盘等云资源均支持Kubernetes场景下多AZ高可用配置以及相应的容器化配置界面。下面对数据面高可用最佳实践展开介绍。


单集群高可用

最佳实践-节点/可用区高可用


图片.png

左上部分是业务Pod按节点、部署集和可用区打散调度以及容灾能力的示意图。应该将Pod尽量按节点和AZ打散,按需可以进行更严格的按部署集节点打散。



业务按节点打散分布


配置Pod的按节点反亲和调度策略,实现Pod按节点打散,达到业务的节点级别高可用。



业务按部署集节点打散分布


配置Pod的按部署集节点反亲和调度策略,实现物理机打散,达到业务的物理机级别高可用。


部署集是控制ECS实例分布的策略,将ECS实例分散部署在不同的物理服务器上,避免由于一台物理机失效导致多台ECS实例宕机。通过为节点池指定部署集,能够保证节点池扩容出的ECS实例不会分布于同一物理机上。



业务按多可用区打散分布


配置Pod的按AZ反亲和调度策略,实现Pod按可用区均匀打散,达到业务的可用区级别高可用。





单集群高可用

最佳实践-工作负载高可用





基于Kubernetes的功能,可以参考如下最佳实践来增强应用负载的可用性。



配置Pod拓扑分布约束


拓扑分布约束Topology Spread Constraints,可以确保Pod在不同的节点和可用区之间均匀分布,以提高应用程序的高可用性和稳定性。


适用于Deployment、StatefulSet、DaemonSet、Job、CronJob等工作负载。



配置Pod反亲和


Pod反亲和(PodAntiAffinity)用于调度Pod到不同节点,以提高应用程序的高可用性和故障隔离能力。



配置Pod Disruption Budget


PDB允许定义一个最小可用副本数,当节点处于维护或故障状态时,集群将确保至少有指定数量的副本保持运行。PDB可以防止过多的副本同时终止,尤其适合多副本处理流量型的场景。


配置Pod健康检测与自愈


配置不同类型的探针来监测和管理容器的状态和可用性,包括存活探针(Liveness Probes)、就绪探针(Readiness Probes)、启动探针(Startup Probes)


存活检查(Liveness):用于检测何时重启容器


就绪检查(Readiness):确定容器是否已经就绪,且可以接受流量


启动探测(Startup Probes):用于检测何时启动容器


单集群高可用最佳实践-企业版

容器镜像服务高可用配置


图片.png

企业版容器镜像服务高可用配置包括可用区容灾和跨地域容灾两种最佳实践。


可用区容灾:使用企业版容器镜像服务及同城冗余OSS Bucket


生产环境使用企业版容器镜像服务,不使用个人版容器镜像服务,因为前者支持高可用、安全扫描等产品能力


对于企业版镜像服务,在支持OSS同城冗余的地域,创建实例默认会创建支持同城冗余的OSSBucket,实现跨可用区高可用;如果OSS在地域新增支持同城冗余,用户可以在OSS控制台将镜像服务Bucket转换为同城冗余,进而实现镜像服务的同城冗余能力。


跨地域容灾:使用多地域企业版容器镜像服务,配置异地容灾


至少在两个不同的地域开通企业版容器镜像服务,将容器镜像同时推送至多个不同地域的企业版实例,来实现异地容灾。


概要流程如下:


1. 为不同地域的实例配置相同的自定义域名,并在集群中使用自定义域名拉取容器镜像。


2. 为不同地域间的实例配置镜像同步规则,确保核心的业务镜像存在于不同地域的实例中。


3. 为实例配置访问控制


4. 切换域名解析实现容灾。


单集群高可用最佳实践-云资源

高可用以及K8s配置界面


图片.png

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
相关文章
|
1天前
|
Kubernetes 算法 调度
阿里云 ACK FinOps成本优化最佳实践
本文源自2024云栖大会梁成昊演讲,讨论了成本优化策略的选择与实施。文章首先介绍了成本优化的基本思路,包括优化购买方式、调整资源配置等基础策略,以及使用弹性、资源混部等高级策略。接着,文章详细探讨了集群优化和应用优化的具体方法,如使用抢占式实例降低成本、通过资源画像识别并优化资源配置,以及利用智能应用弹性策略提高资源利用效率。
|
1天前
|
弹性计算 调度 数据中心
阿里云 ACK One 注册集群云上弹性:扩展业务新利器
随着企业数字化转型深入,传统IDC数据中心因物理容量限制,难以实现动态扩容,缺乏弹性能力。阿里云ACK One注册集群凭借其高度灵活性和丰富资源选择,成为解决此问题的最佳方案。通过与阿里云资源的整合,ACK One不仅实现了计算资源的按需扩展,提高了资源利用率,还通过按需付费模式降低了成本,使企业能够更高效地应对业务增长和高峰需求。
|
1天前
|
运维 Kubernetes Serverless
阿里云Argo X K8s玩转工作流引擎,实现大规模并行计算
本文基于2024云栖大会田双坤的演讲,介绍了Kubernetes作为云原生操作系统的角色及其在各类任务中的应用,重点探讨了Argo Workflows在Kubernetes上编排并行任务的能力。面对自建Argo Workflows的挑战,如稳定性、成本和安全性等问题,阿里巴巴云推出了全托管的Serverless Argo工作流,提供全托管、免运维、可观测和易集成的特点,显著提升了任务编排的效率和稳定性。适用于数据处理、科学计算、自动驾驶仿真等多个领域。
|
1天前
|
存储 Kubernetes 关系型数据库
阿里云ACK备份中心,K8s集群业务应用数据的一站式灾备方案
本文源自2024云栖大会苏雅诗的演讲,探讨了K8s集群业务为何需要灾备及其重要性。文中强调了集群与业务高可用配置对稳定性的重要性,并指出人为误操作等风险,建议实施周期性和特定情况下的灾备措施。针对容器化业务,提出了灾备的新特性与需求,包括工作负载为核心、云资源信息的备份,以及有状态应用的数据保护。介绍了ACK推出的备份中心解决方案,支持命名空间、标签、资源类型等维度的备份,并具备存储卷数据保护功能,能够满足GitOps流程企业的特定需求。此外,还详细描述了备份中心的使用流程、控制台展示、灾备难点及解决方案等内容,展示了备份中心如何有效应对K8s集群资源和存储卷数据的灾备挑战。
|
22天前
|
Kubernetes 监控 Cloud Native
Kubernetes集群的高可用性与伸缩性实践
Kubernetes集群的高可用性与伸缩性实践
56 1
|
2月前
|
JSON Kubernetes 容灾
ACK One应用分发上线:高效管理多集群应用
ACK One应用分发上线,主要介绍了新能力的使用场景
|
2月前
|
Kubernetes 持续交付 开发工具
ACK One GitOps:ApplicationSet UI简化多集群GitOps应用管理
ACK One GitOps新发布了多集群应用控制台,支持管理Argo CD ApplicationSet,提升大规模应用和集群的多集群GitOps应用分发管理体验。
|
2月前
|
Kubernetes Ubuntu Linux
Centos7 搭建 kubernetes集群
本文介绍了如何搭建一个三节点的Kubernetes集群,包括一个主节点和两个工作节点。各节点运行CentOS 7系统,最低配置为2核CPU、2GB内存和15GB硬盘。详细步骤包括环境配置、安装Docker、关闭防火墙和SELinux、禁用交换分区、安装kubeadm、kubelet、kubectl,以及初始化Kubernetes集群和安装网络插件Calico或Flannel。
194 4
|
2月前
|
Kubernetes Cloud Native 云计算
云原生之旅:Kubernetes 集群的搭建与实践
【8月更文挑战第67天】在云原生技术日益成为IT行业焦点的今天,掌握Kubernetes已成为每个软件工程师必备的技能。本文将通过浅显易懂的语言和实际代码示例,引导你从零开始搭建一个Kubernetes集群,并探索其核心概念。无论你是初学者还是希望巩固知识的开发者,这篇文章都将为你打开一扇通往云原生世界的大门。
131 17
|
2月前
|
Kubernetes 应用服务中间件 nginx
搭建Kubernetes v1.31.1服务器集群,采用Calico网络技术
在阿里云服务器上部署k8s集群,一、3台k8s服务器,1个Master节点,2个工作节点,采用Calico网络技术。二、部署nginx服务到k8s集群,并验证nginx服务运行状态。
798 1