【阅读原文】戳:如何基于服务网格构建高可用架构
引言
在业务迭代演进的过程中,伴随着业务承载的价值逐步增长,稳定性成为了企业建设数字化系统最重要的基石。在建设业务架构时,如何高可用成为了首当其冲的课题,或许没有之一。对于云产品来说,天生构建在多地域、多可用区的基础设施之上,因此利用云产品为客户搭建可靠的高可用架构,解决稳定性顾虑,是云产品的重要能力。
一个完整的高可用技术架构,应当考虑两个方面的问题。其一:从部署的基础设施上,为避免单点故障,应当以多地理位置隔离部署,这就要求在多个地理位置有可用资源,另一方面,要求资源调度系统能够在多个地理位置的资源上正确调度。其二:需要有完善地服务保护能力,在可能对服务造成关键影响的场景中(突发流量,恶意流量),保护关键服务不被击垮。在云原生的大背景下,使用K8s+服务网格是云原生社区给出的标准解决路径,Kubernetes解决资源调度和管理;服务网格则负责管理更进阶的安全、流量和可观测。本文则将展开探讨,如何利用服务网格构建高可用的业务系统。
构建可用区级高可用
- 使用多可用区部署 -
单一K8s集群的场景下,可以利用云上多可用区的特性进行高可用部署。阿里云ACK所有托管组件均严格采用多副本、多AZ均衡打散部署策略,确保在单个可用区或节点发生故障时,集群仍然能够正常提供服务。同时,集群内的WorkerNode、弹性容器实例也同样被打散在不同可用区。在发生可用区级别故障时(例如因不可控因素导致的机房断电、断网),健康的可用区仍然能够正常提供服务。
- 使用ASM熔断与限流提升全局可用性 -
除了将应用和基础设施打散部署,以物理隔离提供高可用保障。软件层面的保护仍然必不可少。熔断限流是广受认可的应用保护手段,应用熔断限流可以使得应用的整体可用性显著提高,控制局部问题的爆炸半径,并有效防止出现级联故障。
限流是保护服务端应用的手段,启用限流可以避免服务端被过多的流量击垮,让系统在不堪重负时自动降级,ASM支持本地、全局限流,以及更高阶的自定义限流规则(例如单一用户QPS限流等)。
熔断是一种应用在客户端的,用于在上游(服务端)出现故障或超负荷的情况下,尽快将异常端点暂时熔断,从而尽可能不影响系统的全局表现。在传统的微服务应用中,一些开发框架提供了熔断功能。然而,与传统方式相比,服务网格提供的熔断不需要在每个服务的应用程序代码中进行集成,无感地保护目标服务免受过量请求的影响。
ASM的熔断限流支持比社区版本Istio更强的能力,支持更丰富的熔断限流条件(详情参考ASM产品文档中熔断限流的相关内容),从而保证应用尽可能获得更好的全局表现。
- 可用区流量保持 -
在多可用区部署场景下,使用由于工作负载被打散至多个可用区,基于K8s Service的负载均衡将均匀地分配流量到不同可用区的Pod。
跨可用区调用无疑增加了业务延迟,因此,在未发生故障时,调用始终保持在同一可用区是较为理想的状态。使用服务网格的地理位置优先能力,可以使得单次调用尽可能维持在同一可用区内,除非链路上某个应用发生了故障,才会failover到其他可用区:
- ASM高可用 -
ASM托管的控制面默认以多可用区进行打散,确保在单可用区发生故障时,仍然能够正常为数据面提供服务。同时,ASM数据面具备缓存能力,即使段时间内全部可用区都发生故障,数据面仍然能以缓存的配置进行工作。
总结
以单集群多可用区的方式容灾的优势在于其架构简单,用户的运维管理成本相对较低。但是,单集群意味着无法容忍地域级故障(例如单一地域因不可控因素、自然灾害等失效)。因此,要达成更高的可用性要求,不可避免地需要进行地域隔离的部署,我们将在剩余的篇幅中展开讨论。
构建地域级高可用
- 多地域多集群容灾 -
多地域部署则必须多集群进行部署。在多集群部署场景下,入口被切分成为两个,在正常(无故障)状态下,可以通过DNS将流量根据地理位置等策略分配至两个集群的入口。在这种场景中,使用阿里云智能DNS或阿里云全局流量管理(GTM)实现从DNS切流的能力,使用GTM结合健康检查条件,可以自动摘除不健康的入口。与此同时,仍应当使用ASM网关使集群入口获得更高级的熔断、限流能力,以保护集群内的业务。
在当前方案中,主要通过入口切换来将流量分配至健康寄去。这样的方式虽然简明有效,但是仍然有一些场景较为棘手:
1、全局切换不止切换
全局切换意味着全部流量的转移,这意味着一个集群要瞬间开始承接远大于日常负载的流量,这对于扩容速度、缓存重建等都是极大的挑战,如果这些工作未能做好,可能将原本无故障的机房也打垮,以上因素使得机房切换往往是需要人工参与操作并决断的。
2、无法应对复杂故障场景
对于复杂故障场景无法解决,例如,在cn-hangzhou集群某应用A故障,B集群应用B故障时,切换到哪个集群都无法彻底避免故障。
那么,在多集群场景下,是否存在除了全局切流以外的其他手段?答案是,使用服务网格实现非全局故障转移。ASM提供了多种多集群方案,其中,多实例互相服务发现方案为对可用性有最高要求的客户量身定制,通过将多集群的服务发现信息共享,可以实现将多个集群完全打通,从而实现在小故障(服务级、节点级、可用区级)发生时秒级无感切换,更可以在双侧都存在故障时,只要单一应用在任意一侧集群是正常的,即可保证应用全局可用。
- 基于ASM构建更完善的多集群容灾 -
ASM提供了管理多个集群的能力,在该场景下,在每个集群所在的地域(对于非阿里云集群则尽可能选择更接近的地理位置)创建ASM实例,并将另外一个地域的集群以仅服务发现模式加入到ASM中,此时,两侧的ASM都可以发现另外一个地域的所有服务。因此,在多集群场景中也可以实现与单集群场景下一样的自动故障回退能力和复杂场景的容错能力。
要实现多多集群场景的互相调用,则需要依赖路由打通,即从A集群的Pod可以直接连通B集群Pod,对于阿里云多地域场景,用户可以选择使用阿里云云企业网CEN打通物理网络。而对于阿里云集群+非阿里云集,非阿里云集群+非阿里云集群,云上集群+云下集群等复杂网络场景,往往存在无法将物理网络打通的限制,在这种场景下,ASM提供了通过公网打通的方式,通过使用ASM跨集群网关,可以利用公网在集群间通过公网建立一条mTLS的安全信道,用于必要的跨集群通信。
总结
要实现能够容忍地域级故障的高可用,势必需要进行多集群部署,多集群引入了多入口,仅支持从入口进行切换在一些场景下是不够的,使用服务网格打通多集群可以显著地提升多地域多集群场景下的容灾能力。阿里云服务网格支持管理任意K8s集群,使得任何K8s集群都可以借助服务网格获得更强的容灾能力。
我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。
获取关于我们的更多信息~