云原生高可用技术体系构建

本文涉及的产品
性能测试 PTS,5000VUM额度
简介: 来自阿里云的工程师游骥为大家带来关于云原生技术体系中高可用的一些最佳实践分享。

以下是视频内容的精华整理。

伴随着互联网业务的高速发展,越来越多的线下场景需要转移到线上,而线上业务的量级飞速增长,也给互联网业务的技术架构带来了严峻挑战,原来的“一体机+数据库”的方式已经不适用于当前的主流业务,越来越来的业务开始向分布式架构和云原生架构演进。同时,原来单一的技术环境开始走向分布式、分层的多组件技术架构,越来越多的组件使得我们保障业务稳定运行的工作也越来越艰巨。
依据阿里云的实践经验,将以下四个维度做好了才能真正构建一个高可用体系,下文从这四个维度介绍如何构建一个云原生高可用技术体系。
容灾:切流,同城双活,异地多活;
容量:全链路压测,瓶颈探测,容量规划;
线上防护:流量防护,开关预案,流量调度;
演练:故障演练,容灾演练,预案演练。

一、容灾

航空系统的容灾体系做的是非常优秀的。如下图所示,航空系统的容灾体系从人、机和环境三个维度来考虑,才能构建一套优秀的容灾方案。
image.png
从航空业的容灾体系构建中我们可以发现容灾的核心思想——冗余。在系统设计中,其实我们也经常用到冗余的机制,比如机器经常是多台的、数据是多备份的等等。
容灾的评价指标主要有两个:
RPO:Recovery Point Objective,即数据恢复点目标,以时间为单位,即在灾难发生时,系统和数据必须恢复的时间点要求;
RTO:Recovery Time Objective,即恢复时间目标,以时间为单位,即在灾难发生后,信息系统或业务功能从停止到必须恢复的时间要求;RTO标志系统能够容忍的服务停止的最长时间,系统服务的紧迫性要求越高,RTO的值越小。

(一)业界主流容灾方案

如下图所示,业内主流的容灾方案最早是异地冷备的方式,后来演进到同城双活方式,最后不断发展成为“两地三中心”。
image.png

(二)阿里AHAS

阿里AHAS容灾方案使用的是比“两地三中心”走的更靠前的“异地多活”方案,在所有的数据中心都能提供服务的同时,RPO和RTO都能做到分钟级甚至秒级。下图是阿里AHAS的产品形态,AHAS在13年之后就开始大规模在阿里内部使用,并且作为高可用平台的一个核心模块,开始服务外部客户。AHAS通过异地多活,能够真正做到对于宏观架构的容灾能力,能够抵御大规模的失败场景,比如一个城市的机房出了故障,可以很轻易的把流量实时切换到另外一个机房。
image.png

二、容量

互联网业务下,流量的不确定性非常明显,经常会出现比如微博的热点事件、阿里的双十一、12306的火车票放购等事件。在这种场景下,如何做好容量规划,就变得至关重要。

(一)压测

传统的压力测试,我们通常关注的是性能的好坏,是一个相对模糊的概念,不需要很精准。但是在互联网的情况下, 我们需要精准的获取到一个系统的实时吞吐量,以便能更好的应对突发事件。在这种情况下,压测必须要尽可能的模拟一个真实的环境,而不能像以往一样,在一个特殊的环境去测试,压测时在流量规模、流量模型、系统环境上都需要一个尽可能真实的环境,这样子才能在故障发生时从容应对。
image.png
传统的压测工具虽然仍在发挥着作用,但是随着互联网的发展,却越来越不能去适应互联网技术的迭代。互联网的压测有着几个特点:
强调流量的真实性;
压测规模要足够大;
必须简单易用;
如今的互联网压测已经变成了一个实时的产品,方便进行实时的调控。基于以上,阿里构建了基于PTS的流量引擎,大家可以在阿里云上直接使用,其特点如下图所示。
image.png

(二)全链路压测

在实践中,我们发现单系统单应用的压测与真实场景之间的误差非常大,因为在压测的时候无法验证整个系统的方方面面,而且很多问题只有在真正的大流量场景下才会暴露,所以要进行全链路压测,其核心是希望未来的事件能够提前的在当前时间内发生,能够用最真实的场景来端对端的验证系统的能力和稳定性。
image.png
为了实现更好的全链路压测,阿里提出了基于PTS的全链路压测,其架构如下图所示。
image.png
从压测环境、压测基础数据、压测流量(模型、数据)、流量发起和问题定为对基于TPS的全链路压测解决方案总结如下:
image.png

三、线上防护

线上防护对于容灾体系来说也是一个非常重要的环节。随着分布式技术的应用,节点越来越多,技术越来越复杂,出错的机会也相对增大;同时,在互联网的条件下,业务的发布也越来越频繁,bug也会随之增多;最后,互联网的条件下,我们随时都面临着一些不确定事件、流量冲击等等,我们不能奢望每次出现故障的时候都有人工来进行干预,因此我们希望系统自身有一定的防护能力,能够让自身在任何环境下都能有最佳的工作状态。

(一)AHAS流量防护

流量防护在阿里巴巴广泛应用于各种场景,比如双十一峰值流量、秒杀活动、物流、订单处理、商品查询、付款等等。同时,阿里也成功的将流量防护能力融合到了云产品AHAS(Application High Availability Service,应用高可用服务)中。AHAS涵盖了阿里多年来在应用高可用服务领域的技术沉淀,包含架构感知、流量防护、故障演练和功能开关四大独立的功能模块,如下图所示,AHAS构建了一个从入口到最后端的一个完整的防护体系。
image.png

(二)AHAS针对大流量场景的保护措施

流量防护最首先需要考虑的就是对大流量场景的保护,比如url,服务提供方,重点业务等,突然出现超乎预期的大流量,基于AHAS可以做如下防护措施:
(1)如果有性能压测,可以精准设置QPS阈值,有了QPS阈值,可以用来限流,避免出现超负载的流量;
(2)如果没有性能压测,也可以通过秒级监控,实时设置阈值;
(3)支持高阶功能:流控模式支持直接、关联、链路,流控方式支持快速失败、Warm UP、排队等待。
image.png

(三)AHAS针对不同场景的措施——异常隔离

在特定未可知的场景,可能出现不稳定因素,例如慢SQL,甚至死锁,导致整个应用越来越慢,甚至整个应用没有响应,这时候要对异常流量进行隔离,以免影响到正常的流量。
image.png

(三)AHAS针对不同场景的措施之系统防护

在某些场景下,比如系统的负载CPU飙升,系统没有反应,来不及定为具体哪个接口导致这个原因,这时候AHAS提供了一个终极大招:系统保护。系统保护就是当系统负载比较高的时候,会自动根据入口流量和系统的负载取得一个动态的平衡,保证系统不会恶化的同时,同时处理最大的入口请求。但是这种情况下,系统对各种流量都是平等的,无法设置流量的优先级。

image.png

四、演练

很多故障是一个小概率事件,但是一旦发生,所造成的损失是不可估量的,比如巴黎圣母院的火灾。同样的,互联网业务也是一样,小概率的故障也可能带来不可挽回的经济损失,甚至是法律风险,系统崩溃了,痛的可能不仅是股价,更重要的是信任和用户流失。因此,故障演练是一个完备的容灾体系所必须进行的一步。

(一)企业为什么需要做故障演练

如果一个业务系统的流量很小且趋于稳定,那么是没有必要进行故障演练的,但是如果一个企业处于高速发展中,业务发展快,有大量的稳定性技术债,其业务系统不断的变化,甚至今天的形态跟昨天的形态都不一致,架构也日益复杂,那么故障演练就是十分必要且必需的。因为每个环节的不确定因子都是累积的,如果不进行故障演练,最后一旦发生故障,极大可能会对系统造成严重破坏。进行故障演练,还可以培养企业的人员故障处理经验,增强人员的应急能力。
image.png

(二)企业引入故障演练遇到的常见问题

在企业进行故障演练的时候,经常会遇到一些问题,比如如何设计组织架构?如何选择技术方案?如何落地演练实践?更多的问题见下图。在解决这些问题的时候,我们需要注意一个问题就是如果业务牵涉到资金,就要做一个清晰化的深层评估,不要因为演练导致出现资金上的亏损,比如在演练中用到的收费内容(例如短信等)我们要考虑周全。
image.png

(三)阿里的故障演练方案

如下图所示,阿里自己有着一套完整的故障演练方案,一开始也是通过一些工具或者脚本来进行,在2016年之后才开始将通用的故障模式沉淀为系统,之后在2018年将内部沉淀多年的实践正式在阿里云商用,2019年时将沉淀多年的故障注入场景正式开源,成为国内首个混沌工程开源产品。
image.png

(四)AHAS故障演练

AHAS故障演练的产品架构如下图所示,其定位是一款简单、安全、低成本的故障演练工具,能够帮助用户快速实施演练并发现问题。
image.png
从产品角度来讲,AHAS故障演练产品有两个特色:可视化和安全。通过可视化功能我们可以将演练过程中的系统指标直观展示,可以“边演练,边观察”;另外,AHAS还可以指定保护策略,自动触发并终止演练,避免系统因演练而引发的预期外故障。
image.png
AHAS和PTS都可以在阿里云的平台上直接使用,大家感兴趣的话可以到阿里云官网进行更详细的了解。

关键词:高可用技术体系,容灾,容量,全链路压测,线上防护,故障演练,AHAS,PTS

目录
相关文章
|
5天前
|
运维 Kubernetes Cloud Native
云原生技术:容器化与微服务架构的完美结合
【10月更文挑战第37天】在数字化转型的浪潮中,云原生技术以其灵活性和高效性成为企业的新宠。本文将深入探讨云原生的核心概念,包括容器化技术和微服务架构,以及它们如何共同推动现代应用的发展。我们将通过实际代码示例,展示如何在Kubernetes集群上部署一个简单的微服务,揭示云原生技术的强大能力和未来潜力。
|
4天前
|
运维 Kubernetes Cloud Native
云原生技术入门及实践
【10月更文挑战第39天】在数字化浪潮的推动下,云原生技术应运而生,它不仅仅是一种技术趋势,更是企业数字化转型的关键。本文将带你走进云原生的世界,从基础概念到实际操作,一步步揭示云原生的魅力和价值。通过实例分析,我们将深入探讨如何利用云原生技术提升业务灵活性、降低成本并加速创新。无论你是云原生技术的初学者还是希望深化理解的开发者,这篇文章都将为你提供宝贵的知识和启示。
|
5天前
|
Cloud Native 持续交付 云计算
云原生技术入门与实践
【10月更文挑战第37天】本文旨在为初学者提供云原生技术的基础知识和实践指南。我们将从云原生的概念出发,探讨其在现代软件开发中的重要性,并介绍相关的核心技术。通过实际的代码示例,我们展示了如何在云平台上部署和管理应用,以及如何利用云原生架构提高系统的可伸缩性、弹性和可靠性。无论你是云原生领域的新手,还是希望深化理解的开发者,这篇文章都将为你打开一扇通往云原生世界的大门。
|
3天前
|
弹性计算 Kubernetes Cloud Native
云原生技术的实践与思考
云原生技术的实践与思考
17 2
|
4天前
|
Kubernetes Cloud Native 持续交付
云原生技术在现代应用架构中的实践与思考
【10月更文挑战第38天】随着云计算的不断成熟和演进,云原生(Cloud-Native)已成为推动企业数字化转型的重要力量。本文从云原生的基本概念出发,深入探讨了其在现代应用架构中的实际应用,并结合代码示例,展示了云原生技术如何优化资源管理、提升系统弹性和加速开发流程。通过分析云原生的优势与面临的挑战,本文旨在为读者提供一份云原生转型的指南和启示。
18 3
|
3天前
|
边缘计算 Cloud Native 安全
云原生技术的未来发展趋势
云原生技术的未来发展趋势
13 1
|
4天前
|
运维 Kubernetes Cloud Native
云原生技术在现代应用架构中的实践与挑战####
本文深入探讨了云原生技术的核心概念、关键技术组件及其在实际项目中的应用案例,分析了企业在向云原生转型过程中面临的主要挑战及应对策略。不同于传统摘要的概述性质,本摘要强调通过具体实例揭示云原生技术如何促进应用的灵活性、可扩展性和高效运维,同时指出实践中需注意的技术债务、安全合规等问题,为读者提供一幅云原生技术实践的全景视图。 ####
|
3天前
|
Cloud Native 安全 数据安全/隐私保护
云原生架构下的微服务治理与挑战####
随着云计算技术的飞速发展,云原生架构以其高效、灵活、可扩展的特性成为现代企业IT架构的首选。本文聚焦于云原生环境下的微服务治理问题,探讨其在促进业务敏捷性的同时所面临的挑战及应对策略。通过分析微服务拆分、服务间通信、故障隔离与恢复等关键环节,本文旨在为读者提供一个关于如何在云原生环境中有效实施微服务治理的全面视角,助力企业在数字化转型的道路上稳健前行。 ####
|
14天前
|
弹性计算 Kubernetes Cloud Native
云原生架构下的微服务设计原则与实践####
本文深入探讨了在云原生环境中,微服务架构的设计原则、关键技术及实践案例。通过剖析传统单体架构面临的挑战,引出微服务作为解决方案的优势,并详细阐述了微服务设计的几大核心原则:单一职责、独立部署、弹性伸缩和服务自治。文章还介绍了容器化技术、Kubernetes等云原生工具如何助力微服务的高效实施,并通过一个实际项目案例,展示了从服务拆分到持续集成/持续部署(CI/CD)流程的完整实现路径,为读者提供了宝贵的实践经验和启发。 ####
|
6天前
|
消息中间件 存储 Cloud Native
云原生架构下的数据一致性挑战与应对策略####
本文探讨了在云原生环境中,面对微服务架构的广泛应用,数据一致性问题成为系统设计的核心挑战之一。通过分析云原生环境的特点,阐述了数据不一致性的常见场景及其对业务的影响,并深入讨论了解决这些问题的策略,包括采用分布式事务、事件驱动架构、补偿机制以及利用云平台提供的托管服务等。文章旨在为开发者提供一套系统性的解决方案框架,以应对在动态、分布式的云原生应用中保持数据一致性的复杂性。 ####