SREWorks云原生数智运维工程实践-云原生运维实战篇-阿里超大规模Flink集群运维实践(中)

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
性能测试 PTS,5000VUM额度
简介: SREWorks云原生数智运维工程实践-云原生运维实战篇

二、 集群运维Flink Cluster

 

一方面,Flink平台上运行着一个非常典型的业务,就是双11大促当天GMV媒体成交翻牌器,也就是家喻户晓的成交额大屏,这个业务对于稳定性要求非常高。除了GMV翻牌器,Flink还承载了阿里内部全部重要的实时计算业务,包括阿里妈妈、广告计量计费、搜索推荐、机器学习平台等核心电商业务的实时场景。这些实时场景既重要又实时敏感,稳定性是第一大挑战。

另一方面,由于平台规模体量巨大,涉及到几万台独享机器,多地域的部署,平台体量增长带来的平台复杂部署度的增加,所以局部异常又会成为常态,这是对稳定性的第二大挑战。

 

image.png

 

业务重要又敏感、平台规模体量大且架构复杂,面临这样的双重挑战,如何去维护集群的稳定性是一大难题。

 

image.png

 

一开始Flink集群是用故障数来度量稳定性的,但实际上粒度很低,因为有很多未达到故障时长标准的稳定性异常是没有办法在最终的故障数中体现的,导致稳定性存在着盲区。后面我们就打造了几套基于分钟级可用率的SLA可用率来度量整个集群的稳定性。

 

SLI是用来计算SLA的黄金指标,它代表着Flink Cluster的可用性,因为集群是一个虚拟的逻辑概念,所以我们定义了Flink作业状态来代表SLI。Flink作业状态本身非常复杂,但是我们可以简单抽象出三种状态:调度中、运行正常、运行异常,每个作业都能计算出这三种状态,然后汇聚到集群层面形成作业的比例,一旦异常的比例超过某个阈值,就代表集群不可用,从而度量出SLI再算出全年的不可用时长。

 

最终SLA的可用率度量可以表示成一个简单的数学公式,SLA可用率=SLA异常数*SLA平均每次异常时长,来实现分钟级可用率精细度量衡集群稳定性。

 

有了精细的量化,接下来就是提升的路径,也可以从上述公式入手去优化两个因子:分别是既做好稳定性的预防,来减少SLA次数;同时也做好了SLA的快速恢复,缩短SLA时长,最终提升整体的可用率。

 

image.png

 

首先是SLA异常预防部分,关键的思路是做好集群的巡检,主动发现异常隐患,及时消灭隐患,从而减少SLA异常的次数。

 

导致SLA异常隐患有哪些?比如一堆超大作业突然启动,导致集群几百台机器load打高或者磁盘打满,引发大量作业心跳超时;再比如说某一个Flink版本存在重大的稳定性问题或缺陷,影响了线上近千个作业。这些看上去很冷门的故障场景,实际上在一个超大规模的集群里和丰富的业务场景形态下几乎每天都在发生,这是平台发展到一定规模必然会出现的挑战。而且集群规模越大,越容易出现蝴蝶效应,影响面往往更大。此外,每次集群异常定位的复杂度和耗时都非常久,如何去消灭这些SLA异常?

 

我们的思路是打造一个Flink Cluster的异常自愈服务,通过定期扫描线上全量作业的行为数据比如作业的延时、Failover、反压,然后对这些海量数据做异常分析和决策找到隐患。总的来说可以分为两大类异常:

 

一类是由于用户侧自身作业行为导致的,通知用户去更改相应的作业,比如资源配置不合理导致OOM、作业反压导致延迟等

另一类异常是由于平台侧问题版本导致的,平台侧会进行大规模的主动升级来消灭这些问题版本。

 

最终在平台侧和用户侧双管齐下,形成SLA异常自愈的闭环,从而减少SLA异常次数。

 

在异常自愈服务里,其实最复杂的是背后规则的识别和决策。经过大量的积累,我们沉淀了几十种业务侧最高频的异常规则和治理方案,来全自动化地识别和消灭之前“看不见”的隐患,真正做到稳定性预防。

 

image.png

 

根据SLA异常的公式,除了预防来减少SLA次数,另外一个手段就是缩短SLA发生后的异常时长。

 

挑战在于线上一个集群就有近万个作业,但凡是集群级的故障都表现为定位困难、恢复时间久,再加上集群数量众多、分布广,故障的概率又增大,两者叠加,一年发生几次故障几乎就成了常态,稳定性整体很被动。我们需要转被动为主动,如果能在故障场景将业务的快速切流做到集群级的容灾能力,SLA异常恢复不仅能够缩短,而且还能增加其确定性。

 

容灾体系主要分成三部分:

 

第一,是往哪里切,实时计算对于网络的要求都是毫秒级,跨城有几十个毫秒肯定无法满足实时的要求。所以在平台侧部署架构上做了计算同城双机房部署,两两容灾,互为主备切流布局,解决了故障场景有地方可切。

 

第二,资源容量是有限的,平台这么大的体量不可能有容灾资源做预算,所以就需要做取舍。取高优先级的业务舍低优先级的业务,如何区分优先级?平台根据业务的场景建立了一套Flink作业的优先级标准,并配套着从申请到治理到整改,降级推出全过程的自动化管理体系,在业务侧精细化地区分优先级,确保真正高优业务的质和量。在资源有限的条件下,重保高优业务,以实现资源换资源。

 

最后一步是最复杂的,如何透明切走作业。核心的思路是复用存储,保证计算透明切换来确保业务的无感。

 

image.png

 

Flink作业都是长生命周期的,带着state中间计算结果。首先要在集群的部署架构上做到计算和存储集群在物理部署上分离。计算集群出现故障时,比如基础设施出现异常等,可以通过切流将所有Flink作业平迁到另外一个灾备集群,但是state存储还是指向老的存储集群,就可以从原来的state点位恢复来实现真正透明的迁移,对用户做到无感。

 

image.png

 

除了日常的稳定性以外,双11更是稳定性的一场大考。Flink双11的专项保障可以总结为4大块8个字,分别是压测、限流、降级、热点。每一块背后我们都沉淀了一套成熟的保障体系。

 

第一块压测指的是压测平台,首先提供给用户将生产到影子作业一键克隆的能力,其次还会提供大量大规模精准的造压、控压、稳压能力,并提供作业自动化性能的调优,以及最后一步生产一键上线全自动化的一站式压测解决方案。

 

第二块降级指的是降级平台,因为在大促0点峰值,需要将低优先级的业务快速降级来实现水位的合理控制。

 

第三块限流,还有一部分中优或高优业务,在大促状态不允许降级,但是能接受短时间的延迟,所以平台还基于Linux内核的Cgroup实现了作业Pod资源的隔离和限制,从而达到作业粒度计算精准限流的效果。

 

第四块是热点机器,也是大促最复杂的点。从集群层面看,集群卖出的资源和用户使用的资源是存在差异的,比如1个Flink作业申请了10个CPU,而实际使用了5个CPU,还有波峰波谷会导致集群层面水位不均衡。

 


 

上图第一个图显示,集群调度层面所有机器资源水位非常平均,CPU和内存几乎在一条线上。但实际运行在集群上的所有机器的物理水位却参差不齐,因为调度是不感知物理使用的,所以随着集群水位不断提升,比如大促零点峰值的到来,集群的热点机器就会往更高去平移,某些机器在某一维度的资源会达到性能的瓶颈比如CPU使用了95%或者更高,从而就导致了热点机器。

 

而在分布式系统里,所有机上的业务是有状态并且有关联的,局部的热点机器不仅会影响集群稳定性,还会成为集群性能提升的瓶颈、造成成本浪费,也就是说,热点机器会是集群稳定性和水位提升的短板。

 

image.png

 

热点机器的解决是一个很棘手的问题,一般需要经历4个过程:

 

第一步是发现热点机器,包括热点机器的CPU、内存、网络、磁盘,难点在于热点机器的阈值是来自SRE线上丰富的经验。

第二步是分析,我们做了一系列的机器诊断工具来定位热点的进程,包括CPU到进程、IO到进程,难点在于要求用户对于Linux整个系统的原理有深入的理解和分析。

第三步是业务的决策和策略,从热点机器进程关联到业务的数据做决策,不同的优先级能接受的策略是不一样的。

最后一步,才是真正的解决热点机器,低优先级通过降级或均衡,中高优先级则通过径流来实现热点机器的下降。

 

image.png

 

这个过程背后涉及的东西包括对业务的理解比如优先级、资源、配置画像,对调度的原理的理解比如资源的分配策略、调度的策略,以及对系统内核的深度排查分析,还有业务的经验和策略——到底是限流还是降级。这样全链路的界定和分析决策是一个非常复杂的技术难题。

 

我们正在做的是将热点机器的完整解决方案全部沉淀下来,打造一个基于K8s云原生的Flink Cluster AutoPilot来实现热点机器的全自动化自愈。

 

image.png

 

从部署形态上来看,AutoPilot的服务是基于K8s进行全托管,按集群维度进行轻量化的部署,通过配置文件来方便地管理和运维。而执行阶段则是由K8s来保证面向终态,保证最终一致性。从AutoPilot的技术能力上来看,它是通过将热点机器的全面度分析流程抽象成6个阶段,包括热点机器的定义、感知、分析、决策、执行及全过程的可观测性,来实现整个热点机器全自动化自愈和高可观测性,提升集群的稳定性以及降低成本。

 

image.png

 

在过去的几年里,围绕着运维稳定、成本、效率三大核心价值,SRE在Flink Cluster超大规模集群运维上沉淀了大量运维能力和更好的运维平台。但是随着云原生化大浪潮的到来,运维能力如何基于云原生变得更标准化,运维的交互界面、操作模式、执行模式以及运维过程的可观测性如何建立更加统一的标准,都会成为我们未来的重点发展方向。Flink Cluster AutoPilot会成为云原生下新技术的载体,来承载运维体系的不断演进和升级。

 

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
12天前
|
运维 监控
构建高效运维体系:从理论到实践
在当今快速发展的信息化时代,高效的运维体系是保障企业信息系统稳定运行的关键。本文旨在探讨如何构建一个高效、可靠的运维体系,通过分析当前运维面临的挑战,提出相应的解决策略,并结合实际案例,展示这些策略的实施效果。文章首先介绍了高效运维的重要性,接着分析了运维过程中常见的问题,然后详细阐述了构建高效运维体系的策略和步骤,最后通过一个实际案例来验证这些策略的有效性。
|
12天前
|
机器学习/深度学习 数据采集 人工智能
智能运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的兴起背景、核心组件及其在现代IT运维中的应用。通过对比传统运维模式,阐述了AIOps如何利用机器学习、大数据分析等技术,实现故障预测、根因分析、自动化修复等功能,从而提升系统稳定性和运维效率。文章还深入分析了实施AIOps面临的挑战与解决方案,并展望了其未来发展趋势。 ####
|
20天前
|
人工智能 运维 监控
构建高效运维体系:理论与实践的深度融合####
本文旨在探讨高效IT运维体系的构建策略,通过理论框架与实际案例并重的方式,深入剖析了现代企业面临的运维挑战。文章开篇概述了当前运维领域的新趋势,包括自动化、智能化及DevOps文化的兴起,随后详细阐述了如何将这些先进理念融入日常运维管理中,形成一套既灵活又稳定的运维机制。特别地,文中强调了数据驱动决策的重要性,以及在快速迭代的技术环境中保持持续学习与适应的必要性。最终,通过对比分析几个典型企业的运维转型实例,提炼出可复制的成功模式,为读者提供具有实操性的指导建议。 ####
|
19天前
|
运维 负载均衡 Ubuntu
自动化运维的利器:Ansible入门与实践
【10月更文挑战第31天】在当今快速发展的信息技术时代,高效的运维管理成为企业稳定运行的关键。本文将引导读者了解自动化运维工具Ansible的基础概念、安装步骤、基本使用,以及如何通过实际案例掌握其核心功能,从而提升工作效率和系统稳定性。
|
11天前
|
Cloud Native 安全 数据安全/隐私保护
云原生架构下的微服务治理与挑战####
随着云计算技术的飞速发展,云原生架构以其高效、灵活、可扩展的特性成为现代企业IT架构的首选。本文聚焦于云原生环境下的微服务治理问题,探讨其在促进业务敏捷性的同时所面临的挑战及应对策略。通过分析微服务拆分、服务间通信、故障隔离与恢复等关键环节,本文旨在为读者提供一个关于如何在云原生环境中有效实施微服务治理的全面视角,助力企业在数字化转型的道路上稳健前行。 ####
|
13天前
|
运维 Kubernetes Cloud Native
云原生技术:容器化与微服务架构的完美结合
【10月更文挑战第37天】在数字化转型的浪潮中,云原生技术以其灵活性和高效性成为企业的新宠。本文将深入探讨云原生的核心概念,包括容器化技术和微服务架构,以及它们如何共同推动现代应用的发展。我们将通过实际代码示例,展示如何在Kubernetes集群上部署一个简单的微服务,揭示云原生技术的强大能力和未来潜力。
|
22天前
|
弹性计算 Kubernetes Cloud Native
云原生架构下的微服务设计原则与实践####
本文深入探讨了在云原生环境中,微服务架构的设计原则、关键技术及实践案例。通过剖析传统单体架构面临的挑战,引出微服务作为解决方案的优势,并详细阐述了微服务设计的几大核心原则:单一职责、独立部署、弹性伸缩和服务自治。文章还介绍了容器化技术、Kubernetes等云原生工具如何助力微服务的高效实施,并通过一个实际项目案例,展示了从服务拆分到持续集成/持续部署(CI/CD)流程的完整实现路径,为读者提供了宝贵的实践经验和启发。 ####
|
14天前
|
消息中间件 存储 Cloud Native
云原生架构下的数据一致性挑战与应对策略####
本文探讨了在云原生环境中,面对微服务架构的广泛应用,数据一致性问题成为系统设计的核心挑战之一。通过分析云原生环境的特点,阐述了数据不一致性的常见场景及其对业务的影响,并深入讨论了解决这些问题的策略,包括采用分布式事务、事件驱动架构、补偿机制以及利用云平台提供的托管服务等。文章旨在为开发者提供一套系统性的解决方案框架,以应对在动态、分布式的云原生应用中保持数据一致性的复杂性。 ####
|
8天前
|
Cloud Native 云计算 Docker
云原生技术的崛起:从容器化到微服务架构
云原生技术的崛起:从容器化到微服务架构
|
11天前
|
Cloud Native 安全 API
云原生架构下的微服务治理策略与实践####
—透过云原生的棱镜,探索微服务架构下的挑战与应对之道 本文旨在探讨云原生环境下,微服务架构所面临的关键挑战及有效的治理策略。随着云计算技术的深入发展,越来越多的企业选择采用云原生架构来构建和部署其应用程序,以期获得更高的灵活性、可扩展性和效率。然而,微服务架构的复杂性也带来了服务发现、负载均衡、故障恢复等一系列治理难题。本文将深入分析这些问题,并提出一套基于云原生技术栈的微服务治理框架,包括服务网格的应用、API网关的集成、以及动态配置管理等关键方面,旨在为企业实现高效、稳定的微服务架构提供参考路径。 ####
37 5

热门文章

最新文章

下一篇
无影云桌面