SREWorks 云原生数智运维平台揭秘 | 突破规模化智能运维aiops瓶颈

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 一套规模化运维的流水线——交付、监测、管理、控制、运营、服务。

作者:

钟炯恩——阿里云大数据基础工程技术团队运维专家


SREWorks 官网地址https://sreworks.cn/
SREWorks 开源地址https://github.com/alibaba/sreworks


引言

突破规模化运维瓶颈是诸多 IT 规模增长的企业及组织当前遇到的比较棘手的问题。面对这些问题,多数人的第一反应是上云。但是上云之后我们会发现,即使云上的架构规模增大,也依然存在同样的问题,有时候甚至更严重,因为弹性扩容的云服务器远比买一台物理机更方便,从而导致集群规模也急剧增加。


那么,规模化运维为什么会遇到瓶颈?


总的来说,规模化运维遇到的瓶颈可以分为三类,分别为稳定性瓶颈、成本瓶颈以及效率瓶颈



第一,稳定性瓶颈,这往往是我们最关注的点。对稳定性影响最大的因素是变更,由变更导致的故障占据 70%-80%。因此,我们一般会通过严管变更来减少故障时间,进而提升系统的稳定性。


这会导致出现一种微妙的平衡:如果限制变更的次数,则我们会选择将多个变更集中在一次变更里进行,而这会增加回滚的难度,从而导致单次的故障时间变长;而如果不限制变更次数来约束每个变更必须能够回滚,则我们可能会将一个变更分拆为多个变更,虽然出了问题可以立即回滚,影响小,但由于变更总量较大,最终系统的可用性会陷入瓶颈,无法提升。


除此之外,在大规模集群中,在成千上万的机器里总会出现一些性能存在问题的机器,可能是硬件问题,可能是内核问题,也可能无法明确问题。而这些机器使得整个系统在某些性能或功能上表现出不明原因的不稳定,如果无法在第一时间抓住它,则会持续产生影响。


以物理机为例,物理机的硬件日化故障率约 0.03%,而在所有硬件故障中,有 1%属于比疑难杂症,无法明确。如果机器保有量为 1 万台,则平均每月会碰到一例非典型的疑难杂症,影响业务。由此可见,在规模化的效应下,原本罕见的问题会变得常见。


第二,成本瓶颈。在过去的一段时间里,这类瓶颈可能不太被重视,但是在降本增效的今天,这些问题变得尤为突出。


热点机器是在分布式系统中常出现的问题,明明有大量可用资源,而流量却都打到一台机器上,导致整个集群性能低。而热点机器的成因非常复杂,可能是架构问题,可能是业务问题,也有可能是底层软件、硬件的问题。


成本瓶颈的另一方面包括从预算到执行的精细化管理。如果是物理机,则需要考虑采购周期;如果是云服务,则需要考虑区分包年、包月、按次计费等计价模型,还需考虑不同区域费用单价的差异。如果无法很好地对上述问题进行管理,则会导致弹性弹得越猛,成本越高。


资源使用的削峰填谷是成本方面需要解决的更高难度的问题。在空间维度上,可以用算法来计算如何减少跨地域依赖,从而节省成本;在时间维度上,可以通过白天运行应用服务,晚上运行离线计算来最大限度利用机器资源。


第三,效率瓶颈。该类问题往往发生在人机交互之中。


在全自动化的流程中,为了业务需要可能会配置特例化的人工干预节点,导致后续人工干预越来越频繁。那么,如何在业务定制和自动化的标准中保持中立、保持平衡?


一个管理平台往往有非常多的功能和配置,配置是直接暴露 YAML 或 json,还是提供可视化的人机交互,也是很大问题。如果提供很多可视化交互,可能会带来较高的开发成本;但如果直接暴露 YAML,会存在由改动引发的问题。


另外,某些小问题原本很好排查,但在大规模集群中可能需要串联上下游许多机器才能发现,导致排查小问题的时间开销也变得越来越大。


那么,如何解决上述瓶颈中涉及的问题?



经过大量实践,我们总结出了一套规模化运维的流水线。流水线里包含 6 大环节,分别是交付、监测、管理、控制、运营、服务


有了全链路图之后,我们可以按图索骥进行查漏补缺。对于已经拥有的能力,可以演进增强;对于尚未拥有的能力,可以用成熟的开源方案进行补位。



上图展示了业界常见的开源方案对于上述 6 大环节中能力的支撑。


  • Prometheus:能够进行时序数据的存储、监控和告警,能够满足规模化运维的指标监控需求,但是只针对“监测”技能点。
  • Grafana:能够接入各种数据源,进行图表、仪表盘的可视化展示。虽然无法与专业的 BI 工具抗衡,但是应对规模化运维的管理和运营已经绰绰有余。
  • Ansible:基于 SSH 的配置管理工具,在物理机时代特别适用。但是在云原生时代,配置和部署都已转移到 K8S 上,因此已经不太使用。
  • Docker:以一己之力开启了容器的技术革命,真正意义上实现了构建一次、随处运行。基于 Docker 可以完成小规模的交付管理和控制,但尚且无法应对大规模。
  • Elasticsearch:作为分布式的搜索和分析存储引擎,通过 query,它能够提供各种数据来满足运营和服务的需求,其生态制完善,用户接入以及使用体验非常好。
  • Kubernetes:云原生领域的既定标准,被广泛用于解决大规模云计算环境中的管理问题,可以基于 K8S 完成所需要的任何事情。



飞天 5K 项目是中国计云计算领域里程碑式的项目,我们团队承担了其中的运维工作。超大规模集群的运维保障工程使我们沉淀了一个运维平台,在内部被称为 ABM(Apsara Big Data Manager),飞天大数据运维平台。

云原生时代的架构变革

云原生为什么能够带来巨大的变革?我们从没有被注意过的角度来聊一聊云原生时代的变革。



1830 年,英国铁路上出现了箱式运煤的容器。受限于火车车厢数量,集装箱对于铁路货而言提升非常有限。但集装箱到了海运的货船上立马出现了质的飞跃,世界上第一艘集装箱船装了 200 个集装箱,相比较同货运量的船,卸货时间从 7 天压缩至 15 小时。


这让我们感受到了标准化的威力,它没有让船开得更快、变得更大,但却彻彻底底地改变了全球贸易的形态,不同国家的消费者和买家被紧紧地连接在一起。而如果没有集装箱,这一切都不会发生。


从某种意义上来说,全球物流改变的关键点不是船只的大小,不是飞机的时速,也不是铁路的里程数,而是集装箱。


而 Docker 的出现也像集装箱一样,为软件的开发以及部署带来了标准化。


在 Docker 出现之前,研发和运维都面临着诸多挑战,我们常常为环境差异引起的部署问题焦头烂额。Docker 出现之后,几乎是一锤定音,大家结束了争吵,不约而同地选择了这个方案。


在对容器进行标准化之后,业界又对容器的部署方案有了各自的想法。Docker 推出了 swarm,谷歌开源了 K8S,最终 K8S 的 Pod 方案脱颖而出,既解决了隔离的问题,又满足了共享的需要。


云原生上标准化的容器以及运行时被统一之后,会发生什么?没有人知道,但我们也许会见证历史。



Kubernetes 如何改变运维体系?


在 K8S 之前,运维的主要工作是在每台机器上部署 agent,然后将其中的信息采集上来,汇总到中心,同时中心也能下发指令给 agent 做很多工作。更新迭代的原因可能是 agent 不够稳定、不够强大,也可能是 server 不够强大。


但是 K8S 出现之后,它强大的 api server 能力顿时使所有 server 相形见绌。只需掌握一到两个接口的用法,便可以推算出几乎所有的接口,非常强大且非常优雅。


另外一端,在基础设施之上,在 kubernetes 上暴露了 CRI(运行时)、CSI(存储)和 CNI(网络)三种接口,满足了容器的所有部署需求。


该设计牢牢地将基础设施和应用负载区分开来。关注基础设施,则关注 node 往下部分;关注应用,则关注 Pod 向上部分。应用层的部署以及维护的逻辑到 Pod 即结束,基础设施的维护只在 node 之下,原则上不会与任何 Pod 有关,而且 Pod 无状态,如果 node 要重启,Pod 会飘到其他 node 上。


基础设施是不可变的,如果在设计时将基础设施信息掺杂到应用中,则会为后续带来极大的不便。基础设施不变,但应用要变,此时往往需要订正数据。因此,我们会思考,有什么办法能将应用和基础设施区分开。


K8S 很好地实现了这一点。很多运维工具或平台并非无法实现此能力,而是在功能复杂之后,由于一开始设计不够完善导致有些定位会变形,最终导致很多基础设施层的信息和应用层的信息被揉到一块。


而在 SREWorks 数智运维平台中,我们严格遵循“区分不变的基础设施和灵活的无状态部署应用”原则。

规模化运维工程实践


Too Big to Fail(大而不能倒)是我们时常面临的架构困境。IT 设施愈发庞大之后,会出现各种流程和接口,为了收敛问题以及提升效率,通常会将它们收敛到统一的平台,平台的功能增多之后,重要的功能会被独立为几个子平台来承载。


而不同的平台会由于各种原因衍生出不同的研发流程,有些底层模块在停止迭代一段时间之后,已经无法运行构建和发布流程,从而导致我们不得不维护某些特别慢且低效的模块,有些无法修复的 bug 只能通过不断在外围加辅助逻辑的方式解决。这种情况类似于经济学领域的 Too Big to Fail:具有关键地位的大公司破产会影响到整个社会,于是要不断将人民的血汗钱投入进去,以维持这些公司的运作。


很多平台都会陷入困境,即便投入很多精力在维护,稳定性和可靠性依然很差。此时可能有人会选择重构,但是如果没有优秀的顶层设计,过了几年之后平台依然会陷入类似的困境。


我们可以将目光转到移动互联网领域,看看它从功能到平台演进历程。



众所周知,iPhone 的推出引领了移动互联网的革命。原本在诺基亚手机中的功能块都演进成了应用,用户可以根据自己的需求在 appstore 中下载和安装应用,这种应用模式极大满足了用户各方面的需求。久而久之,某些应用也变得特别庞大,功能众多,变得像一个平台,包含了各种功能,比如微信、支付宝。


于是,在这些应用中演化出了应用生态。这些不同于手机应用的应用,可以称为小程序(微信小程序或支付宝小程序)。优秀的平台会有应用生态来支撑其功能,里面的应用亦是如此,像一层又一层的应用套娃。


回到架构之上,理想的平台架构应该是怎么样的?



如果将应用作为功能载体,平台负责应用管理,则可以较好地管理这些功能。对于复杂或重要的功能,引入平台化的应用管理可以继续深入展开。但是做一个应用平台需要考虑很多方面的因素。


它需要有标准的应用模型,用户能在改应用模型之下开发出各种应用,满足业务需求。应用需要有一套健全的开发部署体系,实现快速迭代、快速交付。同时,应用开始运营后需要有监控,有运维来保障稳定性。针对这些经验的结论,我们给出了标准的应用模型,一套包含 6 大环节交付、监测、管理、控制、运营服务的工程实践,使得我们可以工程化地实现规模化运营。



云原生下的应用模型 Open Application Model 是由阿里云和微软共同推出的开放的应用模型,旨在为云原生应用提供开放的标准,解决应用开发和部署的挑战。


OAM 的核心概念包括应用 application、组件 component 以及运维特征 traits,其主要特征包括:


  • 应用为先:应用的交付与部署都为自包含,其中各类操作行为都应该作为应用定义的一部分,这些内容与实际的基础设施无关。
  • 清晰和可扩展性:定义一套开放标准,可以模块化整个应用交付流程,根据个人需要将这些模块自由组装,满足业务需求。
  • 云服务供应商无关:自定义的开放标准应该是一套更高级别的抽象,可以跨本地集群、跨云服务供应商,不会被锁定到任何厂商的底座。


OAM 通过一系列的概念定义,完成了对应用的抽象,实现了角色职责分离,将应用交付与底座解耦,开发无需关心底座实现的细节,只需关心自己的应用模型。同时,应用运维再也无需担心应用内部与底座相关的各种问题,只需提供应有的 component 和 traits,应用即可运行。



基于应用引擎,可以按照 application 和 component 的模式逐层垒起应用积木。


我们先在应用引擎之上实现了运维应用管理 swadmin,其中含有一套前端的低代码引擎,能快速开发后端接口,编排前端页面,快速落地整个运维应用。运维应用便可在应用市场里上线各种功能,争奇斗艳。


大数据应用管理的运维应用来自于阿里内部,用以支持阿里内部的大数据产品需求,实现阿里云上所有大数据产品的交付、售卖以及管控能力,它也是基于 AppManager 和 OAM 实现的应用工厂。


另一运维应用——企业应用管理,已经被放在开源的 SREWorks 之中,作为通用的应用管理,用于支撑开源场景的通用应用需求。很多公司已经基于企业应用管理开发出自己的业务应用,同时在此之上定制了很多自己需要的运维能力。



上图为 SREworks 运维桌面,桌面上按照交付、监测、管理、控制、运营、服务 6 大场景分别内置了很多应用。


下方为运维应用开发演示,请点击查看视频。


https://www.bilibili.com/video/BV1tV4y1Q7jD/?spm_id_from=333.999.0.0

AI+大数据的数智运维实践


AIOps 是人工智能在运维领域的常见运作框架。其主要流程如下:


首先,观测(Observe)时序数据和文本数据流,然后用算法对其做分析和洞察,发现其中的问题。其次,参与(Engage),将上一步发现的问题以及结果共享给团队中的成员,共同对结果进行讨论、分析以及优化,将人工干预的结果进一步反馈,喂给算法。最后,通过一步步打磨,将原先由人类完成的事情全部赋能于机器,从而实现全自动的运维,比如自动弹性扩缩容、故障自愈等。



AIOps 具体落地的应对策略在于内核、场景和需求。


我们抽象了交、监、管、控、营、服 6 大场景,基于数据化和智能化的内核向外扩散落地四大需求——质量(稳定性)、成本、安全、效率。


数智内核实现了四大需求,为什么还需要六大场景?


这是为了解决大工程下的功能复用问题,如果没有以上场景做收敛,很多功能会发散。比如异常检测可能会由于业务的细微差异,出现多个工程实现。


足够的通用和抽象,也是落地工程中的重要考量原则,在同一个场景下,会尽量使用同一套方案实现。


观测通常可以分为两类,一类是以 metric 为代表的时序数据,另一类是以日志为代表的文本数据。



Metric 的异常检测——无阈值监控,指让机器自己发现指标中的不正常数值,并且进行报警。它与人为设置的阈值不一样,异常检测讲究的是无阈值监控,在大规模集群的指标监测中常常能够发挥较大作用。


异常指标的检测一般包括均值的变化、方差的变化、尖峰探测、断崖式的跌落和趋势预测,基本涵盖了人类认知中判断异常的方法。


在大规模使用异常检测时,建议可以先对顶层的运营指标进行异常检测,这类指标通常会配有运营报表,可视化程度高,针对异常点的排查也非常方便。即使没有检测出异常,对于出错的容忍度也较高。运营指标接入异常检测之后,可以逐步向底层渗透,替换生产环境的固定阈值报警。


异常检测能力已经在 SREWorks 中开源。



日志聚类——面向日志的异常告警也即将开源。


在日志数据中,我们常常关注的焦点是日志中的报错堆栈,久而久之,经验丰富的运维同学可能会直接写脚本监控日志报错堆栈里的关键字。但这种监控方案存在问题,软件版本更新可能会导致报错堆栈变化,关键字随即不管用,因此需要调整脚本。


而日志聚类是一劳永逸的办法,报错堆栈在算法眼里都属于文本模式,日志数据进来之后,可以用日志聚类将这些报错堆栈聚成若干个文本模式,从而使一份文本数据变为指标数据,只需要关注某些文本模式计数值的突增,即可感知到异常。


文本数值配合异常检测,即可实现 AIOps 完整的一条龙服务,涵盖了日志的聚类分析、模式计数、异常检测以及报警。


当前开源版本的日志聚类基于 Flink ML 构建,我们会将这份构建代码合并到近期即将发布的 V1.5 源码上。



上图为数智运维的分层图,经过 IaaS、PaaS、SaaS 三层的分层之后,面向交、监、管、控、营、服六大场景,内部的数据运维平台衍生出了非常多功能来满足业务的需要。不少基于 SREWorks 做能力构筑的公司也在逐渐点亮图中的各个功能点。


数智运维体系无法一蹴而就,我们无法通过简单地点击鼠标,就得到数智运维的整个体系。我们希望 SREWorks 提供给用户一个用户工厂、大量工程实践的样例以及丰富的数智运维经验。希望用户在使用 SREWorks 之后,能够基于这些工程实践和应用工厂构筑出满足自己业务需求的数智运维体系。


SREWorks 官网地址https://sreworks.cn/

SREWorks 开源地址https://github.com/alibaba/sreworks

如在使用过程中遇到问题,欢迎各位在GitHub中提出Issues或Pull requests~

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
相关文章
|
2月前
|
机器学习/深度学习 运维 监控
智能化运维:从自动化到AIOps的演进之路####
本文深入探讨了IT运维领域如何由传统手工操作逐步迈向高度自动化,并进一步向智能化运维(AIOps)转型的过程。不同于常规摘要仅概述内容要点,本摘要将直接引入一个核心观点:随着云计算、大数据及人工智能技术的飞速发展,智能化运维已成为提升企业IT系统稳定性与效率的关键驱动力。文章详细阐述了自动化工具的应用现状、面临的挑战以及AIOps如何通过预测性分析和智能决策支持,实现运维工作的质变,引领读者思考未来运维模式的发展趋势。 ####
|
2月前
|
机器学习/深度学习 数据采集 人工智能
智能化运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的崛起背景,深入分析了其核心概念、关键技术、应用场景及面临的挑战,并对比了传统IT运维模式,揭示了AIOps如何引领运维管理向更高效、智能的方向迈进。通过实际案例分析,展示了AIOps在不同行业中的应用成效,为读者提供了对未来智能运维趋势的洞察与思考。 ####
114 1
|
2月前
|
机器学习/深度学习 数据采集 人工智能
运维新纪元:AIOps引领智能运维变革####
本文探讨了人工智能与运维管理深度融合的前沿趋势——AIOps(Artificial Intelligence for Operations),它通过机器学习、大数据分析等技术手段,为现代IT运维体系带来前所未有的智能化升级。不同于传统依赖人力的运维模式,AIOps能够实现故障预测、自动化修复、性能优化等功能,大幅提升系统稳定性和运营效率。文章将深入分析AIOps的核心价值、关键技术组件、实施路径以及面临的挑战,旨在为读者揭示这一新兴领域如何重塑运维行业的未来。 ####
|
2月前
|
机器学习/深度学习 数据采集 人工智能
智能运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的兴起背景、核心组件及其在现代IT运维中的应用。通过对比传统运维模式,阐述了AIOps如何利用机器学习、大数据分析等技术,实现故障预测、根因分析、自动化修复等功能,从而提升系统稳定性和运维效率。文章还深入分析了实施AIOps面临的挑战与解决方案,并展望了其未来发展趋势。 ####
|
2月前
|
机器学习/深度学习 人工智能 运维
智能化运维:从传统到AIOps的转型之路####
本文探讨了智能化运维(AIOps)的兴起背景、核心价值及其对现代IT运维模式的深刻影响。通过分析传统运维面临的挑战,阐述了AIOps如何利用大数据、机器学习技术实现故障预测、自动化处理与决策支持,进而提升运维效率和服务质量。文章还概述了实施AIOps的关键步骤与面临的主要挑战,为组织向智能化运维转型提供参考路径。 ####
|
2月前
|
机器学习/深度学习 人工智能 运维
智能运维:AIOps在大型系统运维中的实践与挑战
【10月更文挑战第28天】随着云计算、大数据和人工智能的发展,AIOps(人工智能运维)应运而生,旨在通过算法和机器学习提高运维效率和质量。本文探讨了AIOps在大型系统运维中的实践与挑战,包括数据质量、模型选择和团队协作等方面,并通过一个异常检测案例展示了其应用。尽管面临挑战,AIOps仍有望成为未来运维的重要方向。
88 5
|
2月前
|
机器学习/深度学习 运维 监控
智能运维未来:AIOps在预测性维护与故障排查中的潜力
【10月更文挑战第26天】随着数字化转型的深入,企业对IT系统的依赖日益增加。传统的运维方式已无法满足需求,智能运维(AIOps)应运而生。AIOps通过集成和分析多源数据,利用机器学习算法实现系统状态的实时监控和预测性维护,显著提升了运维效率和质量。 示例代码展示了如何使用Python和scikit-learn实现故障预测模型,进一步说明了AIOps的应用价值。
181 5
|
3月前
|
机器学习/深度学习 人工智能 运维
利用AIOps实现智能运维:提升IT运维的新策略
在数字化迅速发展的今天,传统IT运维已难以应对日益复杂的系统。AIOps通过融合AI、机器学习和大数据技术,革新了IT运维方式。其核心优势包括预测性维护、自动化处理、智能分析和资源优化。AIOps平台能自动检测、诊断并解决IT问题,显著提升运维效率。尽管面临数据质量、模型准确性和技术复杂性等挑战,但AIOps正逐步成为智能运维的重要趋势。
|
4月前
|
运维 监控 Cloud Native
云原生时代的运维策略:从反应式到自动化
在云计算的浪潮下,运维领域经历了翻天覆地的变化。本文将带你领略云原生时代下的运维新风貌,探索如何通过自动化和智能化手段,实现从传统的反应式运维向主动、智能的运维模式转变。我们将一起见证,这一变革如何助力企业提升效率,保障服务的连续性与安全性,以及运维人员如何适应这一角色的转变,成为云原生时代的引领者。
83 9
|
4月前
|
弹性计算 运维 Cloud Native
云原生时代的运维转型之路
在云计算飞速发展的今天,传统的运维模式已难以满足现代企业的需求。本文旨在探讨如何在云原生时代下进行有效的运维转型,从传统运维到云运维的转变不仅仅是技术的升级,更是思维和方法论的革新。通过实际案例分析,我们将深入了解这一转型过程中可能遇到的挑战与解决策略,以及如何利用云原生技术提高运维效率,保障系统稳定性和安全性,从而为企业带来持续的业务创新和价值增长。
61 6