什么是智能运维的最后一公里?

简介: AIOPS(Artificial Intelligence for IT Operations)是利用人工智能技术改进传统的运维管理方法。然而,在实际应用中,AIOPS面临着复杂的IT基础设施和数据质量的挑战,以及算法在普适场景下的准确性问题。为解决这些挑战,可以采用鸡尾酒疗法,结合专家系统、智能化运维系统和AIGC等技术框架来完成分析任务,并构建一套通用的"国际语言"以实现多种分析引擎的综合利用。最终目标是通过自动化诊断实现运维知识的自动化,从而提高AIOPS的效率和准确性。本文转载至:https://mp.weixin.qq.com/s/f93IW-yWPguGxe9YTomo5A

AIOPS概念被提出的时候,人们对此是寄予厚望的,因为传统运维已经进了死胡同,走不通也无法掉头。智能化运维的愿景被设计出来了,似乎是无所不能的,可以解决几乎所有的传统运维问题。不过在AIOPS落地的时候发现实际场景的复杂性远远超出预期,很多看似很高大上的算法与智能化系统都很难解决用户遇到的问题。

最近和一个客户讨论AIOPS在大型数据库这种复杂度很高的IT基础设施上如何能真正实现,因为他也觉得他所见的AIOPS场景都是十分简单的,肉眼都可见的问题,而对于复杂一些的数据库问题,并没有见到特别有效的AIOPS解决方案。一些AIOPS表现出不错效果的场景,即使不使用AIOPS,以他们传统的技术手段可以轻松解决,而那些传统手段解决不了的问题,AIOPS似乎也束手无策。这就带来一个问题,AIOPS不是完全没用,在某些场景确实可以适当减少人力投入,但是又不明显,实施起来投入也很大。在这种情况下,是不是要投入巨资去实施AIOPS呢?对此我也一直在思考,今天和大家一起来探讨一下这个问题。

这些年做运维自动化的感受是,AIOPS的上游是数据与指标,下游是定位到具体原因的运维知识。做AIOPS的人往往都不大看得起指标,他们认为算法可以解决一切数据质量的问题,因此没有必要在指标的质量上去花太多工夫,实际上目前做AIOPS的企业也缺乏做运维数据质量方面的专家,在这方面是天然存在缺陷的。

我想可能有这样想法的人都没做过复杂系统的运维,或者来自于运维数据质量已经相当好的大型互联网企业吧,在这些企业里上游数据质量问题根本不需要做AIOPS的人去考虑。因此他们对算法充满了迷一样的自信,而对运维经验不屑一顾,认为那是传统运维时代的产物。

实际上指标与运维经验是运维知识中的精华,上周四与一些电网自动化的朋友相遇,他们的观点是数据,指标,规则,自动处置,故障自愈是一条十分优秀的流程链。把问题的内在原因分析清楚了,就可以知道该如何自动处置,实现自愈。然后再往前推,找到定位问题的方法以及所依赖的指标集,再把这些指标精准地采集回来,那么一个复杂的问题就用自动化的方法解决掉了。再对这些方法做适度的泛化,就可以将一个自动化控制的方法适配到更广泛的场景中了。

这个工作方法对于做AIOPS的人来说似乎很LOW,似乎已经过时了。确实,这种方法在自动化领域也全无新意,已经有上百年的历史了,在很多工业控制领域都被广泛应用。与信息化不同的是,自动化专业这些年里一直在把这些知识变成自动化装置,已经形成了体系化的行业解决方案和理论体系。在这种积累下,做什么项目都可以充分利用几十年来积累下来的标准件,从而实现稳定的技术迭代。而在信息化领域,这些知识往往只能不完整地沉淀在一些书籍中,能够开箱即用的标准件少之又少,无法广泛覆盖运维的常用场景。

在IT运维领域,将运维经验做成标准件难度极高,成本巨大,因此大家对能够不需要这种积累,天生具有普适泛化能力的AIOPS寄予厚望,认为这才是运维的未来。

可惜的是,这种完全依赖算法的泛化分析能力并不一定适合用于在复杂系统中做精准定位。比如说前几天我遇到的那个因为expression tracking的采集而引发的Oracle数据库的library cache pin/lock的问题,如果没有去采集相关的指标,那么我们如何知道问题存在呢?如果采集了library cache pin相关的指标,但是不知道Oracle library cache pin的内在原理,如何将指标存在的异常与这个问题点关联起来呢?从我们这些年做AIOPS的经验来看,摒弃高质量的指标是不可取的做法,特别对于复杂度较高的系统而言,指标质量越高,对算法的泛化分析而言就越有价值。

智能化算法在运维自动化中是十分关键的基础能力,除了泛化分析的算法外,在AIOPS中,指标异常检测更需要智能化的算法加持。通过智能化算法生成“智能指标”,再利用这些智能指标通过传统的表达式构建较为精准的模型,是智能化算法与传统运维知识极为有效的融合点,这种方法在AIOPS方向上解决了更精准的推理收敛问题,在运维自动化上解决了规则无法泛化的问题。

目前大家已经十分认可智能化算法在普适场景的泛化分析上的有效性,但是对于其问题收敛的程度与收敛结果的准确性存在一定的疑问。而基于大模型的推理也天生具有泛化推理的能力,在推理结果的有效性方面,基于大模型的推理甚至会高于很多AIOPS的算法模型。

image.png

我现在就经常使用GPT 4.0来帮我分析一些运维故障,推理问题的根因。对于非ZERO SHOT的问题,大模型推理的能力已经相当强悍,在很多情况下,已经完全能够替代人类专家了。前阵子我在文章中也介绍过一个利用GPT4.0分析一个十分复杂的PostgreSQL执行计划的案例。不过基于大模型的推理往往存在幻觉问题,这个问题暂时无解,因此基于大模型的推理也只能用于辅助,不能直接用于运维自动化中的重大决策。

既然使用单一技术很难解决复杂场景中的自动化运维的问题,那么结合这些技术的长处,使用鸡尾酒疗法能否解决这个问题呢?似乎这是目前我能够想到的比较好的解决方案吧。

image.png

上面是我最近一直在思考的智能化分析引擎的未来模型,这个模型会结合专家系统、智能化运维系统、AIGC三种不同的技术框架来完成一个具体的分析任务。为了实现三者能够协同工作,指标化是核心。整个过程中,需要构建一套通用的“国际语言”,让多种分析引擎能够综合利用共同分析的结果。在这张图中,我们可以看到,基于知识自动化的“运维知识点诊断”是确认诊断结果的最后一个环节。无论前面采用什么方法进行泛化、分析、归纳、抽象。最终必须通过十分确定的“自动化诊断”,才能确定问题,得到结论。AIOPS的最后一公里是“运维知识自动化”。

相关文章
|
2天前
|
机器学习/深度学习 存储 数据采集
智能运维:未来趋势与挑战
在数字化时代,运维(Operation and Maintenance)的角色变得越来越重要。随着云计算、大数据和人工智能等技术的发展,智能运维已经成为一种趋势。本文将探讨智能运维的概念、优势以及面临的挑战,并提供一些实施智能运维的建议。
|
2天前
|
机器学习/深度学习 人工智能 运维
自动化运维的演变之路:从脚本到智能
在数字化浪潮中,自动化运维如同一艘船,载着企业乘风破浪。本文将带你穿梭于自动化运维的历史长河,见证它如何从简单的脚本编写,发展成为今天集成了人工智能技术的智能运维平台。我们将探索这一变革背后的原因、影响以及面临的挑战,同时分享一些行业内的成功案例,为你的企业运维之旅提供启示和方向。
|
2天前
|
机器学习/深度学习 人工智能 运维
智能化运维:未来IT管理的革命之路
在数字化浪潮的推动下,企业对IT系统的稳定性和效率要求日益增高。传统的运维模式已难以满足现代业务的需求,智能化运维应运而生。本文将探讨智能化运维的概念、优势以及实施策略,旨在为企业提供一条提升IT管理效能的清晰路径。
21 3
|
5天前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI技术在IT管理中的创新应用
本文将探讨如何运用人工智能技术优化IT运维流程,提升效率并减少人为错误。我们将从智能监控、自动化响应到预测性维护等方面,分析AI在现代IT运维中的角色和价值。文章旨在为读者提供一种全新的视角,理解AI技术如何成为IT部门的强大盟友,并指出实施这些技术时可能遇到的挑战及应对策略。
|
10天前
|
机器学习/深度学习 缓存 运维
智能化运维:机器学习在IT管理中的革命性应用
【8月更文挑战第28天】 随着技术的飞速发展,传统的IT运维方式已不能满足现代企业的需求。智能化运维,通过整合机器学习技术,正在重塑我们对IT基础设施的管理方法。本文将探讨智能化运维的概念、实施步骤及其带来的变革,同时分享一些成功案例,以期为读者提供一种全新的视角和思考路径。
36 6
|
13天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维的崛起:AI在IT管理中的应用与挑战
【8月更文挑战第26天】 随着科技的不断进步,人工智能(AI)正逐步渗透到我们的工作和生活中。在IT运维领域,AI技术的引入不仅极大地提高了效率和准确性,还为传统的运维模式带来了颠覆性的变革。本文将探讨AI在IT运维中的应用实例、面临的挑战以及未来的发展方向,旨在为读者提供对智能化运维趋势的深入理解。
|
16天前
|
机器学习/深度学习 人工智能 运维
运维自动化之路:从手动到智能化的转变
【8月更文挑战第23天】随着技术的飞速发展,运维领域正经历着一场从传统手动操作向自动化、智能化过渡的变革。本文将探讨这一转型的必要性,分析自动化运维的优势,以及如何实施自动化策略,最终达到提升效率和稳定性的目的。
|
21天前
|
机器学习/深度学习 人工智能 运维
智能运维:未来趋势下的自动化与人工智能融合
【8月更文挑战第18天】 在数字化浪潮中,智能运维(AIOps)作为一股不可逆转的力量,正逐步改写传统运维的脚本。本文将探讨AIOps的核心要素、实施路径和面临的挑战,同时分享个人从新手到专家的心路历程,旨在启发读者思考如何在这一领域内持续成长并作出贡献。
51 6
|
15天前
|
运维 监控 安全
云时代下的运维转型之路:从反应式到主动智能
【8月更文挑战第23天】在数字化转型的浪潮中,传统的运维模式正面临前所未有的挑战。本文将探讨如何从被动应对故障的反应式运维,转变为通过数据驱动和智能化工具实现的主动智能运维。我们将深入分析现代运维的核心要素,包括自动化、监控、数据分析和团队文化的转变,以及这些变化如何帮助企业提升运维效率,降低风险,并最终实现业务价值的最大化。文章旨在为运维专业人士提供一条清晰的转型路径,帮助他们在云时代保持竞争力。
|
18天前
|
机器学习/深度学习 人工智能 运维
云原生时代的运维革新:从自动化到智能化的演进
【8月更文挑战第21天】 本文将带你走进云原生技术的世界,探究它如何重塑了运维(Operations)领域。我们将一起见证,随着云计算和微服务架构的兴起,传统运维模式如何逐步向自动化、智能化转变,并最终实现运维4.0的飞跃。文章以通俗易懂的语言,阐述了现代运维面临的挑战与机遇,并结合真实案例,展示了自动化工具和智能运维平台如何提升效率、降低风险。无论你是运维新手还是资深专家,这篇文章都将为你提供新的视角和思考。
下一篇
DDNS