传统运维工具已无力应对日益复杂的IT基础设施,而曾经被寄予厚望的AIOps在实际项目落地中遇到了太多瓶颈无法突破。直到今天,GenAI和智能体技术的爆发,为我们打开了一扇新的大门——一个更具主动性、自治性和协作性的新时代已经来临,这就是 AgenticOps(基于智能体的IT运维)。
1. 什么是AgenticOps?
AgenticOps,或称Agentic AIOps,是智能运维可以憧憬的一个新阶段。它不再仅仅依赖于单一的、宏大的机器学习模型进行预测或分类,而是构建一个由多个 “专业智能体” 组成的协同系统。
目前市场上还没有一个专业的定义,我们不妨在这里给他下一个定义:
Agentic Ops,是指主要由GenAI、AgenticAI、CausalAI 等联合驱动的、能够理解复杂目标、规划并执行任务序列,并在过程中动态学习和适应环境的智能体群所完成的运维工作。
这些智能体不再是简单的脚本或规则引擎,而是具备自主推理、工具使用和相互协作能力的“AI员工”。它们共同构成了一个数字团队,7x24小时不间断地守护着IT环境的稳定与高效。
2. 为什么需要AgenticOps?
要理解AgenticOps的必要性,我们必须先回顾传统AIOps在落地中遇到的普遍瓶颈:
- 场景落地停留在初级:传统AIOps的落地大多只能做异常检测和关联分析,无法进入到故障定位的环节。
- 落地成本高、周期长:传统AIOps项目落地动辄数百万预算,多期交付,需要配备稀缺昂贵的算法工程师调参维护,建设性价比极低。
- 知其然不知其所以然:传统的机器学习模型在处理复杂、跨域的故障链时,往往缺乏深度的因果推理能力,它们可以找到相关性。
- 数据孤岛难以打破:尽管AIOps平台旨在统一数据,但打通从基础设施、网络、应用到业务层的全栈数据并进行上下文关联,难度太大。
- 行动闭环缺失:这是最核心的痛点。AIOps发现了问题,但无法自主地、安全地去解决问题。
3.AgenticOps与AIOps的对比
我们可以用一个简单的比喻来理解二者的区别:
- 传统AIOps 像一个高级驾驶辅助系统。它能告诉你“车速过快”、“前方有障碍物”,甚至能帮你紧急刹车,但方向盘始终掌握在人类驾驶员(运维工程师)手中。
- AgenticOps 则像一个全自动驾驶系统。你只需设定目的地(业务SLO),它就能自主规划路线(故障处理流程)、操控方向盘和油门(执行命令)、应对突发路况(动态调整策略),并最终安全抵达。
具体来说:
特性 |
传统AIOps |
AgenticOps |
核心能力 |
清洗、检测、关联、告警 |
规划、推理、执行、协作 |
工作模式 |
被动响应,人机协同 |
主动自治,目标驱动 |
输出结果 |
洞察、警报、仪表盘 |
已完成的动作、已解决的故障 |
知识运用 |
依赖历史数据训练的模型 |
利用GenAI的理解和生成能力,结合专业工具 |
系统架构 |
集中式、单体平台 |
去中心化、多智能体联邦 |
4. AgenticOps的关键组成部分
AgenticOps由GenAI、AgenticAI、CausalAI的互补优势驱动。
以下是这三种技术协同工作的方式:
- GenAI:负责将原始数据生成有意义的内容,如明文摘要、根本原因分析和修复步骤指南。它将复杂的技术数据转化为易于理解的洞察和建议。
- AgenticAI:基于实时数据主动做出决策并实施决策,基于智能体的设计可以完成全面多样的运维操作,如故障诊断、运维值守、回滚配置、扩展资源或启动故障转移等,无需人工干预。
- CausalAI:为遥测数据或环境实体提供因果关系,用于复杂场景的根因推理,克服大模型的幻觉。在一些特殊分析场景尤其重要。
通过结合的优势,AgenticOps超越了传统的IT监控。它使系统能够从被动反应——IT团队仅对问题做出反应——转变为主动应对,能够预测并在问题影响运营前预防。
一个成熟的AgenticOps系统通常由以下几个关键部分组成:
- 智能体:这是系统的基本单元。每个智能体都被赋予特定的角色和专长。
- 规划器:这是智能体团队的“大脑”。当目标下达后(如“解决数据库性能瓶颈”),规划器会将宏观目标分解为一系列具体的、可执行的任务,并分配给最合适的智能体。
- 工具与API:智能体需要通过“手”来与世界互动。这些“手”就是各种运维工具、云平台API、ITSM系统接口、脚本等。智能体被授权安全地调用这些工具来完成任务。
- 记忆与知识库:智能体拥有工作记忆(当前任务上下文)和长期记忆(从过去事件中学习的经验)。结合企业的知识库和GenAI的通用知识,智能体能够做出更明智的决策。
- 安全与护栏:这是确保AgenticOps可靠、可信的基石。它包括严格的权限控制、动作审批工作流、操作回滚机制以及实时的人机协同监督,确保智能体的任何操作都在安全边界内。
结语
今天先分享到这里,接下来我们会带来更多AgenticOps的内容。AgenticOps代表了智能运维的未来方向——从提供被动的、碎片化的“洞察”,迈向主动的、端到端的“行动”。它不再是工具的简单堆砌,而是创建一个能够自主管理、自我修复的IT生态系统。