AIOps已逝,欢迎进入AgenticOps(运维智能体)时代

本文涉及的产品
可观测监控 Prometheus 版,每月50GB免费额度
应用实时监控服务-应用监控,每月50GB免费额度
应用实时监控服务-可观测链路OpenTelemetry版,每月50GB免费额度
简介: GenAI和智能体技术的爆发,为IT运维打开了一扇新的大门,一个更具主动性、自治性和协作性的新时代已经来临,这就是AgenticOps(基于智能体的IT运维)。


传统运维工具已无力应对日益复杂的IT基础设施,而曾经被寄予厚望的AIOps在实际项目落地中遇到了太多瓶颈无法突破。直到今天,GenAI和智能体技术的爆发,为我们打开了一扇新的大门——一个更具主动性、自治性和协作性的新时代已经来临,这就是 AgenticOps(基于智能体的IT运维)。


1. 什么是AgenticOps?

AgenticOps,或称Agentic AIOps,是智能运维可以憧憬的一个新阶段。它不再仅仅依赖于单一的、宏大的机器学习模型进行预测或分类,而是构建一个由多个 “专业智能体” 组成的协同系统。


目前市场上还没有一个专业的定义,我们不妨在这里给他下一个定义:

Agentic Ops,是指主要由GenAI、AgenticAI、CausalAI 等联合驱动的、能够理解复杂目标、规划并执行任务序列,并在过程中动态学习和适应环境的智能体群所完成的运维工作

这些智能体不再是简单的脚本或规则引擎,而是具备自主推理、工具使用和相互协作能力的“AI员工”。它们共同构成了一个数字团队,7x24小时不间断地守护着IT环境的稳定与高效。

2. 为什么需要AgenticOps?

要理解AgenticOps的必要性,我们必须先回顾传统AIOps在落地中遇到的普遍瓶颈:

  • 场景落地停留在初级:传统AIOps的落地大多只能做异常检测和关联分析,无法进入到故障定位的环节。
  • 落地成本高、周期长:传统AIOps项目落地动辄数百万预算,多期交付,需要配备稀缺昂贵的算法工程师调参维护,建设性价比极低。
  • 知其然不知其所以然:传统的机器学习模型在处理复杂、跨域的故障链时,往往缺乏深度的因果推理能力,它们可以找到相关性。
  • 数据孤岛难以打破:尽管AIOps平台旨在统一数据,但打通从基础设施、网络、应用到业务层的全栈数据并进行上下文关联,难度太大。
  • 行动闭环缺失:这是最核心的痛点。AIOps发现了问题,但无法自主地、安全地去解决问题。

3.AgenticOps与AIOps的对比

我们可以用一个简单的比喻来理解二者的区别:

  • 传统AIOps 像一个高级驾驶辅助系统。它能告诉你“车速过快”、“前方有障碍物”,甚至能帮你紧急刹车,但方向盘始终掌握在人类驾驶员(运维工程师)手中。
  • AgenticOps 则像一个全自动驾驶系统。你只需设定目的地(业务SLO),它就能自主规划路线(故障处理流程)、操控方向盘和油门(执行命令)、应对突发路况(动态调整策略),并最终安全抵达。


具体来说:


特性

传统AIOps

AgenticOps

核心能力

清洗、检测、关联、告警

规划、推理、执行、协作

工作模式

被动响应,人机协同

主动自治,目标驱动

输出结果

洞察、警报、仪表盘

已完成的动作、已解决的故障

知识运用

依赖历史数据训练的模型

利用GenAI的理解和生成能力,结合专业工具

系统架构

集中式、单体平台

去中心化、多智能体联邦


4. AgenticOps的关键组成部分

AgenticOps由GenAI、AgenticAI、CausalAI的互补优势驱动。

以下是这三种技术协同工作的方式:

  • GenAI:负责将原始数据生成有意义的内容,如明文摘要、根本原因分析和修复步骤指南。它将复杂的技术数据转化为易于理解的洞察和建议。
  • AgenticAI:基于实时数据主动做出决策并实施决策,基于智能体的设计可以完成全面多样的运维操作,如故障诊断、运维值守、回滚配置、扩展资源或启动故障转移等,无需人工干预。
  • CausalAI:为遥测数据或环境实体提供因果关系,用于复杂场景的根因推理,克服大模型的幻觉。在一些特殊分析场景尤其重要。

通过结合的优势,AgenticOps超越了传统的IT监控。它使系统能够从被动反应——IT团队仅对问题做出反应——转变为主动应对,能够预测并在问题影响运营前预防。

一个成熟的AgenticOps系统通常由以下几个关键部分组成:

  1. 智能体:这是系统的基本单元。每个智能体都被赋予特定的角色和专长。
  2. 规划器:这是智能体团队的“大脑”。当目标下达后(如“解决数据库性能瓶颈”),规划器会将宏观目标分解为一系列具体的、可执行的任务,并分配给最合适的智能体。
  3. 工具与API:智能体需要通过“手”来与世界互动。这些“手”就是各种运维工具、云平台API、ITSM系统接口、脚本等。智能体被授权安全地调用这些工具来完成任务。
  4. 记忆与知识库:智能体拥有工作记忆(当前任务上下文)和长期记忆(从过去事件中学习的经验)。结合企业的知识库和GenAI的通用知识,智能体能够做出更明智的决策。
  5. 安全与护栏:这是确保AgenticOps可靠、可信的基石。它包括严格的权限控制、动作审批工作流、操作回滚机制以及实时的人机协同监督,确保智能体的任何操作都在安全边界内。


结语

今天先分享到这里,接下来我们会带来更多AgenticOps的内容。AgenticOps代表了智能运维的未来方向——从提供被动的、碎片化的“洞察”,迈向主动的、端到端的“行动”。它不再是工具的简单堆砌,而是创建一个能够自主管理、自我修复的IT生态系统。

相关文章
|
23小时前
|
云安全 人工智能 自然语言处理
|
5天前
|
搜索推荐 编译器 Linux
一个可用于企业开发及通用跨平台的Makefile文件
一款适用于企业级开发的通用跨平台Makefile,支持C/C++混合编译、多目标输出(可执行文件、静态/动态库)、Release/Debug版本管理。配置简洁,仅需修改带`MF_CONFIGURE_`前缀的变量,支持脚本化配置与子Makefile管理,具备完善日志、错误提示和跨平台兼容性,附详细文档与示例,便于学习与集成。
314 116
|
8天前
|
数据采集 人工智能 自然语言处理
Meta SAM3开源:让图像分割,听懂你的话
Meta发布并开源SAM 3,首个支持文本或视觉提示的统一图像视频分割模型,可精准分割“红色条纹伞”等开放词汇概念,覆盖400万独特概念,性能达人类水平75%–80%,推动视觉分割新突破。
568 53
Meta SAM3开源:让图像分割,听懂你的话
|
20天前
|
域名解析 人工智能
【实操攻略】手把手教学,免费领取.CN域名
即日起至2025年12月31日,购买万小智AI建站或云·企业官网,每单可免费领1个.CN域名首年!跟我了解领取攻略吧~
|
5天前
|
人工智能 Java API
Java 正式进入 Agentic AI 时代:Spring AI Alibaba 1.1 发布背后的技术演进
Spring AI Alibaba 1.1 正式发布,提供极简方式构建企业级AI智能体。基于ReactAgent核心,支持多智能体协作、上下文工程与生产级管控,助力开发者快速打造可靠、可扩展的智能应用。
|
4天前
|
弹性计算 人工智能 Cloud Native
阿里云无门槛和有门槛优惠券解析:学生券,满减券,补贴券等优惠券领取与使用介绍
为了回馈用户与助力更多用户节省上云成本,阿里云会经常推出各种优惠券相关的活动,包括无门槛优惠券和有门槛优惠券。本文将详细介绍阿里云无门槛优惠券的领取与使用方式,同时也会概述几种常见的有门槛优惠券,帮助用户更好地利用这些优惠,降低云服务的成本。
267 132
|
8天前
|
机器学习/深度学习 人工智能 自然语言处理
AgentEvolver:让智能体系统学会「自我进化」
AgentEvolver 是一个自进化智能体系统,通过自我任务生成、经验导航与反思归因三大机制,推动AI从“被动执行”迈向“主动学习”。它显著提升强化学习效率,在更少参数下实现更强性能,助力智能体持续自我迭代。开源地址:https://github.com/modelscope/AgentEvolver
406 29
|
14天前
|
安全 Java Android开发
深度解析 Android 崩溃捕获原理及从崩溃到归因的闭环实践
崩溃堆栈全是 a.b.c?Native 错误查不到行号?本文详解 Android 崩溃采集全链路原理,教你如何把“天书”变“说明书”。RUM SDK 已支持一键接入。
713 224