AIOps已逝,欢迎进入AgenticOps(运维智能体)时代

简介: GenAI和智能体技术的爆发,为IT运维打开了一扇新的大门,一个更具主动性、自治性和协作性的新时代已经来临,这就是AgenticOps(基于智能体的IT运维)。


传统运维工具已无力应对日益复杂的IT基础设施,而曾经被寄予厚望的AIOps在实际项目落地中遇到了太多瓶颈无法突破。直到今天,GenAI和智能体技术的爆发,为我们打开了一扇新的大门——一个更具主动性、自治性和协作性的新时代已经来临,这就是 AgenticOps(基于智能体的IT运维)。


1. 什么是AgenticOps?

AgenticOps,或称Agentic AIOps,是智能运维可以憧憬的一个新阶段。它不再仅仅依赖于单一的、宏大的机器学习模型进行预测或分类,而是构建一个由多个 “专业智能体” 组成的协同系统。


目前市场上还没有一个专业的定义,我们不妨在这里给他下一个定义:

Agentic Ops,是指主要由GenAI、AgenticAI、CausalAI 等联合驱动的、能够理解复杂目标、规划并执行任务序列,并在过程中动态学习和适应环境的智能体群所完成的运维工作

这些智能体不再是简单的脚本或规则引擎,而是具备自主推理、工具使用和相互协作能力的“AI员工”。它们共同构成了一个数字团队,7x24小时不间断地守护着IT环境的稳定与高效。

2. 为什么需要AgenticOps?

要理解AgenticOps的必要性,我们必须先回顾传统AIOps在落地中遇到的普遍瓶颈:

  • 场景落地停留在初级:传统AIOps的落地大多只能做异常检测和关联分析,无法进入到故障定位的环节。
  • 落地成本高、周期长:传统AIOps项目落地动辄数百万预算,多期交付,需要配备稀缺昂贵的算法工程师调参维护,建设性价比极低。
  • 知其然不知其所以然:传统的机器学习模型在处理复杂、跨域的故障链时,往往缺乏深度的因果推理能力,它们可以找到相关性。
  • 数据孤岛难以打破:尽管AIOps平台旨在统一数据,但打通从基础设施、网络、应用到业务层的全栈数据并进行上下文关联,难度太大。
  • 行动闭环缺失:这是最核心的痛点。AIOps发现了问题,但无法自主地、安全地去解决问题。

3.AgenticOps与AIOps的对比

我们可以用一个简单的比喻来理解二者的区别:

  • 传统AIOps 像一个高级驾驶辅助系统。它能告诉你“车速过快”、“前方有障碍物”,甚至能帮你紧急刹车,但方向盘始终掌握在人类驾驶员(运维工程师)手中。
  • AgenticOps 则像一个全自动驾驶系统。你只需设定目的地(业务SLO),它就能自主规划路线(故障处理流程)、操控方向盘和油门(执行命令)、应对突发路况(动态调整策略),并最终安全抵达。


具体来说:


特性

传统AIOps

AgenticOps

核心能力

清洗、检测、关联、告警

规划、推理、执行、协作

工作模式

被动响应,人机协同

主动自治,目标驱动

输出结果

洞察、警报、仪表盘

已完成的动作、已解决的故障

知识运用

依赖历史数据训练的模型

利用GenAI的理解和生成能力,结合专业工具

系统架构

集中式、单体平台

去中心化、多智能体联邦


4. AgenticOps的关键组成部分

AgenticOps由GenAI、AgenticAI、CausalAI的互补优势驱动。

以下是这三种技术协同工作的方式:

  • GenAI:负责将原始数据生成有意义的内容,如明文摘要、根本原因分析和修复步骤指南。它将复杂的技术数据转化为易于理解的洞察和建议。
  • AgenticAI:基于实时数据主动做出决策并实施决策,基于智能体的设计可以完成全面多样的运维操作,如故障诊断、运维值守、回滚配置、扩展资源或启动故障转移等,无需人工干预。
  • CausalAI:为遥测数据或环境实体提供因果关系,用于复杂场景的根因推理,克服大模型的幻觉。在一些特殊分析场景尤其重要。

通过结合的优势,AgenticOps超越了传统的IT监控。它使系统能够从被动反应——IT团队仅对问题做出反应——转变为主动应对,能够预测并在问题影响运营前预防。

一个成熟的AgenticOps系统通常由以下几个关键部分组成:

  1. 智能体:这是系统的基本单元。每个智能体都被赋予特定的角色和专长。
  2. 规划器:这是智能体团队的“大脑”。当目标下达后(如“解决数据库性能瓶颈”),规划器会将宏观目标分解为一系列具体的、可执行的任务,并分配给最合适的智能体。
  3. 工具与API:智能体需要通过“手”来与世界互动。这些“手”就是各种运维工具、云平台API、ITSM系统接口、脚本等。智能体被授权安全地调用这些工具来完成任务。
  4. 记忆与知识库:智能体拥有工作记忆(当前任务上下文)和长期记忆(从过去事件中学习的经验)。结合企业的知识库和GenAI的通用知识,智能体能够做出更明智的决策。
  5. 安全与护栏:这是确保AgenticOps可靠、可信的基石。它包括严格的权限控制、动作审批工作流、操作回滚机制以及实时的人机协同监督,确保智能体的任何操作都在安全边界内。


结语

今天先分享到这里,接下来我们会带来更多AgenticOps的内容。AgenticOps代表了智能运维的未来方向——从提供被动的、碎片化的“洞察”,迈向主动的、端到端的“行动”。它不再是工具的简单堆砌,而是创建一个能够自主管理、自我修复的IT生态系统。

相关文章
|
3月前
|
运维 监控 数据可视化
别让运维跪着查日志了!给老板看的“业务观测”大盘才是真香
深夜告警、业务暴跌、全员背锅?一次支付故障暴露传统监控盲区。我们通过业务观测,将技术指标转化为老板听得懂的“人话”,实现从被动救火到主动洞察的跨越。让技术团队不再跪着查日志,而是站着驱动业务增长。
别让运维跪着查日志了!给老板看的“业务观测”大盘才是真香
|
2月前
|
存储 人工智能 运维
云栖实录:重构可观测 - 打造大模型驱动的云监控 2.0 与 AIOps 新范式
大模型时代驱动智能运维变革,阿里云通过统一可观测平台、UModel数字孪生与AIOps Agent,实现数据、认知、决策的全链路升级,重构运维新范式。
376 0
|
4月前
|
人工智能 弹性计算 运维
AI驱动下的云平台运维效率变革,让系统更聪明,让人更专注!
随着AI时代的到来,如何上好云、用好云、管好云是政企客户面临的共同话题,而云平台已成为支撑其业务运行的核心基础设施。分布式、多Region、声明式、异构等技术的广泛应用,带来了架构灵活性和部署效率的提升,但也让运维工作变得前所未有的复杂。
545 5
|
3月前
|
运维 监控 数据可视化
故障发现提速 80%,运维成本降 40%:魔方文娱的可观测升级之路
魔方文娱携手阿里云构建全栈可观测体系,实现故障发现效率提升 80%、运维成本下降 40%,并融合 AI 驱动异常检测,迈向智能运维新阶段。
389 53
|
3月前
|
机器学习/深度学习 人工智能 缓存
让AI评测AI:构建智能客服的自动化运营Agent体系
大模型推动客服智能化演进,从规则引擎到RAG,再到AI原生智能体。通过构建“评估-诊断-优化”闭环的运营Agent,实现对话效果自动化评测与持续优化,显著提升服务质量和效率。
1836 86
让AI评测AI:构建智能客服的自动化运营Agent体系
|
3月前
|
人工智能 前端开发 算法
大厂CIO独家分享:AI如何重塑开发者未来十年
在 AI 时代,若你还在紧盯代码量、执着于全栈工程师的招聘,或者仅凭技术贡献率来评判价值,执着于业务提效的比例而忽略产研价值,你很可能已经被所谓的“常识”困住了脚步。
1738 89
大厂CIO独家分享:AI如何重塑开发者未来十年
|
11天前
|
人工智能 负载均衡 安全
探秘 AgentRun|流量一大就瘫痪?如何解决AI 模型调用之痛
阿里云函数计算AgentRun全新发布,推出“探秘AgentRun”系列,聚焦企业落地Agent的模型稳定性、安全与治理难题。通过统一模型管理、多模型接入、高可用治理策略(主备切换、负载均衡、智能路由等),实现生产级可靠调用。支持无代码快速搭建与高代码深度定制,助力Agentic AI高效进入生产环境。欢迎加入钉钉群134570017218交流体验。
|
2月前
|
存储 人工智能 运维
企业Agent解决方案全解析:从技术原理到落地实践,一文扫清
企业Agent正重塑数字化转型:作为具备自主决策能力的“数字员工”,它打通系统孤岛、实现流程闭环,提升效率72%。从金融风控到智能制造,覆盖多行业场景,2025年全球市场规模超1200亿美元。选型需聚焦场景、集成、安全与服务,未来将迈向多Agent协同与行业深度定制。
625 0
|
2月前
|
运维 Prometheus 数据可视化
如何一键接入opentelemetry项目,实现可观测分析
本文揭秘如何通过Databuff实现OpenTelemetry的无缝接管,无需改造现有Collector,10分钟完成部署,实现服务与资源间的因果可观测性,呈现云网空间地图,助力运维智能化。
|
3月前
|
人工智能 运维 Cloud Native
一起聊聊大规模 AI Agent 部署与运维实战
诚挚地邀请您参加将于 11 月 28 日(周五)下午,在北京阿里中心举办的 【企业 AI 原生应用架构升级】主题研讨会。