阿里云 STAROps 全域智能运维平台发布!从“被动救火”到“主动自治”

简介: 阿里云以 STAROps 为起点,将 Agentic Ops 从概念推向生产级落地。

5 月 20 日,阿里云正式发布 AI 原生全域智能运维平台 STAROps。


该平台以大模型与智能体技术为核心引擎,以阿里云可观测产品体系为数据底座,将跨域可观测数据与大语言模型推理能力深度融合,用户只需以自然语言定义运维目标,运维智能体即可自主完成动态规划、安全执行与结果验证的全闭环。

STAROps 围绕 Sense 全域感知、Target 目标导向、Autonomy 自主运维、Resilience 业务韧性四大能力维度设计,提供三大核心功能:


  • 智能助手将自然语言直接转化为跨域观测数据的统一查询与诊断结果,告警分析、指标解读、日志诊断在一个对话窗口内完成,无需多平台切换;
  • 长期任务机制让 Agent 接管巡检、告警分析、周期报告等高频重复工作,一次目标对齐即可自主执行跨天乃至跨月级异步运维计划;
  • 数字员工让企业为每个团队构建专属 SRE 智能体,自定义职责、权限与工具集,将专家经验一次性固化为角色规则。


在技术架构层面,STAROps 的竞争力体现在四个维度,让 Agentic Ops 落地生产级运维环境。


统一可观测数据

整合日志/指标/链路/事件/拓扑/变更等跨域数据统一存储,提供 PB 级日写入、EB 级存储、千亿数据秒级分析的低延迟、多可用区部署等能力(可靠性 99.99%)。

运维数字孪生

基于实体、关系、观测数据和运维知识构建统一图模型(UModel),结构化应用、服务、资源、告警和变更关系,让 Agent 在同一上下文中理解系统、追踪影响并推理根因。

AI 分析算子

沉淀异常检测、日志聚类、链路分析、性能剖析、变更回溯等通用分析能力,减少大模型直接处理海量原始数据的成本,提升问题分析、诊断效率和结果稳定性。

持续进化飞轮

构建贴近真实场景的仿真、故障注入、诊断评估和反馈闭环,基于线上和线下的全链路评估体系,持续优化效果,形成可评估、可回滚、可进化的智能体迭代体系。

云计算的本质就是以高效方式将计算机资源编排为服务,STAROps 所做的正是将这一原则延伸到运维领域。通过 Agent 对运维操作的规模化编排调度,实现人力密集型运维工作的智能化。STAROps 的数字员工机制恰恰为企业提供了这种渐进式路径:既支持在现有流程中嵌入 AI 提效,也支持构建全新的 Agent 原生运维模式。


在接入形态上,STAROps 提供 OpenAPI 与 MCP 集成、页面内嵌、主流 IM 接入等多种接入方案,企业可以最低迁移成本在现有工作流中释放价值。平台内置的人工审批机制确保关键决策节点仍由人工把控,在 Agent 自主执行效率与安全合规之间取得平衡。


伴随产品发布,阿里云同步开源 UModel RCA-100 评测基准集,并联合信通院、小鹏汽车、中科院软件等 10 逾家行业伙伴与学术机构共同发起《企业通用语义标准行业倡议》。

目前,STAROps 已在阿里云官网正式上线当 AI 重塑软件研发的每一个环节,运维作为保障业务韧性的最后防线,正迎来从工具辅助到 Agent 自治的范式跃迁。阿里云以 STAROps 为起点,将 Agentic Ops 从概念推向生产级落地。

相关文章
|
15天前
|
人工智能 运维 Kubernetes
阿里云正式发布 RCA Benchmark,业界首个面向 Agentic Ops 的根因分析开源基准体系
阿里云联合信通院、中科院软件所/计算机网络信息中心、清华大学、复旦大学、南开大学,正式开源首个面向 Agentic Ops 根因分析评估基准RCA Benchmark。通过构建数据集、评估协议与仿真环境,帮助衡量 AI Agent 故障诊断能力,为行业落地夯实底座。
|
15天前
|
存储 人工智能 运维
让智能无界协作:UModel 正式开源,发起通用语义标准倡议
让数据说同一种语言,让智能无界协作。阿里云正式开源 UModel,并携手信通院、中科院、畅捷通、神州商龙、小鹏汽车、卓驭科技、嘉立创科技等企业伙伴与学术机构共同发起通用语义标准倡议。
450 12
|
15天前
|
消息中间件 人工智能 Apache
|
15天前
|
人工智能 缓存 运维
重磅发布丨云监控 AI Agent 可观测,企业生产级 Agent 首选全域观测平台
AI Agent 可观测是面向企业生产级 Agent 的全域观测平台,提供从接入、建模、分析到 Agentic Ops 的全域观测和分析能力,帮助企业彻底打开 Agent 的黑箱,实现 Agent 执行过程的可追踪、可诊断、可优化。
350 16
|
15天前
|
存储 人工智能 运维
本体论 Ontology 泛谈丨如何帮企业应对 Tokenmaxxing 困局
阿里云近期发布的全域智能运维平台 STAROps,将大模型技术、UModel、RCA、RCA benchmark 进行有机结合,是国内在 AIOps 方向上把 Ontology 落地得较为完整的实践。
317 11
|
15天前
|
消息中间件 人工智能 运维
Agentic AICon【智能体基础设施与 AgentOps 专场】精彩回顾 & PPT 下载
Agentic AICon【智能体基础设施与 AgentOps 专场】精彩回顾 & PPT 下载。
|
15天前
|
人工智能 运维 监控
阿里云的 Agent Infra 长什么样
分享了团队在 Agent 工程化领域的完整思考与产品实践,从构建、部署到规模化运行,如何用一套 Agent Infra 覆盖智能体的开发-运行-治理-运维-优化全周期。
|
15天前
|
人工智能 安全 决策智能
欢迎报名丨2026 Agentic AICon—智能体基础设施与 AgentOps 专场,邀您参会
6 月 5 日上海,2026 Agentic AICon「智能体基础设施与 AgentOps」专场,聚焦 Agent 规模化落地的基础设施层,覆盖从构建、部署到规模化运行的全生命周期,为企业智能体工程化落地提供完整路径。
|
1月前
|
数据采集 人工智能 安全
阿里巴巴 & 蚂蚁共建 LoongSuite GenAI 可观测语义规范:从统一数据语言到规模化落地
阿里巴巴与蚂蚁集团联合推出 LoongSuite GenAI 可观测语义规范,在 OpenTelemetry 标准之上,为 AI Agent、Skill、Token 级推理等场景建立统一数据语言。从链路追踪到引擎“显微镜”,本文揭秘如何让 GenAI 应用真正可看见、可分析、可治理。
304 20
|
15天前
|
人工智能 JavaScript 编译器
限时免费:云效 AI 代码评审新增跨文件感知,改一处查全局
云效 AI 代码评审新增跨文件感知能力,免费开放。改了一个函数,AI 自动追踪所有调用方,提 MR 时就能发现那些藏在 Diff 之外的风险。实测召回率提升 19 个百分点。