从报警风暴到主动免疫:吉利汽车智能运维落地实践

简介: 分享我们和阿里云 STAROps 一起,共建高质量智能运维的三步路径。

关于智能运维,在讨论“AI 会替代多少运维工程师”之外,企业更关心真实环境下的落地问题怎么解决,比如跨云环境下数据怎么打通,复杂系统的告警噪声怎么治理,运维团队的角色到底在往哪个方向变。

我是宋鸣,吉利汽车用户数据中心数据质量部长。伴随吉利业务的快速发展与整合,我们的系统规模和复杂度都在指数级增长,也让我们比同行更早面对“传统运维模式见顶”的问题。

我们没有等,而是主动选择用 AI 重建运维逻辑。这篇文章,我想分享吉利汽车基于阿里云全域智能运维平台 STAROps 向智能运维转型的过程,以及摸索出的几个关键判断。

曾经令人焦虑的「报警风暴」

我们和阿里云从 2021 年开始就是紧密的合作伙伴,极氪集团成立起,双方持续推进云原生改造,期间车型发布会保障场景下,实现了 50 万 QPS 的瞬时并发峰值支撑,这在整个汽车行业都是亮眼的成绩。


伴随极氪并入吉利集团、核心应用走向统一技术栈,我们的运维复杂度被拉升到了另一个量级:数百个系统分布在多云、跨机房、跨业务线的环境里,拓扑全是黑盒;各系统的日志、链路、指标各自为政,数据完全串不起来。线上稳定性成了我们每天最头疼的最高优先级问题。


几乎所有大型企业运维团队都将“1 分钟发现、5 分钟定位、30 分钟恢复”视为黄金 SLA。但这样的系统复杂度下,按传统搞法真的很难。线上故障一发生,监控屏上瞬间涌出几百条告警时,你知道出了问题,却找不到源头在哪,靠人去层层排查是哪个系统先报的错,平均恢复动辄一两个小时。对车企面向用户的实时业务来说,这是不可接受的。


所有矛盾最终指向同一个问题:快速定位故障根因。这也是我们选择 STAROps 的初衷:传统方式已经见顶了,我们必须引入智能运维的方式去破局。

没有高质量的架构资产,就没有高质量的智能运维

回顾我们踩过最大的坑,不是技术选型,是认知观念。大部分人以为有了智能运维产品就像买了台扫地机器人,通电就能自己跑。实际落地就会发现,如果没有一整套匹配的体系和规范,寸步难行。


开始我们也抱有这样的预期,我们接触 STAROps 很早,初期也会认为有了这样成熟的产品,就可以自动完成系统间的资源关联、拓扑等。但引入后发现,其实中间件、日志、调用链路等数据之间处处存在断点。


没有基础的治理,AI 根本没办法识别谁是谁,哪些信息是干扰,哪些才是根本问题。举 2 个具体的例子:


  • 为了高可用,有些系统是跨机房部署的,甚至是跨云的,日志都不在一起,我们怎么去串联它?
  • 系统之间数据库账号混用,出了问题后如何判断是哪个服务引发的?


踩完这些坑我们得到一个判断,也许是很多企业还没有意识到的:运维的架构资产也是资产,数据质量也是资产。没有高质量的架构资产,就没有高质量的智通运维。 我们必须先把统一定义、补全架构、理清拓扑这些底子打好,AI 才能真正发力。

共建数据底座的三步路径

在可观测领域,数据的复杂度尤其高,不同云平台、不同基础设施产生的数据,加上企业内部沉淀的自有数据,构成了高度异构的环境。和阿里云团队合作之后,我们逐渐理解了 STAROps 的核心逻辑,不是把一个单一产品直接交付给企业,而是从数据准备阶段开始,就和客户一起共建这套体系。


  • 首先是统一数据。阿里云去年发布的云监控 2.0,核心就是解决这个问题,即把散落在各处的异构数据,实现统一存储、统一分析、统一查看。这是所有智能化能力的前提。
  • 第二步是理解数据。数据统一之后,还需要让智能体读懂数据之间的关联关系。这一步依托的是阿里云的 UModel(Unified Model),也是我们认为非常有价值的一环。通过 UModel 能够自动为云上资源进行建模,更关键的是这个建模体系是开放的。我们可以把自己内部沉淀的资源、拓扑、业务模型加进去,让整个智能体真正“看懂”我们的 IT 世界、理解我们的数据关系。
  • 第三步是持续共建。STAROps 真正做的事情是和企业一起把整个数据准备、数据分析做扎实,让你问它一个问题时,它能准确回答。很多实践中的难题,需要我们双方一起摸索、共同趟出来。

运维从执行者到运营者的角色重塑

当智能体接管了大量重复劳动之后,我们最直观的感受,就是运维团队从执行者变成了运营者。


传统运维是什么?接到开发或者运营提的工单,一单单去被动处理、去响应。现在很多单据、很多处理甚至问题,已经基于体系治理被自动化、标准化了,运维团队就可以把线上的整套环境作为自己经营的一块阵地。一旦有系统部署上来,提供的是从部署到稳定运行的一整套服务。大家不再只是被动接报警的“工具人”,而是变成了工具的构建者、流程的设计者和架构资产的维护者,可以将更多的时间放在架构规划、流程设计、制度制定上,保证平台上的系统一切都是可控的、稳定的。

当然,推进的过程中确实有“两种声音”并存。


坦白说,一线开发团队对智能体的接受度并不一致。高压排障时,很多人还是本能地想去翻日志用老办法,觉得 AI 有时候理解不了复杂上下文,怕它“胡说八道”,反而形成干扰。


但是“真香定律”很快就出现了。大家发现,AI 确实能一秒钟帮你过滤掉大量没用的报错信息,快速提供排查思路。现在大家甚至希望能把监控报警全接入 AIOps 的根因定位,甚至自动去跑应急恢复策略。


比如在测试环境联调场景,大家对 AI 就表现出了更高的接纳度。我们建了生产和测试两套环境,在测试环境联调时一旦出现问题直接抛给它,团队之间的沟通协同成本被显著拉低。这也是我们目前在 STAROps 上挖掘出的一个高性价比场景。更多 STAROps 的玩法和想象空间,我们还在持续挖掘。这是一个信任建立的过程,你先把它用在哪儿,这很关键。

智能运维应该成为 AI 时代的基础设施

我们认为智能运维未来不应该只局限于运维人员的工作中,而是真正武装到每一个开发和运维人员的手中、贯彻到研发全流程当中去。比如在 AI Coding 的过程中引入 STAROps 实现开发运维一体化;在测试阶段,AI 发现问题能自动根因定位并提示代码修复;在灰度部署时,能自动监控并触发回滚。


我们也希望 STAROps 能够继续“降门槛”和“做下沉”,能力不局限于某一个平台上,而是能够像插件一样,更加开放地嵌到我们每一个开发同学的本地 IDE 里,嵌入 CI/CD 流水线,与企业整个研发体系做深度集成,从而成为每一个工程师随手可用的基础设施,而非只有运维专家才能驾驭的工具。


与此同时,吉利自己也在做对应的事情。我们正在把治愈模块做成标准命令,让模型能够直接调用。企业侧构建资产,产品侧提供模型能力,拼在一起才能形成完整闭环。这是一个深度合作的过程。

智能运维的终极目标,是消灭“运维焦虑”

智能运维的终极目标,不是消灭故障,因为故障永远会发生,它的目标是消灭“运维焦虑”。当工程师能安心睡觉、业务方不再被凌晨叫醒、团队的精力从“猜故障”转向“创价值”,这才是技术真正传递的温度。


从“人找问题”到“问题找人”,从“经验驱动”到“数据+ AI 驱动”,这一路走来,我看到三层正在发生的迁移。技术上,传统“监控—报警—工单”的链路正在被“可观测数据—统一建模—智能体诊断—自动治愈”的新链路替代。组织上,运维团队从被动响应的“工单处理者”转向主动经营的“平台运营者”。观念上,每个企业的体系都是不一样的,智能体的能力,需要和人类一起持续打磨优化,是一个以数据治理为底座、以产品能力为引擎、以组织协作为保障的系统工程。


我们和阿里云 STAROps 的合作还将持续,而且方向已经清晰。

相关文章
|
1小时前
|
人工智能 自然语言处理 文字识别
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
Qwen3.7-Max是阿里云百炼面向智能体时代推出的新一代旗舰模型,对标GPT-5.5、Claude Opus 4.7等闭源旗舰。该模型支持百万级token上下文窗口,具备顶级推理能力、多模态搜索与视觉理解增强、流式输出低延迟响应等核心优势,覆盖编程、办公、长周期自主执行等复杂场景。同时支持OpenAI接口兼容,便于系统快速迁移。用户可通过Token Plan团队或节省计划等订阅方式灵活调用,适合企业级高要求场景使用。
7182 31
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
|
1小时前
|
数据采集 人工智能 前端开发
让 Coding Agent 从黑盒到透明:阿里云 Agent 观测审计数据采集实践
AI Agent 规模化落地带来执行黑盒、行为难追溯、成本难度量三大难题。阿里云基于 OTel 标准,面向 Coding Agent、个人通用助理和框架型 Agent,推出 LoongSuite Pilot、插件及探针等无侵入采集方案,让 Agent 实现可看见、可分析、可审计、可治理。
625 140
|
1小时前
|
人工智能 缓存 自然语言处理
阿里Qwen3.7-Max评测:Agent能力显著提升,耗时与调用成本大幅下降
阿里云百炼推出面向智能体的旗舰大模型Qwen3.7-Max,具备长周期自主执行能力,显著提升编程、办公自动化等复杂任务处理水平;支持MCP集成与多框架兼容,并以限时5折+100万Tokens免费试用大幅降低使用门槛,助力企业高效落地AI应用。在阿里云百炼平台快速体验:https://t.aliyun.com/U/fPVHqY
|
1小时前
|
人工智能 弹性计算 运维
阿里云发布堡垒机智能运维Agent,运维交互进入自然语言新时代
支持自然语言运维,提升效率与安全双保障。
1158 1
|
1小时前
|
人工智能 安全 定位技术
CodeGraph深度解析 让Claude Code工具调用直降七成的核心原理与实操教程
如今以Claude Code为代表的AI编程智能体已经成为开发者日常编码、项目重构、漏洞修复的必备工具。但在长期使用过程中,几乎所有开发者都会遇到同一个明显痛点:AI虽然具备强大的代码生成与分析能力,却常常陷入盲目探索的循环中。
1221 2
|
1小时前
|
存储 定位技术 数据库
CodeGraph 如何让 Claude Code减少 7 成工具调用?
CodeGraph 为 Coding Agent 提供本地代码知识图谱,把函数、类、调用链和框架路由提前整理成“项目地图”,减少盲目搜索和文件读取。它不是新 Agent,而是上下文基础设施,让 Agent 更快找到正确代码路径,平均减少 7 成工具调用。
1296 3
|
1小时前
|
人工智能 弹性计算 安全
阿里云618活动时间、活动入口、优惠活动详细解读
2026年阿里云618创新加速季已全面开启,作为年度力度最大的云产品促销活动,本次大促覆盖轻量应用服务器、ECS云服务器、GPU云服务器、数据库、AI算力、安全服务、CDN等全品类产品,推出5亿元算力补贴、新用户限时秒杀、普惠满减、企业专享、免费试用、云大使返佣等多重福利,个人开发者、中小企业、AI团队均可享受专属低价。本文将系统梳理2026年阿里云618活动的完整时间节点、官方参与入口、各类优惠细则、使用规则、热门产品推荐及实操代码,帮助用户精准参与、高效省钱,以最低成本完成上云部署。
1043 5
|
1小时前
|
人工智能 自然语言处理 算法
|
1小时前
|
人工智能 自然语言处理 安全
Vibe Coding 实战:别盲目跟风,先分清 vibe coding 适合什么场景
本文系统总结vibe coding实战经验:明确其适用场景(原型、小工具、标准化模块),剖析5步落地流程(场景判定→结构化提示词→目录初始化→分模块生成→自动化校验),指出四大常见误区,并推荐适配工具Trae。强调“场景匹配+规则前置”是提效关键,避免盲目套用。
853 1
|
1小时前
|
人工智能 运维 API
2026年阿里云百炼通义千问Qwen3.7-plus深度介绍 功能特性、使用优势及618大促订阅方案指南
大模型技术的普及,让AI能力逐步融入个人办公、内容创作、代码编写、企业运营、教育培训等各类场景。不同定位的模型对应不同使用需求,旗舰级模型性能强劲但使用成本偏高,轻量化模型价格低廉却难以胜任复杂任务,而介于两者之间的中端主力模型,凭借均衡的能力、亲民的定价、广泛的场景适配性,成为绝大多数个人用户、小型团队、中小企业的首选。
404 1

热门文章

最新文章