我做了一个 Loki AI 事故分析引擎，已上架阿里云计算巢

2026-04-14 613

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 后端开发者Luke打造Loki AI事故分析引擎，已上架阿里云计算巢！支持自动拉取Loki日志、调用Qwen/DeepSeek大模型智能根因分析，1-2分钟生成结构化报告（含根因、建议、时间线等），并推送至企微/钉钉。私有化部署，数据不出阿里云账号。

我做了一个 Loki AI 事故分析引擎，已上架阿里云计算巢

作者：Luke
发布时间：2026年4月

作为一名后端开发者，我日常工作中最头疼的就是微服务故障定位和事故复盘。

每次出现 UnknownHostException、链路超时等问题，都要手动翻几万行 Loki 日志，拼凑时间线，再写一份格式不统一的复盘报告，往往要花 1-2 小时，甚至通宵。

为了解决这个痛点，我利用业余时间开发了一个 Incident AI 事故分析引擎，并在最近成功上架了阿里云计算巢。

在 Spring Cloud 微服务环境下，日志分散、链路复杂是常态。传统方式依赖人工经验，效率低、容易出错。

我希望通过 AI 把重复劳动自动化，让 SRE 和开发同学能更快定位问题、给出解决方案，减少熬夜加班。

支持从 Loki（也兼容 Prometheus）自动拉取异常日志
使用 Qwen（通义千问） 或 DeepSeek 等大模型进行智能根因分析
快速生成结构化事故报告，包括：
- 执行摘要（严重等级、用户影响）
- 已确认根因 + 疑似问题
- 立即处理建议、短期改进、长期优化
- 时间线、异常趋势、AI 置信度评分
支持一键推送至企业微信（同时兼容钉钉、飞书等）

整个过程从日志到报告推送，通常能在 1-2 分钟内完成，大幅提升了运维效率。

我把服务发布到了阿里云计算巢，支持完全私有化部署（所有数据都在用户自己的阿里云账号内）。

部署非常简单，只需要填写几个核心参数：

在这个过程中，我最大的收获是：把 AI 真正落地到日常运维场景，比单纯研究模型更有价值。

从日志解析、Prompt 工程，到报告结构化设计，再到多渠道通知，每一步都踩了很多坑，也学到了很多。

未来我计划继续迭代，支持更多日志源、加入历史事故 RAG 知识库，让分析结果更贴合团队实际。

如果你也在使用 Loki、Grafana、企业微信做微服务运维，欢迎试用这个小工具。

希望它能帮到更多开发者，减少一些不必要的加班时间。

欢迎在评论区交流你的使用体验或改进建议，一起让运维变得更智能！

计算巢