我做了一个 Loki AI 事故分析引擎,已上架阿里云计算巢
作者:Luke
发布时间:2026年4月
作为一名后端开发者,我日常工作中最头疼的就是微服务故障定位和事故复盘。
每次出现 UnknownHostException、链路超时等问题,都要手动翻几万行 Loki 日志,拼凑时间线,再写一份格式不统一的复盘报告,往往要花 1-2 小时,甚至通宵。
为了解决这个痛点,我利用业余时间开发了一个 Incident AI 事故分析引擎,并在最近成功上架了阿里云计算巢。
为什么要做这个工具?
在 Spring Cloud 微服务环境下,日志分散、链路复杂是常态。传统方式依赖人工经验,效率低、容易出错。
我希望通过 AI 把重复劳动自动化,让 SRE 和开发同学能更快定位问题、给出解决方案,减少熬夜加班。
工具主要做了什么?
- 支持从 Loki(也兼容 Prometheus)自动拉取异常日志
- 使用 Qwen(通义千问) 或 DeepSeek 等大模型进行智能根因分析
- 快速生成结构化事故报告,包括:
- 执行摘要(严重等级、用户影响)
- 已确认根因 + 疑似问题
- 立即处理建议、短期改进、长期优化
- 时间线、异常趋势、AI 置信度评分
- 支持一键推送至企业微信(同时兼容钉钉、飞书等)
整个过程从日志到报告推送,通常能在 1-2 分钟内完成,大幅提升了运维效率。
如何在阿里云计算巢一键部署?
我把服务发布到了阿里云计算巢,支持完全私有化部署(所有数据都在用户自己的阿里云账号内)。
部署非常简单,只需要填写几个核心参数:
- Loki 服务地址(LOKI_URL)
- 企业微信机器人 Webhook
- AI 提供商(qwen 或 deepseek)及对应 API Key
部署地址(感兴趣的同学可以点开体验):
https://computenest.console.aliyun.com/service/instance/create/cn-hangzhou?type=user&ServiceId=service-a98eb17b44db48c3a7b4&userCode=3dzho3aj
开源项目地址(欢迎 Star 和反馈):
https://gitee.com/Luke-xuedong/incident-community
一些开发心得
在这个过程中,我最大的收获是:把 AI 真正落地到日常运维场景,比单纯研究模型更有价值。
从日志解析、Prompt 工程,到报告结构化设计,再到多渠道通知,每一步都踩了很多坑,也学到了很多。
未来我计划继续迭代,支持更多日志源、加入历史事故 RAG 知识库,让分析结果更贴合团队实际。
总结
如果你也在使用 Loki、Grafana、企业微信做微服务运维,欢迎试用这个小工具。
希望它能帮到更多开发者,减少一些不必要的加班时间。
欢迎在评论区交流你的使用体验或改进建议,一起让运维变得更智能!
