我做了一个 Loki AI 事故分析引擎,已上架阿里云计算巢

简介: 后端开发者Luke打造Loki AI事故分析引擎,已上架阿里云计算巢!支持自动拉取Loki日志、调用Qwen/DeepSeek大模型智能根因分析,1-2分钟生成结构化报告(含根因、建议、时间线等),并推送至企微/钉钉。私有化部署,数据不出阿里云账号。

我做了一个 Loki AI 事故分析引擎,已上架阿里云计算巢

作者:Luke
发布时间:2026年4月

作为一名后端开发者,我日常工作中最头疼的就是微服务故障定位和事故复盘。

每次出现 UnknownHostException、链路超时等问题,都要手动翻几万行 Loki 日志,拼凑时间线,再写一份格式不统一的复盘报告,往往要花 1-2 小时,甚至通宵。

为了解决这个痛点,我利用业余时间开发了一个 Incident AI 事故分析引擎,并在最近成功上架了阿里云计算巢。

为什么要做这个工具?

在 Spring Cloud 微服务环境下,日志分散、链路复杂是常态。传统方式依赖人工经验,效率低、容易出错。

我希望通过 AI 把重复劳动自动化,让 SRE 和开发同学能更快定位问题、给出解决方案,减少熬夜加班。

工具主要做了什么?

  • 支持从 Loki(也兼容 Prometheus)自动拉取异常日志
  • 使用 Qwen(通义千问)DeepSeek 等大模型进行智能根因分析
  • 快速生成结构化事故报告,包括:
    • 执行摘要(严重等级、用户影响)
    • 已确认根因 + 疑似问题
    • 立即处理建议、短期改进、长期优化
    • 时间线、异常趋势、AI 置信度评分
  • 支持一键推送至企业微信(同时兼容钉钉、飞书等)

整个过程从日志到报告推送,通常能在 1-2 分钟内完成,大幅提升了运维效率。

如何在阿里云计算巢一键部署?

我把服务发布到了阿里云计算巢,支持完全私有化部署(所有数据都在用户自己的阿里云账号内)。

部署非常简单,只需要填写几个核心参数:

  • Loki 服务地址(LOKI_URL)
  • 企业微信机器人 Webhook
  • AI 提供商(qwen 或 deepseek)及对应 API Key

部署地址(感兴趣的同学可以点开体验):
https://computenest.console.aliyun.com/service/instance/create/cn-hangzhou?type=user&ServiceId=service-a98eb17b44db48c3a7b4&userCode=3dzho3aj

开源项目地址(欢迎 Star 和反馈):
https://gitee.com/Luke-xuedong/incident-community

一些开发心得

在这个过程中,我最大的收获是:把 AI 真正落地到日常运维场景,比单纯研究模型更有价值。

从日志解析、Prompt 工程,到报告结构化设计,再到多渠道通知,每一步都踩了很多坑,也学到了很多。

未来我计划继续迭代,支持更多日志源、加入历史事故 RAG 知识库,让分析结果更贴合团队实际。

总结

如果你也在使用 Loki、Grafana、企业微信做微服务运维,欢迎试用这个小工具。

希望它能帮到更多开发者,减少一些不必要的加班时间。

欢迎在评论区交流你的使用体验或改进建议,一起让运维变得更智能!
41401.png
41402.png

相关文章
|
存储 缓存 文件存储
如何保证分布式文件系统的数据一致性
分布式文件系统需要向上层应用提供透明的客户端缓存,从而缓解网络延时现象,更好地支持客户端性能水平扩展,同时也降低对文件服务器的访问压力。当考虑客户端缓存的时候,由于在客户端上引入了多个本地数据副本(Replica),就相应地需要提供客户端对数据访问的全局数据一致性。
32713 80
如何保证分布式文件系统的数据一致性
|
前端开发 容器
HTML5+CSS3前端入门教程---从0开始通过一个商城实例手把手教你学习PC端和移动端页面开发第8章FlexBox布局(上)
HTML5+CSS3前端入门教程---从0开始通过一个商城实例手把手教你学习PC端和移动端页面开发第8章FlexBox布局
17766 21
|
设计模式 存储 监控
设计模式(C++版)
看懂UML类图和时序图30分钟学会UML类图设计原则单一职责原则定义:单一职责原则,所谓职责是指类变化的原因。如果一个类有多于一个的动机被改变,那么这个类就具有多于一个的职责。而单一职责原则就是指一个类或者模块应该有且只有一个改变的原因。bad case:IPhone类承担了协议管理(Dial、HangUp)、数据传送(Chat)。good case:里式替换原则定义:里氏代换原则(Liskov 
36697 21
设计模式(C++版)
|
存储 编译器 C语言
抽丝剥茧C语言(初阶 下)(下)
抽丝剥茧C语言(初阶 下)
|
机器学习/深度学习 人工智能 自然语言处理
带你简单了解Chatgpt背后的秘密:大语言模型所需要条件(数据算法算力)以及其当前阶段的缺点局限性
带你简单了解Chatgpt背后的秘密:大语言模型所需要条件(数据算法算力)以及其当前阶段的缺点局限性
24772 14
|
机器学习/深度学习 弹性计算 监控
重生之---我测阿里云U1实例(通用算力型)
阿里云产品全线降价的一力作,2023年4月阿里云推出新款通用算力型ECS云服务器Universal实例,该款服务器的真实表现如何?让我先测为敬!
36678 15
重生之---我测阿里云U1实例(通用算力型)
|
SQL 存储 弹性计算
Redis性能高30%,阿里云倚天ECS性能摸底和迁移实践
Redis在倚天ECS环境下与同规格的基于 x86 的 ECS 实例相比,Redis 部署在基于 Yitian 710 的 ECS 上可获得高达 30% 的吞吐量优势。成本方面基于倚天710的G8y实例售价比G7实例低23%,总性价比提高50%;按照相同算法,相对G8a,性价比为1.4倍左右。
|
存储 算法 Java
【分布式技术专题】「分布式技术架构」手把手教你如何开发一个属于自己的限流器RateLimiter功能服务
随着互联网的快速发展,越来越多的应用程序需要处理大量的请求。如果没有限制,这些请求可能会导致应用程序崩溃或变得不可用。因此,限流器是一种非常重要的技术,可以帮助应用程序控制请求的数量和速率,以保持稳定和可靠的运行。
29849 52
下一篇
开通oss服务