我做了一个 Loki AI 事故分析引擎,已上架阿里云计算巢

简介: 后端开发者Luke打造Loki AI事故分析引擎,已上架阿里云计算巢!支持自动拉取Loki日志、调用Qwen/DeepSeek大模型智能根因分析,1-2分钟生成结构化报告(含根因、建议、时间线等),并推送至企微/钉钉。私有化部署,数据不出阿里云账号。

我做了一个 Loki AI 事故分析引擎,已上架阿里云计算巢

作者:Luke
发布时间:2026年4月

作为一名后端开发者,我日常工作中最头疼的就是微服务故障定位和事故复盘。

每次出现 UnknownHostException、链路超时等问题,都要手动翻几万行 Loki 日志,拼凑时间线,再写一份格式不统一的复盘报告,往往要花 1-2 小时,甚至通宵。

为了解决这个痛点,我利用业余时间开发了一个 Incident AI 事故分析引擎,并在最近成功上架了阿里云计算巢。

为什么要做这个工具?

在 Spring Cloud 微服务环境下,日志分散、链路复杂是常态。传统方式依赖人工经验,效率低、容易出错。

我希望通过 AI 把重复劳动自动化,让 SRE 和开发同学能更快定位问题、给出解决方案,减少熬夜加班。

工具主要做了什么?

  • 支持从 Loki(也兼容 Prometheus)自动拉取异常日志
  • 使用 Qwen(通义千问)DeepSeek 等大模型进行智能根因分析
  • 快速生成结构化事故报告,包括:
    • 执行摘要(严重等级、用户影响)
    • 已确认根因 + 疑似问题
    • 立即处理建议、短期改进、长期优化
    • 时间线、异常趋势、AI 置信度评分
  • 支持一键推送至企业微信(同时兼容钉钉、飞书等)

整个过程从日志到报告推送,通常能在 1-2 分钟内完成,大幅提升了运维效率。

如何在阿里云计算巢一键部署?

我把服务发布到了阿里云计算巢,支持完全私有化部署(所有数据都在用户自己的阿里云账号内)。

部署非常简单,只需要填写几个核心参数:

  • Loki 服务地址(LOKI_URL)
  • 企业微信机器人 Webhook
  • AI 提供商(qwen 或 deepseek)及对应 API Key

部署地址(感兴趣的同学可以点开体验):
https://computenest.console.aliyun.com/service/instance/create/cn-hangzhou?type=user&ServiceId=service-a98eb17b44db48c3a7b4&userCode=3dzho3aj

开源项目地址(欢迎 Star 和反馈):
https://gitee.com/Luke-xuedong/incident-community

一些开发心得

在这个过程中,我最大的收获是:把 AI 真正落地到日常运维场景,比单纯研究模型更有价值。

从日志解析、Prompt 工程,到报告结构化设计,再到多渠道通知,每一步都踩了很多坑,也学到了很多。

未来我计划继续迭代,支持更多日志源、加入历史事故 RAG 知识库,让分析结果更贴合团队实际。

总结

如果你也在使用 Loki、Grafana、企业微信做微服务运维,欢迎试用这个小工具。

希望它能帮到更多开发者,减少一些不必要的加班时间。

欢迎在评论区交流你的使用体验或改进建议,一起让运维变得更智能!
41401.png
41402.png

相关文章
|
2月前
|
消息中间件 存储 Kubernetes
k8s部署rocketmq5.3.0
本文介绍RocketMQ 5.3.0在Kubernetes上的标准化部署方案:涵盖Namespace、NameServer(Deployment+Service)、Broker、Proxy及Dashboard全组件YAML配置,支持节点亲和(k8sworker01)、持久化路径挂载与NodePort暴露,适用于快速验证与轻量生产环境。(239字)
341 3
|
2月前
|
机器学习/深度学习 分布式计算 搜索推荐
PAI-Rec 召回引擎:构建高性能推荐系统的核心引擎
PAI-Rec是阿里云智能推荐平台的核心召回引擎,经阿里大规模场景验证。支持多路召回融合(U2I/I2I/向量/随机)、召回即过滤、毫秒级实时更新与分布式弹性架构,开箱即用,助力企业构建毫秒级、高精度、强实时的推荐系统。
368 9
|
2月前
|
Web App开发 前端开发 Java
Java + EasyExcel 实现单个接口导出多个Excel
Java + EasyExcel 单接口导出多个 Excel 文件实操教程,基于 Spring Boot 实现,通过 ZIP 打包多 Excel 流返回,附完整代码、避坑注意事项,新手也能快速落地,解决多 Excel 一次性导出需求。
317 2
|
2月前
|
人工智能 弹性计算 JavaScript
【AI拆单提效实战】一张CAD图纸10秒出BOM,工厂拆单神器已上线阿里云!
【AI拆单提效实战】专为道具厂、定制家具厂打造的智能拆单工具,支持PDF/CAD上传,10秒自动识别板件与五金、修正错误、导出结构化BOM Excel,阿里云在线免费试用!
700 3
|
1月前
|
缓存 人工智能 运维
SysOM Agent智能运维系列:Pod内存高告警,一次对话30秒定位根因
让内存诊断从"靠经验排查"变成"可解释、可复现、可执行"的工程化流程。
|
2月前
|
监控 算法 Java
Java垃圾回收的五十年——从标记清除到ZGC的演进之路
垃圾回收是Java平台的标志性特性,也是无数开发者选择Java而非C++的重要原因。
209 1
|
2月前
|
缓存 监控 Java
Alpine 作为基础镜像安装 OpenJDK 21 的完整踩坑过程与最佳实践
本文详述 Alpine Linux 下安装 OpenJDK 21 的踩坑历程:从仓库冲突、清华源加速失败,到通过 `gcompat` 解决 musl libc 段错误(exit 139);最终给出优化 Dockerfile,并强烈推荐使用成熟镜像如 `eclipse-temurin:21-jre-alpine`——省心、稳定、轻量。(239字)
818 2
|
28天前
|
人工智能 IDE 开发工具
编程范式的下一次跃迁:深度解析全新的 GitHub Copilot 独立桌面应用
2026年5月,GitHub发布Copilot独立桌面App技术预览版,标志着AI编程从IDE插件迈向原生智能体开发环境。它以Issue/PR为起点,提供隔离会话、内置终端与浏览器、自动合并PR等能力,实现“输入问题→输出通过CI的PR”闭环,推动开发者角色向高阶审查者演进。
979 2
|
30天前
|
机器学习/深度学习 负载均衡 专有云
性能翻倍!Qwen3.5与阿里云APG服务器完成深度优化
近日,Qwen3.5系列模型正式发布,正式迈向原生多模态智能体,并推出多款模型。阿里云专有云联合通义实验室等团队,基于APG服务器深度优化了Qwen3.5-397B-A17B模型,对比Qwen3-235B性能提升1.5倍以上。
215 3