我做了一个 Loki AI 事故分析引擎,已上架阿里云计算巢

简介: 后端开发者Luke打造Loki AI事故分析引擎,已上架阿里云计算巢!支持自动拉取Loki日志、调用Qwen/DeepSeek大模型智能根因分析,1-2分钟生成结构化报告(含根因、建议、时间线等),并推送至企微/钉钉。私有化部署,数据不出阿里云账号。

我做了一个 Loki AI 事故分析引擎,已上架阿里云计算巢

作者:Luke
发布时间:2026年4月

作为一名后端开发者,我日常工作中最头疼的就是微服务故障定位和事故复盘。

每次出现 UnknownHostException、链路超时等问题,都要手动翻几万行 Loki 日志,拼凑时间线,再写一份格式不统一的复盘报告,往往要花 1-2 小时,甚至通宵。

为了解决这个痛点,我利用业余时间开发了一个 Incident AI 事故分析引擎,并在最近成功上架了阿里云计算巢。

为什么要做这个工具?

在 Spring Cloud 微服务环境下,日志分散、链路复杂是常态。传统方式依赖人工经验,效率低、容易出错。

我希望通过 AI 把重复劳动自动化,让 SRE 和开发同学能更快定位问题、给出解决方案,减少熬夜加班。

工具主要做了什么?

  • 支持从 Loki(也兼容 Prometheus)自动拉取异常日志
  • 使用 Qwen(通义千问)DeepSeek 等大模型进行智能根因分析
  • 快速生成结构化事故报告,包括:
    • 执行摘要(严重等级、用户影响)
    • 已确认根因 + 疑似问题
    • 立即处理建议、短期改进、长期优化
    • 时间线、异常趋势、AI 置信度评分
  • 支持一键推送至企业微信(同时兼容钉钉、飞书等)

整个过程从日志到报告推送,通常能在 1-2 分钟内完成,大幅提升了运维效率。

如何在阿里云计算巢一键部署?

我把服务发布到了阿里云计算巢,支持完全私有化部署(所有数据都在用户自己的阿里云账号内)。

部署非常简单,只需要填写几个核心参数:

  • Loki 服务地址(LOKI_URL)
  • 企业微信机器人 Webhook
  • AI 提供商(qwen 或 deepseek)及对应 API Key

部署地址(感兴趣的同学可以点开体验):
https://computenest.console.aliyun.com/service/instance/create/cn-hangzhou?type=user&ServiceId=service-a98eb17b44db48c3a7b4&userCode=3dzho3aj

开源项目地址(欢迎 Star 和反馈):
https://gitee.com/Luke-xuedong/incident-community

一些开发心得

在这个过程中,我最大的收获是:把 AI 真正落地到日常运维场景,比单纯研究模型更有价值。

从日志解析、Prompt 工程,到报告结构化设计,再到多渠道通知,每一步都踩了很多坑,也学到了很多。

未来我计划继续迭代,支持更多日志源、加入历史事故 RAG 知识库,让分析结果更贴合团队实际。

总结

如果你也在使用 Loki、Grafana、企业微信做微服务运维,欢迎试用这个小工具。

希望它能帮到更多开发者,减少一些不必要的加班时间。

欢迎在评论区交流你的使用体验或改进建议,一起让运维变得更智能!
41401.png
41402.png

相关文章
|
1月前
|
消息中间件 存储 Kubernetes
k8s部署rocketmq5.3.0
本文介绍RocketMQ 5.3.0在Kubernetes上的标准化部署方案:涵盖Namespace、NameServer(Deployment+Service)、Broker、Proxy及Dashboard全组件YAML配置,支持节点亲和(k8sworker01)、持久化路径挂载与NodePort暴露,适用于快速验证与轻量生产环境。(239字)
276 3
|
1月前
|
机器学习/深度学习 分布式计算 搜索推荐
PAI-Rec 召回引擎:构建高性能推荐系统的核心引擎
PAI-Rec是阿里云智能推荐平台的核心召回引擎,经阿里大规模场景验证。支持多路召回融合(U2I/I2I/向量/随机)、召回即过滤、毫秒级实时更新与分布式弹性架构,开箱即用,助力企业构建毫秒级、高精度、强实时的推荐系统。
302 9
|
1月前
|
Web App开发 前端开发 Java
Java + EasyExcel 实现单个接口导出多个Excel
Java + EasyExcel 单接口导出多个 Excel 文件实操教程,基于 Spring Boot 实现,通过 ZIP 打包多 Excel 流返回,附完整代码、避坑注意事项,新手也能快速落地,解决多 Excel 一次性导出需求。
272 2
|
1月前
|
人工智能 弹性计算 JavaScript
【AI拆单提效实战】一张CAD图纸10秒出BOM,工厂拆单神器已上线阿里云!
【AI拆单提效实战】专为道具厂、定制家具厂打造的智能拆单工具,支持PDF/CAD上传,10秒自动识别板件与五金、修正错误、导出结构化BOM Excel,阿里云在线免费试用!
512 3
|
1月前
|
监控 算法 Java
Java垃圾回收的五十年——从标记清除到ZGC的演进之路
垃圾回收是Java平台的标志性特性,也是无数开发者选择Java而非C++的重要原因。
174 1
|
1月前
|
人工智能 自然语言处理 安全
OpenClaw 汉化中文版安装教程,Windows 免代码免命令一键部署
本文提供 OpenClaw v2.6.2 Windows 一键部署完整教程,全程零代码、免命令、免环境配置,通过可视化安装界面快速搭建本地 AI 智能体。文章包含下载、解压、安装、启动、常见问题全流程,支持文件整理、办公自动化、数据处理等场景,零基础用户也可轻松完成部署与使用。
|
1月前
|
缓存 监控 Java
Alpine 作为基础镜像安装 OpenJDK 21 的完整踩坑过程与最佳实践
本文详述 Alpine Linux 下安装 OpenJDK 21 的踩坑历程:从仓库冲突、清华源加速失败,到通过 `gcompat` 解决 musl libc 段错误(exit 139);最终给出优化 Dockerfile,并强烈推荐使用成熟镜像如 `eclipse-temurin:21-jre-alpine`——省心、稳定、轻量。(239字)
644 2
|
21天前
|
缓存 人工智能 运维
SysOM Agent智能运维系列:Pod内存高告警,一次对话30秒定位根因
让内存诊断从"靠经验排查"变成"可解释、可复现、可执行"的工程化流程。
|
人工智能
上车吧,1000+claw概念域名来袭!
风口真正值钱的,从来不是最热闹的那一天,而是热闹之后,产品开始成片长出来的那一刻…
|
29天前
|
编解码 缓存 API
【开源剪映小助手】草稿管理接口
本文档详解剪映草稿管理三大核心API:创建、保存及获取草稿文件列表,涵盖请求参数、响应格式、错误码、URL规则与最佳实践,助力开发者快速集成稳定高效的草稿系统。(239字)