别再半夜敲命令了:用 LLM + 自动化脚本,把 Runbook 变成“会思考的运维同事”

简介: 别再半夜敲命令了:用 LLM + 自动化脚本,把 Runbook 变成“会思考的运维同事”

别再半夜敲命令了:用 LLM + 自动化脚本,把 Runbook 变成“会思考的运维同事”


我先问你一个问题,你别急着回答,先在脑子里过一遍:

你们团队的 Runbook,是不是长这样?

  • Wiki 里躺着
  • 写得很全,但没人翻
  • 真出故障的时候,大家靠“肌肉记忆 + 经验”
  • 最后修好了,再补一句:“下次注意”

说句扎心的:
传统 Runbook,本质是“给人看的文档”,不是“给系统用的能力”。

而 LLM 的出现,第一次让我觉得:

Runbook,终于可以不只是文档了。


一、Runbook 的最大问题,从来不是“没写”

很多管理者以为:

“我们缺的是 Runbook”

但干过运维的人都知道,真正的问题是:

  • 故障发生时

    • 你来不及翻
    • 翻到了也不一定匹配
  • 每个环境都不一样
  • 每次事故都有“变种”

所以现实是:

Runbook ≠ 执行
Runbook ≠ 决策
Runbook ≠ 修复

它只是“参考资料”。


二、LLM 出现后,Runbook 这件事彻底变味了

我第一次把 LLM 接进告警链路时,脑子里冒出来一句话:

“这不就是一个 24x7 不会累、不怕背锅、还愿意查文档的运维吗?”

当然,它不是“替代人”,
而是把人从低价值动作里解放出来

LLM 能帮 Runbook 做什么?

简单拆一下:

  1. 读懂告警
  2. 结合上下文判断场景
  3. 选择对应的处理流程
  4. 触发自动化脚本
  5. 回收结果,再判断是否升级

这一步一拆,你会发现:

Runbook,开始“活”了。


三、智能 Runbook 的核心架构(说人话版)

我不画复杂架构图了,用一句话总结:

LLM 负责“想”,脚本负责“干”。

一个典型链路是这样的:

告警 → LLM 分析 → 生成修复计划 → 自动化脚本执行 → 结果反馈 → 再决策

注意重点:

  • LLM 不直接干活
  • 脚本不自己做决定
  • 两者各司其职

四、一个真实得不能再真实的场景

场景:

凌晨 2 点,Prometheus 告警:

API 错误率 > 5%,持续 3 分钟

传统流程:

  1. 值班同学醒来
  2. 看 Grafana
  3. 查日志
  4. 判断是不是数据库、缓存、网络
  5. 手敲命令
  6. 修完写复盘

智能 Runbook 流程:

  1. 告警触发
  2. LLM 接收上下文:

    • 告警信息
    • 最近发布记录
    • 历史故障案例
  3. LLM 输出判断:

    “疑似某节点连接池耗尽,建议重启 해당 pod,并检查最大连接数配置”

  4. 触发脚本
  5. 校验结果
  6. 成功 → 自动关闭告警
    失败 → 升级人工

五、LLM 到底“聪明”在哪?

不是它会敲命令,
而是它会“选策略”

举个例子。

同样是服务不可用:

  • 有时是:

    • 连接池耗尽
  • 有时是:

    • JVM Full GC
  • 有时是:

    • 配置下发错误

传统脚本是:

systemctl restart service

智能 Runbook 是:

“在重启之前,我先看看值不值得重启。”


六、一个简化版的 LLM 决策示例

prompt = f"""
当前告警:
{alert_text}

系统状态:
- CPU: {cpu}
- Memory: {mem}
- GC: {gc}
- 最近发布:{deploy_info}

请判断最可能原因,并给出处理建议(仅返回步骤)。
"""

response = llm.generate(prompt)

LLM 输出的不是“命令”,而是策略

1. 检查连接池使用率
2. 若超过 90%,重启 pod
3. 重启后观察 2 分钟
4. 若未恢复,升级人工

然后,你再把它映射成白名单脚本

if pool_usage > 90:
    kubectl rollout restart deploy/api

这一步非常关键:

❌ LLM 不直接执行命令
✅ LLM 只决定“走哪条路”


七、为什么我强烈反对“LLM 直接 SSH 上服务器”

说句不好听的:

这不是智能运维,这是“智能自杀”。

正确姿势是:

  • 所有可执行动作

    • 都提前脚本化
  • LLM

    • 只能在“允许的动作集合”里选择

你要给 LLM 的不是 root 权限,
而是一个受控的操作菜单


八、智能 Runbook 最有价值的三个地方

1️⃣ 把经验变成系统能力

老运维脑子里的:

“我一看这告警就知道怎么回事”

终于可以被“固化”了。


2️⃣ 降低夜间故障的人力成本

不是每个告警都值得把人叫醒。

  • 能自动修的 → 自动
  • 修不了的 → 带着结论叫人

这差别太大了。


3️⃣ 事故复盘质量明显提升

因为 LLM 会记录:

  • 当时看到了什么
  • 为什么选这个策略
  • 执行结果如何

复盘第一次变成:

“我们为什么这样判断”

而不是:

“当时太乱了,记不清了。”


九、但我必须泼一盆冷水

智能 Runbook 不是银弹

它非常不适合:

  • 架构混乱
  • 自动化基础为零
  • 环境差异极大
  • 没有操作边界意识的团队

如果你现在连:

  • 标准化部署
  • 脚本收敛
  • 权限治理

都没做,
先别急着上 LLM。


十、我的真实感受(说句人话)

我做运维这么多年,第一次觉得:

“Runbook,终于不是给新人背的了。”

LLM 不是来抢饭碗的,
它是来把人从“重复、低价值、容易出错”的动作里拉出来的。

让人去干更值钱的事:

  • 架构优化
  • 稳定性设计
  • 故障预防

最后一句话送你

未来最值钱的运维,不是敲命令最快的,而是最会“设计自动化决策”的。

目录
相关文章
|
1月前
|
存储 人工智能 自然语言处理
LlamaIndex 深度实战:用《长安的荔枝》学会构建智能问答系统
本文深入浅出地讲解了RAG(检索增强生成)原理与LlamaIndex实战,通过《长安的荔枝》案例,从AI如何“读书”讲起,详解三大关键参数(chunk_size、top_k、overlap)对问答效果的影响,并结合真实实验展示不同配置下的回答质量差异。内容兼顾新手引导与进阶优化,帮助读者快速构建高效的文档问答系统。
511 22
LlamaIndex 深度实战:用《长安的荔枝》学会构建智能问答系统
|
2月前
|
运维 监控 数据可视化
故障发现提速 80%,运维成本降 40%:魔方文娱的可观测升级之路
魔方文娱携手阿里云构建全栈可观测体系,实现故障发现效率提升 80%、运维成本下降 40%,并融合 AI 驱动异常检测,迈向智能运维新阶段。
354 47
|
2月前
|
存储 SQL 分布式计算
手把手教你搞定大数据上云:数据迁移的全流程解析
本文深入探讨了企业数据迁移的核心价值与复杂挑战,重点分析了离线大数据平台在物理传输、系统耦合与数据校验三方面的难题。文章系统阐述了存储格式、表格式、计算引擎等关键技术原理,并结合LHM等工具介绍了自动化迁移的实践演进,展望了未来智能化、闭环化的数据流动方向。
614 14
手把手教你搞定大数据上云:数据迁移的全流程解析
|
1月前
|
运维 监控 数据挖掘
运维数据分析:别再只会翻日志了,真正的价值在“洞察”
运维数据分析:别再只会翻日志了,真正的价值在“洞察”
112 16
|
1月前
|
SQL 分布式计算 架构师
数据湖不是湖,是江湖:Delta Lake / Iceberg / Hudi 到底该选谁?
数据湖不是湖,是江湖:Delta Lake / Iceberg / Hudi 到底该选谁?
145 2
|
1月前
|
监控 Java 开发工具
Android 崩溃监控实战:一次完整的生产环境崩溃排查全流程
某 App 新版上线后收到大量用户投诉 App 闪退和崩溃。仅凭一条崩溃日志和会话追踪,团队如何在2小时内锁定「快速刷新导致数据竞态」这一根因?本文带你复现真实生产环境下的完整排查路径:从告警触发、堆栈分析、符号化解析,到用户行为还原——见证 RUM 如何让“无法复现的线上崩溃”无所遁形。
275 36
|
21天前
|
人工智能 运维 监控
灰度不是赌命:我为什么开始用 AI 帮我“决定要不要继续发版”
灰度不是赌命:我为什么开始用 AI 帮我“决定要不要继续发版”
83 9
|
2月前
|
缓存 运维 监控
一次内存诊断,让资源利用率提升 40%:揭秘隐式内存治理
阿里云云监控 2.0 推出 SysOM 底层操作系统诊断能力,基于 eBPF + BTF 协同分析,无需侵入业务,即可一键完成从物理页到文件路径、再到容器进程的全栈内存归因,让“黑盒内存”无所遁形。
601 80

热门文章

最新文章