别再半夜敲命令了:用 LLM + 自动化脚本,把 Runbook 变成“会思考的运维同事”

简介: 别再半夜敲命令了:用 LLM + 自动化脚本,把 Runbook 变成“会思考的运维同事”

别再半夜敲命令了:用 LLM + 自动化脚本,把 Runbook 变成“会思考的运维同事”


我先问你一个问题,你别急着回答,先在脑子里过一遍:

你们团队的 Runbook,是不是长这样?

  • Wiki 里躺着
  • 写得很全,但没人翻
  • 真出故障的时候,大家靠“肌肉记忆 + 经验”
  • 最后修好了,再补一句:“下次注意”

说句扎心的:
传统 Runbook,本质是“给人看的文档”,不是“给系统用的能力”。

而 LLM 的出现,第一次让我觉得:

Runbook,终于可以不只是文档了。


一、Runbook 的最大问题,从来不是“没写”

很多管理者以为:

“我们缺的是 Runbook”

但干过运维的人都知道,真正的问题是:

  • 故障发生时

    • 你来不及翻
    • 翻到了也不一定匹配
  • 每个环境都不一样
  • 每次事故都有“变种”

所以现实是:

Runbook ≠ 执行
Runbook ≠ 决策
Runbook ≠ 修复

它只是“参考资料”。


二、LLM 出现后,Runbook 这件事彻底变味了

我第一次把 LLM 接进告警链路时,脑子里冒出来一句话:

“这不就是一个 24x7 不会累、不怕背锅、还愿意查文档的运维吗?”

当然,它不是“替代人”,
而是把人从低价值动作里解放出来

LLM 能帮 Runbook 做什么?

简单拆一下:

  1. 读懂告警
  2. 结合上下文判断场景
  3. 选择对应的处理流程
  4. 触发自动化脚本
  5. 回收结果,再判断是否升级

这一步一拆,你会发现:

Runbook,开始“活”了。


三、智能 Runbook 的核心架构(说人话版)

我不画复杂架构图了,用一句话总结:

LLM 负责“想”,脚本负责“干”。

一个典型链路是这样的:

告警 → LLM 分析 → 生成修复计划 → 自动化脚本执行 → 结果反馈 → 再决策

注意重点:

  • LLM 不直接干活
  • 脚本不自己做决定
  • 两者各司其职

四、一个真实得不能再真实的场景

场景:

凌晨 2 点,Prometheus 告警:

API 错误率 > 5%,持续 3 分钟

传统流程:

  1. 值班同学醒来
  2. 看 Grafana
  3. 查日志
  4. 判断是不是数据库、缓存、网络
  5. 手敲命令
  6. 修完写复盘

智能 Runbook 流程:

  1. 告警触发
  2. LLM 接收上下文:

    • 告警信息
    • 最近发布记录
    • 历史故障案例
  3. LLM 输出判断:

    “疑似某节点连接池耗尽,建议重启 해당 pod,并检查最大连接数配置”

  4. 触发脚本
  5. 校验结果
  6. 成功 → 自动关闭告警
    失败 → 升级人工

五、LLM 到底“聪明”在哪?

不是它会敲命令,
而是它会“选策略”

举个例子。

同样是服务不可用:

  • 有时是:

    • 连接池耗尽
  • 有时是:

    • JVM Full GC
  • 有时是:

    • 配置下发错误

传统脚本是:

systemctl restart service

智能 Runbook 是:

“在重启之前,我先看看值不值得重启。”


六、一个简化版的 LLM 决策示例

prompt = f"""
当前告警:
{alert_text}

系统状态:
- CPU: {cpu}
- Memory: {mem}
- GC: {gc}
- 最近发布:{deploy_info}

请判断最可能原因,并给出处理建议(仅返回步骤)。
"""

response = llm.generate(prompt)

LLM 输出的不是“命令”,而是策略

1. 检查连接池使用率
2. 若超过 90%,重启 pod
3. 重启后观察 2 分钟
4. 若未恢复,升级人工

然后,你再把它映射成白名单脚本

if pool_usage > 90:
    kubectl rollout restart deploy/api

这一步非常关键:

❌ LLM 不直接执行命令
✅ LLM 只决定“走哪条路”


七、为什么我强烈反对“LLM 直接 SSH 上服务器”

说句不好听的:

这不是智能运维,这是“智能自杀”。

正确姿势是:

  • 所有可执行动作

    • 都提前脚本化
  • LLM

    • 只能在“允许的动作集合”里选择

你要给 LLM 的不是 root 权限,
而是一个受控的操作菜单


八、智能 Runbook 最有价值的三个地方

1️⃣ 把经验变成系统能力

老运维脑子里的:

“我一看这告警就知道怎么回事”

终于可以被“固化”了。


2️⃣ 降低夜间故障的人力成本

不是每个告警都值得把人叫醒。

  • 能自动修的 → 自动
  • 修不了的 → 带着结论叫人

这差别太大了。


3️⃣ 事故复盘质量明显提升

因为 LLM 会记录:

  • 当时看到了什么
  • 为什么选这个策略
  • 执行结果如何

复盘第一次变成:

“我们为什么这样判断”

而不是:

“当时太乱了,记不清了。”


九、但我必须泼一盆冷水

智能 Runbook 不是银弹

它非常不适合:

  • 架构混乱
  • 自动化基础为零
  • 环境差异极大
  • 没有操作边界意识的团队

如果你现在连:

  • 标准化部署
  • 脚本收敛
  • 权限治理

都没做,
先别急着上 LLM。


十、我的真实感受(说句人话)

我做运维这么多年,第一次觉得:

“Runbook,终于不是给新人背的了。”

LLM 不是来抢饭碗的,
它是来把人从“重复、低价值、容易出错”的动作里拉出来的。

让人去干更值钱的事:

  • 架构优化
  • 稳定性设计
  • 故障预防

最后一句话送你

未来最值钱的运维,不是敲命令最快的,而是最会“设计自动化决策”的。

目录
相关文章
|
3月前
|
存储 人工智能 自然语言处理
LlamaIndex 深度实战:用《长安的荔枝》学会构建智能问答系统
本文深入浅出地讲解了RAG(检索增强生成)原理与LlamaIndex实战,通过《长安的荔枝》案例,从AI如何“读书”讲起,详解三大关键参数(chunk_size、top_k、overlap)对问答效果的影响,并结合真实实验展示不同配置下的回答质量差异。内容兼顾新手引导与进阶优化,帮助读者快速构建高效的文档问答系统。
621 22
LlamaIndex 深度实战:用《长安的荔枝》学会构建智能问答系统
|
5月前
|
存储 SQL Prometheus
图文解析带你精通时序PromQL语法
[阿里云SLS可观测团队发布] 本文通过图文解析深入讲解PromQL的计算原理,涵盖其与SQL的差异、时间线模型、选点机制、聚合函数、窗口函数及常见非预期场景,帮助用户掌握PromQL的核心语法与执行逻辑。
982 10
|
资源调度 测试技术 Linux
一款接口自动化神器—开源接口测试平台Lim(Less is More)
一款接口自动化神器—开源接口测试平台Lim(Less is More)
912 2
|
4月前
|
Java 关系型数据库 MySQL
基于springboot的智慧家园物业管理系统
智汇家园管理系统基于Java与Spring Boot开发,结合MySQL数据库,采用B/S架构,实现社区信息化管理。系统涵盖业主信息、报修、缴费等功能,提升物业管理效率与居民服务体验,推动社区管理智能化、透明化发展。
|
3月前
|
机器学习/深度学习 人工智能 运维
AIOps已逝,欢迎进入AgenticOps(运维智能体)时代
GenAI和智能体技术的爆发,为IT运维打开了一扇新的大门,一个更具主动性、自治性和协作性的新时代已经来临,这就是AgenticOps(基于智能体的IT运维)。
|
4月前
|
人工智能 自然语言处理 测试技术
研发、测试提效攻略:利用Apipost AI 6 大核心功能实现接口测试全流程
Apipost 通过 AI 实现接口从设计到测试的全流程自动化,支持智能提取文档、一键补全参数、自动生成用例与断言,大幅提升研发与测试效率,推动接口测试向智能化、规范化升级。
|
存储 设计模式 测试技术
怎么基于Pytest+Requests+Allure实现接口自动化测试?
该文介绍了一个基于Python的自动化测试框架,主要由pytest、requests和allure构成,采用关键字驱动模式。项目结构分为六层:工具层(api_keyword)封装了如get、post的请求;参数层(params)存储公共参数;用例层(case)包含测试用例;数据驱动层(data_driver)处理数据;数据层(data)提供数据;逻辑层(logic)实现用例逻辑。代码示例展示了如何使用allure装饰器增强测试报告,以及如何使用yaml文件进行数据驱动。
1139 0
|
1月前
|
人工智能 Linux API
OpenClaw(Clawdbot)一键部署接入 WhatsApp 保姆级教程
OpenClaw作为一款曾用名Clawdbot、Moltbot的开源本地优先AI代理平台,凭借本地运行保障数据隐私、多平台联动交互等优势,成为不少用户处理自动化任务的优选工具。它能接入WhatsApp等多种通信渠道,让用户通过聊天界面就能指挥其完成文件整理、信息查询等各类任务。而借助阿里云服务器的一键部署功能,能大幅降低部署门槛,即便无深厚技术基础的用户,也可快速完成部署并接入WhatsApp。以下是详细的操作步骤,涵盖前期准备、部署实施、WhatsApp接入及后续验证与问题排查,全程步骤清晰且易于操作。
1738 3