来不及学 AI 就不用学了？——从 AI 到 Agent，再到 Harness Engineering 与 Loop Engineering ：一条被产品化加速的技术演进线-阿里云开发者社区

前言：为什么需要一张「概念地图」

过去三年，AI 领域的词汇膨胀速度远超技术本身的变化速度。今天大家都在聊 openclaw，明天又冒出 Harness Engineering，后天 Loop Engineering 的帖子就刷满了时间线。

如果你只是偶尔用 ChatGPT 写邮件，这些名词可能显得多余。但如果你已经开始用 Cursor、Claude Code、Codex 或 OpenClaw 做真正的工程工作，你会发现：同一件事，不同社区用了完全不同的语言来描述。

有人管这叫「提示词工程」
有人管这叫「上下文工程」
有人管这叫「工作流编排」
有人管这叫「Harness 工程」
还有人管这叫「Loop 工程」

它们真的是四代完全不同的技术吗？还是同一套东西被不断重新命名？

这篇文章试图做一件事：把这条演进线梳理清楚——从基础的 LLM，到 Agent，到 Workflow 编排（含那一波「拖节点连线」工具的兴衰与 reposition），到 Skill / MCP / CLI 等周边概念，再到 OpenClaw 代表的「个人 Agent 运行时」，再到 Harness Engineering 和 Loop Engineering 这两套 2026 年最热的叙事。

读完你应该能回答三个问题：

**1. 这些概念各自解决什么问题？

它们之间是替代关系还是嵌套关系？
哪些是真正值得投入的工程能力，哪些只是营销词汇？**

@[TOC]

第一章：从 LLM 到 Agent——一次范式跃迁

1.1 LLM 是什么：一个「只会说话」的函数

大语言模型（Large Language Model）本质上是一个概率性的文本生成器。你给它一段输入（prompt），它根据训练数据中的统计规律，预测下一段最可能的输出。

在 2022–2023 年的 ChatGPT 时代，主流用法是：

用户提问 → 模型回答 → 结束

这叫 one-shot（单次调用） 模式。它的天花板很明显：

模型不知道你电脑上的文件
模型不能执行命令
模型不能访问实时数据
模型一旦答错，没有自我纠正机制

你可以通过更好的 prompt 提升输出质量，但模型仍然被困在聊天窗口里。

1.2 Agent 是什么：模型 + 行动能力 + 循环

Agent（智能体） 的核心定义可以压缩成一句话：

Agent = 能在环境中采取行动、观察结果、并据此决定下一步行动的 LLM 系统。

这个定义来自 2022 年 Princeton 和 Google 提出的 ReAct（Reason + Act）模式：模型不再一次性给出最终答案，而是交替进行「推理」和「行动」：

思考 → 选择工具 → 执行 → 观察结果 → 再思考 → … → 达成目标

用伪代码表示：

state = init(goal)
for step in range(MAX_STEPS):
    thought = model.reason(state)
    action  = model.choose_tool(state)
    result  = environment.execute(action)
    state   = update(state, thought, action, result)
    if goal_achieved(state):
        break

这就是 Agent 与 LLM 的本质区别：LLM 回答一次，Agent 循环多次。

2023–2024 年，OpenAI 的 Function Calling、Anthropic 的 Tool Use 把这套模式产品化。模型开始能「调用工具」——读文件、搜网页、执行 SQL。但工具调用本身还不够，你还需要一个外层运行时来：

解析模型的 tool call 请求
真正执行工具
把结果塞回上下文
判断任务是否完成
决定是否继续循环

这个外层运行时，后来有了一个名字：Harness（挽具 / 挽具工程）。我们后面会详细讲。

1.3 Agent 不是魔法：三个常见误解

误解	事实
Agent = 更聪明的模型	同一个模型，有无 Harness 表现可以天差地别
Agent = 自主意识	Agent 只是在循环里执行你设计的策略
买了 Agent 产品就省事了	可靠性、成本、安全，大量工作仍在 Harness 层

第二章：Agent 生态的关键零件

在深入 OpenClaw、Workflow 工具链和 Harness / Loop Engineering 之前，先把周边概念对齐。它们不是互相竞争的技术，而是组装一个可用 Agent 的不同零件。

2.1 CLI：通用行动接口

CLI（Command Line Interface） 是 Agent 最重要的「手」之一。

早期 Agent 框架倾向于为每种操作预置专用工具：读文件工具、写文件工具、搜索工具……但很快大家发现：Bash 本身就是一个万能工具。

Simon Willison 有一个精辟的观察：大多数工程任务，归根结底就是几个精心选择的 shell 命令。给 Agent 一个终端，它就能：

git diff 看变更
npm test 跑测试
curl 调 API
grep 搜代码

Cursor、Claude Code、Codex 都把终端执行作为一等公民。这不是偷懒，而是承认了一个事实：预置工具永远追不上真实世界的操作空间，通用 CLI 才是扩展性最好的接口。

当然，CLI 也带来了最大的安全风险——Agent 可以执行 rm -rf。所以 Harness 必须配套沙箱、命令白名单、权限模型。

2.2 MCP：标准化的「插头」

MCP（Model Context Protocol） 是 Anthropic 在 2024 年底推出的开放协议，2025–2026 年迅速成为事实标准。

可以把它理解成 AI 世界的 USB-C：

┌─────────────┐     MCP 协议      ┌─────────────┐
│  AI Client  │ ◄──────────────► │  MCP Server │
│ (Cursor等)  │                   │ (数据库/API) │
└─────────────┘                   └─────────────┘

MCP 定义了三类核心原语：

原语	作用	例子
Tools	可执行的操作	查数据库、发 Slack 消息
Resources	只读数据源	文件内容、配置信息
Prompts	可复用的提示模板	代码审查模板

通信基于 JSON-RPC 2.0。客户端通过 tools/list 发现可用工具，通过 tools/call 调用。

为什么 MCP 重要？ 在它之前，每个 AI 产品都有自己的插件格式。你为一个 IDE 写的集成，换到另一个 IDE 就要重写。MCP 让「写一次，到处用」成为可能——同一个 Postgres MCP Server，Cursor、Claude Desktop、OpenClaw 都能接。

2.3 Skills：可复用的「操作手册」

Skill 这个概念在不同产品里名字略有差异，但本质相同：一段结构化的 Markdown 指令，教 Agent 在特定场景下该怎么做。

以 Cursor 为例，Skill 通常是一个 SKILL.md 文件，包含：

触发条件（什么时候该用这个 skill）
分步工作流
注意事项和约束
示例命令

---
name: deploy-check
description: 部署前检查清单
---
# Deploy Check
1. 运行 `npm test`
2. 检查环境变量是否齐全
3. ...

Skill 与 Rules 的区别：

	Rules	Skills
加载方式	静态，每次对话都注入	动态，Agent 按需调用
粒度	全局行为约束	特定任务工作流
类比	公司规章制度	岗位操作手册

OpenClaw 把 Skill 生态做到了极端——ClawHub 上有数千个社区贡献的 Skill，从发邮件到控智能家居。这也是它安全争议的主要来源（后面会讲）。

2.4 Rules / AGENTS.md / CLAUDE.md：持久记忆层

另一组关键文件是项目级上下文：

Cursor：.cursor/rules/*.mdc
Claude Code：CLAUDE.md、AGENTS.md
OpenClaw：SOUL.md（人格）、MEMORY.md（记忆）、AGENTS.md（行为约束）

它们的共同逻辑是：把 Agent 每次会话都会忘记的东西，写到磁盘上，让 Harness 在启动时自动注入。

这是「上下文工程」最朴素的实现——不靠微调模型，靠文件系统做跨会话记忆。

2.5 一张零件关系图

┌──────────────────────────────────┐
                    │           Harness（运行时）        │
                    │  ┌────────────────────────────┐  │
                    │  │         Agent Loop          │  │
                    │  │  ┌──────┐    ┌──────────┐  │  │
                    │  │  │ LLM  │───►│ Tool Exec │  │  │
                    │  │  └──────┘    └──────────┘  │  │
                    │  └────────────────────────────┘  │
                    │                                    │
                    │  Rules / Skills / AGENTS.md        │
                    │  MCP Servers                       │
                    │  CLI / Sandbox                     │
                    │  Memory / Context Management       │
                    └──────────────────────────────────┘

第三章：Workflow——从「拖线搭流程」到 Agent 时代的编排层

在聊 OpenClaw 和 Harness 之前，有必要单独讲一章 Workflow（工作流）。因为 2023–2024 年 Agent 爆火时，很多人第一次接触「让 AI 干活」，并不是通过 Cursor 或 Claude Code，而是通过画布上拖节点、用线连起来的低代码工具。

这一章回答两个问题：这类工具到底是什么？到了 2026 年，它们还活着吗，站在产业链的哪个位置？

3.1 Workflow 是什么：确定性管道 vs 自主循环

Workflow 在 AI 语境下，指把多个步骤按预定顺序（或条件分支）串联起来的执行图。核心特征是：路径在执行前 largely 可预见。

触发器 → 拉数据 → 清洗 → 调 LLM → 写回数据库 → 发通知

这和 Agent 的 ReAct 循环有本质区别：

	Workflow	Agent Loop
控制流	人（或编译器）预先画好	模型运行时动态决定
分支逻辑	显式 if/else 节点	模型根据观察结果即兴选择
适合任务	流程固定、步骤可枚举	目标清晰但路径不确定
失败模式	某个节点配置错了	模型在循环里空转或跑偏
可审计性	高——路径在图上是可见的	低——要靠 trace 回放

早期有一个常见误判：把 Workflow 当成 Agent 的「低配版」。更准确的说法是：Workflow 是 编排层（orchestration），Agent 是 推理层（reasoning）。生产系统里两者经常叠在一起，而不是二选一。

3.2 连线时代的三巨头画像

2023 年下半年到 2024 年，「连线搭 AI 应用」是绝对的流量中心。工具可以粗分三派：

派别 A：自动化集成（Automation）

代表：Zapier、Make（原 Integromat）、n8n

起源：IFTTT 的商务升级版，核心是「App A 发生某事 → 触发 App B 做某事」
AI 化：2023 起陆续加入 OpenAI 节点、AI Agent 节点、向量检索节点
强项：接 SaaS、接 webhook、接数据库——集成密度极高
弱项：复杂推理、长链路状态管理、多 Agent 协作

n8n 是这一派里对开发者最友好的：开源、可自托管、2025 年后 AI 节点爆发式增长，到 2026 年已是很多团队默认的「集成神经系统」。

派别 B：LLM 应用搭建（LLM App Builder）

代表：Dify、Flowise、LangFlow、Coze（扣子）、FastGPT

起源：LangChain 概念太碎，有人把它做成可视化
典型画布：输入 → Prompt 模板 → LLM → 输出解析 → 条件分支 → 工具调用
强项：RAG 知识库问答、内部工具原型、给业务方 demo
弱项：上线后需求一变，画布迅速长成意大利面；版本管理、测试、CI 都别扭

Dify 在中文圈影响力尤其大——一站式 RAG + 工作流 + 发布，很多团队「第一周用 Dify 搭了个知识库助手」。

派别 C：垂直领域工作流

代表：ComfyUI（图像生成）、部分 Stable Diffusion WebUI 插件生态

节点类型是「加载模型」「KSampler」「VAE 解码」，不是「调 GPT」
在 AIGC 圈依然是硬通货——精细控制生成管线，Agent 短期内替代不了

3.3 黄金年代：为什么「连线」当时那么火

几个因素叠加：

LangChain 太难用：链、代理、记忆、回调嵌套在一起，新手看一眼 ConversationChain 就想关 IDE
低代码幻觉：「业务人员也能搭 AI」——对简单 RAG 问答确实成立
Demo 极快：半小时连出一条「PDF 上传 → 切片 → 向量库 → 对话」，融资 PPT 好写
模型还不够强：GPT-3.5 时代，你把流程锁死反而更稳定；让模型自己决定下一步，经常翻车

那时候的技术叙事是：Prompt Engineering + Workflow = 应用。Agent 这个词在，但很多人实际搭的是「带 LLM 节点的 Zapier」。

3.4 裂痕：Workflow 工具撞上了 Agent 元年

2024 下半年到 2025，风向变了。

Coding Agent 崛起（Cursor、Claude Code、Windsurf、Codex）直接吃掉了一大块 use case：

以前：在 Flowise 里连一个「读代码库 → 总结」的 flow
现在：对 Cursor 说一句话，它自己 grep、读文件、总结——路径是运行时生成的，不需要你画

同时，框架层从「链」进化到「图」：

LangChain 的线性 Chain 不够表达循环和分支
LangGraph（2024–2025，2025.10 达 1.0 stable）用代码定义有状态图：State → Node → Conditional Edge → State
工程师发现：复杂 Agent 逻辑用 Python/TypeScript 写比用鼠标拖更可控——可测试、可 diff、可 code review

视觉工作流工具的三重困境浮出水面：

困境	表现
可维护性	50 个节点的画布没人敢改，改一个牵一串
版本管理	JSON 导出进 Git 是噩梦，merge conflict 看不懂
能力天花板	模型越强，预定义路径越显得多余；强模型 + 终端 > 弱模型 + 精致 flow

社区里开始流传一种刻薄但部分成立的说法：「连线工具是 AI 时代的 Dreamweaver。」——能降低入门门槛，但严肃工程最终会回到代码。

3.5 2026 年的真实地位：没死，但换了赛道

连线工具没有消失。它们完成了一次 reposition，从「造 Agent 的主战场」退到「集成与胶水层」。

仍然强势的场景

1. 集成密集型自动化（n8n 的主场）

真实案例（Konverge AI 等交付团队的公开复盘）：一个报价系统，三分之二工作量是 Outlook、ERP、SharePoint、定价表对接，只有「匹配规格 + 生成报价」需要 Agent 推理。最终架构：

n8n 负责： ingestion → 解析 → 写回系统记录 → 人工审批节点
LangGraph 负责： 被 n8n 当作一个节点调用的「推理大脑」

九个工作日 demo 上线；后来加产品线，改 n8n flow 一个下午，不用重构 Agent。

2. 内部工具 / RAG 原型（Dify 的主场）

给销售搭知识库助手、给客服搭工单分类——需求稳定、用户非技术、要快速交付。Dify 的一键发布仍然比「从零写 Harness」快。

3. 运维与数据管道

定时拉数据、清洗、触发 LLM 批处理、写 Slack 通知——这是 cron + DAG，不是 Agent，但极适合 visual workflow。

4. AIGC 管线（ComfyUI 不动摇）

图像/视频生成的节点图和语言 Agent 是不同物种，ComfyUI 生态 2026 年依然繁荣。

明显失势的场景

「用画布搭一个 coding agent」 → 被 Cursor / Claude Code 碾压
复杂多 Agent 协作 + 长时状态 → 工程师转向 LangGraph / 自研 Harness
「业务人员完全自主维护 AI 应用」 → 承诺过度；稍有复杂度就需要工程师介入

一张 2026 年的分层图

┌─────────────────────────────────────────────────────────┐
│  用户体验层：Chat / IDE / WhatsApp（OpenClaw Gateway）    │
├─────────────────────────────────────────────────────────┤
│  推理层：Agent Loop + Harness（Cursor, LangGraph, …）   │
├─────────────────────────────────────────────────────────┤
│  集成层：Visual Workflow（n8n, Zapier, Make）  ◄── 连线工具的新主场 │
├─────────────────────────────────────────────────────────┤
│  连接器：MCP Servers, REST APIs, 数据库, SaaS           │
└─────────────────────────────────────────────────────────┘

连线工具从「大脑」变成了「周围神经系统」。 这句话大概能概括它现在的地位。

3.6 Workflow 与 Harness / Loop 的关系

把前面几章的概念对齐：

Workflow 节点图 = 外置的、可视化的、mostly 确定性的编排
Harness = 包裹模型的完整运行时（含工具、记忆、规则、也可能含 workflow 触发器）
Loop = Harness 内部的 while 控制流，由模型驱动

一个成熟的 2026 生产栈经常是：

n8n（workflow：什么时候跑、接哪些系统）
  └─► 调用 LangGraph Agent（harness + loop：怎么推理、怎么验证）
        └─► 通过 MCP 访问业务数据

OpenClaw 则走了另一条路：不用画布，用 Markdown 文件 + Gateway + Heartbeat cron 做编排——本质仍是 workflow，只是 UI 从「节点图」变成了「文件 + 定时器」。

3.7 给选型者的一句话

你的需求	更可能的选择
接 10 个 SaaS，定时跑，业务规则常变	n8n / Make
快速搭 RAG 内部助手，非工程师维护	Dify / Coze
复杂 Agent 推理、要审计、要测试	LangGraph / 代码 Harness
个人 7×24 助手、消息渠道驱动	OpenClaw
写代码、改仓库、跑测试	Cursor / Claude Code

Workflow 工具没有输给 Agent——它们退到了更擅长的层。 以为拖条线就能取代工程的人失望了；懂得把 n8n 和 LangGraph 叠在一起的人，反而跑得更快。

第四章：OpenClaw——个人 Agent 运行时的样本

4.1 它是什么

OpenClaw 是奥地利开发者 Peter Steinberger 在 2025 年 11 月发布的开源项目（最初叫 Clawdbot，后改名 Moltbot，最终定名 OpenClaw）。到 2026 年中，它已成为 GitHub 上增长最快的 AI 项目之一，星标超过 30 万。

一句话概括：

OpenClaw 是一个自托管的个人 AI 助手运行时，让你通过 WhatsApp、Telegram、Slack、Discord 等日常聊天应用，与一个 7×24 在线的 Agent 对话。

它不是又一个 LangChain Demo，而是一个完整的 Gateway架构：

WhatsApp ──┐
Telegram ──┤
Discord  ──┼──► Gateway ──► Agent Runtime ──► LLM (Claude/GPT/本地模型)
Slack    ──┤                    │
iMessage ──┘                    ▼
                          Workspace Files
                          (SOUL.md, MEMORY.md, Skills)

4.2 核心设计：文件即记忆

OpenClaw 最聪明（也最「朴素」）的设计是：Agent 的「人格」「记忆」「技能」全部是 Markdown 文件。

文件	作用
`SOUL.md`	Agent 的人格、语气、价值观
`MEMORY.md`	跨会话持久记忆
`HEARTBEAT.md`	定时自检任务清单
`AGENTS.md`	行为约束与操作规范
`skills/`	可复用技能目录

每次 Agent 被唤醒，Gateway 从磁盘读取这些文件，拼装成 system prompt，发给 LLM。LLM 执行工具调用后，Gateway 把结果写回磁盘。

所谓「持久记忆」，本质上就是文件读写。所谓「主动性」，本质上就是 cron。

这不是贬低——恰恰相反，这种「用简单原语组合出复杂行为」的思路，是工程上最诚实的做法。

4.3 Heartbeat：让 Agent「主动」起来

传统 Chatbot 等人说话才回应。OpenClaw 通过 Heartbeat（心跳） 机制实现主动性：

Gateway 每 30 分钟触发一次 Agent 运行
Agent 读取 HEARTBEAT.md，检查是否有待办事项
无事则回复 HEARTBEAT_OK（被 Gateway 静默丢弃）
有事则执行并通知用户

这让 Agent 从「你问我答」变成「它自己巡逻」。配合消息渠道集成，你可以收到「服务器 CPU 超 90% 了，我已经重启了服务」这类主动推送。

4.4 多 Agent 路由

OpenClaw 支持按渠道、按发送者、按工作区路由到不同 Agent 实例。每个 Agent 有独立的 workspace 和 session，互不干扰。这解决了「工作 Agent」和「生活 Agent」混在一起的隐私问题。

4.5 为什么 OpenClaw 爆火

几个因素叠加：

时机：2026 年市场已经准备好接受「个人 Agent」概念，不再觉得奇怪
渠道：不让你装新 App，直接在 WhatsApp 里聊——零切换成本
自托管：数据在自己机器上，对隐私敏感的用户有吸引力
模型无关：Claude、GPT、Gemini、Ollama 本地模型都能用
极简架构：懂 Markdown 就能定制 Agent，门槛极低

4.6 冷静看待：OpenClaw 的局限

作为样本极具价值，但作为生产系统需要谨慎：

安全风险：ClawHub 上数千个社区 Skill，已有多起 prompt injection、凭证泄露事件（Cisco、Snyk 均有审计报告）
运维成本：自托管意味着你自己负责更新、备份、监控
并非新范式：文件记忆 + cron + 消息网关，都是成熟技术的新组合

结论：OpenClaw 的价值在于把 Agent 运行时做成了消费级产品，让「个人 AI 助手」从概念变成可安装的东西。它的架构模式（文件即记忆、心跳即主动、Gateway 即渠道抽象）正在成为行业参考实现。

第五章：Harness Engineering——真正值得投入的工程学科

5.1 一个等式

2026 年初，Viv Trivedy 提出了一个简洁的定义，随后被 Addy Osmani、HumanLayer、Anthropic 等广泛引用：

Agent = Model + Harness

Harness（挽具） 是模型之外的一切：

System prompt、Rules、Skills、AGENTS.md
工具定义、MCP Server、CLI 沙箱
子 Agent 编排、模型路由
上下文管理（压缩、摘要、检索）
钩子（hooks）、中间件、确定性检查
可观测性（日志、trace、成本计量）
错误恢复与人工升级路径

Cursor 官方博客也确认了这一点：Cursor 的 Agent Harness 由 Instructions（指令）+ Tools（工具）+ Model（模型） 三部分组成，且 Cursor 会针对每个前沿模型单独调优指令和工具描述。

5.2 为什么 Harness 比模型重要

有一个反复被验证的数据点：

在 Terminal Bench 2.0 基准测试中，同一个 Claude Opus 模型，在 Claude Code 里跑和在自定义 Harness 里跑，分数可以差出一个量级。有团队仅通过优化 Harness（不改模型），就从 Top 30 冲进 Top 5。

原因很直观：

模型是通用的，你的代码库是特定的
模型不知道你的命名规范、测试策略、部署流程
模型看不到它没被告知的信息
模型倾向于「看起来完成了」而不是「真的完成了」

Harness 填补的，正是「模型能力」与「任务需求」之间的鸿沟。

5.3 「Skill Issue」思维

HumanLayer 有一个刺耳但准确的说法：

大多数 Agent 失败不是 model problem，是 configuration problem。

Harness Engineering 的核心心态是 Ratchet：

Agent 犯错 → 分析原因 → 把修复写进 Harness → 永远不再犯

具体做法：

Agent 犯的错	Harness 修复
不知道项目用 pnpm 不用 npm	写入 AGENTS.md
注释掉失败的测试	pre-commit hook 拦截 `.skip(`
40 步任务中途迷失	拆成 planner + executor 子 Agent
改完代码不跑测试	在 loop 里强制 test back-pressure
上下文爆炸后胡言乱语	加入 compaction 策略

每一条 AGENTS.md 的规则，都应该能追溯到一次真实的失败。好的 Harness 是失败史的文件化。

5.4 Inner Harness vs Outer Harness

Talk Think Do 的指南做了一个有用区分：

	Inner Harness	Outer Harness
谁构建	工具厂商（Cursor、Anthropic）	你 / 你的团队
例子	Agent 模式、代码索引、diff 审查 UI	AGENTS.md、MCP Server、CI 传感器
可定制性	低	高
可移植性	绑定产品	跨产品

工程建议：优先投资 Outer Harness 的可移植层（AGENTS.md、MCP、CI 集成），再用产品特定的 Rules 做快速迭代。

5.5 Harness 的关键组件（从行为反推设计）

Addy Osmani 和 Viv Trivedy 都建议从期望行为反推 Harness 组件：

文件系统 + Git：Agent 的工作台面。没有文件系统，你就在复制粘贴聊天内容——那不是工程。

Bash + 代码执行：通用工具。预置工具追不上需求，终端是最终 fallback。

沙箱：隔离执行环境。allow-list 命令、网络隔离、用完即毁。

记忆 + 检索：AGENTS.md 注入、向量检索、BM25 混合搜索（OpenClaw 用 SQLite 实现）。

上下文管理：对抗 context rot 三件套——压缩历史、摘要 offload、子 Agent 分流。

验证回路：测试、lint、typecheck 的结果必须回流给 Agent，形成 back-pressure。

子 Agent：探索者、实现者、审查者分工，各自独立上下文窗口。

5.6 Harness Engineering 为什么是「真学问」

因为它满足一个好工程学科的特征：

可积累：每次失败都转化为永久约束
可度量：基准测试、成功率、成本/任务
可移植：核心资产（AGENTS.md、MCP）不绑定单一产品
有深度：上下文管理、安全、编排、可观测性，每一层都有大量未解决问题

如果你 2026 年只能学一样东西，学 Harness Engineering 的投资回报率高于追逐最新模型。

第六章：Loop Engineering——一次有用的命名，而非范式革命

Loop Engineering 虽然是 2026 年 6 月最热的词汇，但个人认为：它描述的现象是真实的，却被过度包装了。

6.1 它是什么

Loop Engineering（循环工程） 在 2026 年 6 月集中爆发。导火索是 Peter Steinberger（OpenClaw 作者）的一条帖子，大意是：

别再手动 prompt 你的 coding agent 了，去设计一个能自动 prompt 它的循环。

第二天，Addy Osmani 发文正式命名「Loop Engineering」，并给出解剖结构：automations、worktrees、skills、connectors、sub-agents、external state。

一句话定义：

Loop Engineering = 设计 Agent 的迭代循环——它何时行动、如何验证、何时停止——而不是你亲手敲每一条指令。

6.2 它解决什么问题

Loop Engineering 试图回答三个具体问题：

谁来发起下一轮？ 不再是人按回车，而是 cron、webhook、测试失败、定时器
怎么知道做完了？ 需要可测试的终止条件（测试通过、CI 绿、文件存在）
怎么防止空转？ 需要 max turns、预算上限、无进展检测、人工升级

这些问题的确存在，而且随着 Agent 能独立运行时间从分钟延长到小时，变得更加紧迫。

6.3 为什么说它「没那么了不起」

原因一：它只是 ReAct 的产品化命名

Loop Engineering 的学术祖先是 2022 年的 ReAct 论文。之后还有 Reflexion（2023）、Plan-and-Execute、Evaluator-Optimizer（Anthropic 的 Building Effective Agents 指南）……

整个「循环」概念在学术界和工程界已经存在四年。 Loop Engineering 做的，主要是给已经发生的事情贴了一个新标签。

# 这就是 Loop Engineering 的全部本质
while not done and steps < MAX_STEPS:
    action = agent.decide(state)
    result = env.execute(action)
    state = update(state, result)
    done = verifier.check(state)

十二行伪代码。没有新算法，没有新数据结构，没有新协议。

原因二：真正的难点不在「循环」，而在循环里的零件

Loop Engineering 的鼓吹者喜欢画一张演进表：

年份	时代	你做什么
2024	Prompt Engineering	写提示词
2025	Context Engineering	管理上下文
2026	Harness Engineering	搭建环境
2026	Loop Engineering	设计循环

看起来像是四级火箭。但更准确的描述是俄罗斯套娃：

Loop ⊂ Harness ⊂ Context ⊂ Prompt

Loop 不是新的一层，而是 Harness 里本来就应该有的控制流。一个 Harness 如果没有循环，它根本就不是 Agent Harness，只是一个带工具调用的 Chatbot。

把 Harness 里最显而易见的那个 while 循环单独拎出来叫「Loop Engineering」，有点像把 for 循环从编程里单抽出来叫「Iteration Engineering」。

原因三：产品实现极其朴素

看 Cursor 的 /loop 实现（来自官方 Loop Skill）：

while true; do
  sleep <seconds>
  echo 'AGENT_LOOP_TICK_<purpose> {"prompt":"<prompt>"}'
done

就是一个 shell 死循环 + sleep + 唤醒 Agent。动态模式也不过是「Agent 自己决定下次什么时候 sleep」。

Claude Code 的 /loop、cron、hooks、GitHub Actions 触发——全是操作系统和 CI 领域二十年前的基础设施。

原因四：成本陷阱比技术突破更值得关注

2026 年 6 月，r/cursor 上有一个著名案例：一个 PM 让 Agent 给 87 个任务打标签，一小时烧掉 $1,400。Cursor CEO 亲自退款。

Loop 的核心风险不是「循环不够聪明」，而是循环没有刹车：

默认无界的 turns
每个 turn 加载完整上下文
价格 = 单价 × 轮次，Agent 把轮次搞爆了

所以 Loop 领域真正值得关注的工程实践是：

--max-turns / --max-runtime 硬上限
每任务成本可见性
无进展检测（同一测试失败三次就停）
可测试的终止条件

这些是运维和治理问题，不是新的工程范式。

6.4 那 Loop Engineering 有没有价值？

有，但价值在于降低了认知门槛，不在于创造了新技术。

它让更多人意识到：

你不该守在聊天窗口旁边
你该定义「完成」的标准，而不是定义「下一步」
验证器（verifier）是循环里最重要的零件，不是模型

如果你之前已经在用「跑测试 → 失败 → 喂给 Agent → 再跑」的模式，你早就在做 Loop Engineering 了，只是没人给你发一个时髦的标签。

6.5 一个更诚实的定位

┌─────────────────────────────────────────────────────┐
│                  Harness Engineering                 │
│  ┌───────────────────────────────────────────────┐  │
│  │              Context Engineering               │  │
│  │  ┌─────────────────────────────────────────┐  │  │
│  │  │           Prompt Engineering            │  │  │
│  │  └─────────────────────────────────────────┘  │  │
│  │                                               │  │
│  │  ┌─────────────────────────────────────────┐  │  │
│  │  │  Loop = 控制流（while + 终止条件）      │  │  │
│  │  │  不是独立的一层，是 Harness 的内置能力   │  │  │
│  │  └─────────────────────────────────────────┘  │  │
│  └───────────────────────────────────────────────┘  │
└─────────────────────────────────────────────────────┘

Loop Engineering 是一份好的检查清单，不是一门新科学。

第七章：串起来——从 2022 到 2026 的完整时间线

2022.11  ChatGPT 发布
         └─► Prompt Engineering 时代：怎么问问题
2022     ReAct 论文
         └─► Agent 概念学术化：推理 + 行动交替
2023     Function Calling / Tool Use 产品化
         └─► 模型能调工具了，但还需要外层运行时
2023–24  连线 Workflow 工具爆发（LangFlow, Dify, Flowise, n8n AI 节点）
         └─► 「拖节点搭 AI 应用」成为入门默认路径
2024.11  MCP 协议发布
         └─► Agent 集成的 USB-C 时刻
2024–25  Cursor / Claude Code / Codex 成熟
         └─► Coding Agent 吃掉「画布搭代码助手」场景
2024–25  LangGraph 1.0
         └─► 复杂 Agent 编排回归代码定义的有状态图
2025     Context Engineering 命名（Tobi Lütke / Karpathy / Anthropic）
         └─► 关注点从「怎么说」转向「给什么信息」
2025–26  n8n / Dify 等 reposition
         └─► 视觉 Workflow 退到集成层，与 LangGraph / Harness 叠用
2025.11  OpenClaw 发布
         └─► 个人 Agent 运行时消费级化（文件 + cron 替代画布）
2026     Harness Engineering 命名（Viv Trivedy / Addy Osmani）
         └─► 行业共识：模型之外才是主战场
2026.06  Loop Engineering 命名（Steinberger / Osmani）
         └─► 把 Harness 里的控制流单独品牌化

第八章：实践建议——如果你今天就要开始

8.1 按优先级排列的学习路径

优先级	学什么	为什么
⭐⭐⭐	Harness Engineering	最高 ROI，可积累、可度量、可移植
⭐⭐⭐	MCP + CLI 工具链	打通 Agent 与真实世界的标准接口
⭐⭐	Workflow 集成层（n8n 等）	接系统、定时触发——别跟 Agent 抢「大脑」的活儿
⭐⭐	Context / Memory 管理	长任务必备，AGENTS.md 是最小起步
⭐⭐	Skills 编写	把重复工作流封装成可复用模块
⭐	Loop 设计	重要但简单——定义目标、验证器、上限
⭐	追新模型	模型在涨，但 Harness 决定了你能用到多少

8.2 一个最小可用的 Harness 起步清单

# 你的项目今天就可以有的 Harness
1. AGENTS.md
   - 技术栈（语言、包管理器、测试框架）
   - 命名规范和目录结构
   - 「禁止」清单（从真实失败中积累）
2. 一个 MCP Server
   - 至少接入你的数据库或 issue tracker
   - 让 Agent 能查真实数据而不是猜
3. 验证回路
   - Agent 改完代码必须跑测试
   - 测试失败 = 继续循环的输入
4. 终止条件
   - 测试全绿 = 完成
   - 同一错误重复 3 次 = 人工介入
   - max 20 turns = 硬停止
5. 成本意识
   - 知道一次 Agent 任务大概花多少钱
   - 批量任务先在小样本上试跑

8.3 该警惕的 hype 信号

有人告诉你「Loop Engineering 替代了 Harness Engineering」→ 它们在套娃，不是替代
有人卖「Loop 框架」但不谈验证器和成本 → 在卖 while 循环
有人强调模型版本但不谈 AGENTS.md → 在等 GPT-7 而不是修自己的 Harness
社区 Skill / 插件不做安全审计就装 → OpenClaw 的教训
有人声称「拖条线就能搭生产级 Agent」→ 2024 年的故事，集成层和推理层要分开看

结语：模型是引擎，Harness 是整车，Loop 是油门

用一个不太严谨但好记的汽车比喻：

LLM 是发动机——提供动力，但本身不会走路
Agent 是「发动机 + 传动系统」——能把动力转化为行动
CLI / MCP / Skills 是方向盘、油门、刹车——具体的操控接口
Workflow（n8n 等） 是周围神经系统——接 SaaS、定时触发、胶水层
Harness 是整辆车——底盘、悬挂、安全系统、仪表盘
Loop 是巡航定速——你设定目标速度和停车条件，车自己跑

2026 年的行业共识越来越清晰：发动机厂商之间的竞争依然激烈，但赢家往往不是发动机最好的，而是整车造得最好的。

OpenClaw 证明了个人 Agent 可以落地；n8n + LangGraph 证明了 Workflow 与 Agent 可以分层协作；Harness Engineering 给出了系统化的方法论；Loop Engineering 提醒你别守在聊天窗口旁——这些都很有用。

但别被新名词晃花了眼。打开任何一个成熟 Coding Agent 的源码，你看到的核心逻辑依然是：

while not done:
    response = model.generate(context)
    if response.has_tool_calls:
        results = execute_tools(response.tool_calls)
        context.append(results)
    else:
        done = True

参考与延伸阅读

ReAct: Synergizing Reasoning and Acting in Language Models[1] (Yao et al., 2022)
Building Effective Agents[2] (Anthropic, 2024)
Model Context Protocol Specification[3]
OpenClaw Documentation[4]
Agent Harness Engineering — Addy Osmani[5]
Best Practices for Coding with Agents — Cursor[6]
Anatomy of an Agent Harness — Viv Trivedy[7]（Harness 概念源头）
Loop Engineering — Addy Osmani[8]
n8n AI Workflows vs LangGraph — Suhas Bhairav[9]
Choosing the Right Agentic Framework — Konverge AI[10]

引用链接

ReAct: Synergizing Reasoning and Acting in Language Models: https://arxiv.org/abs/2210.03629
Building Effective Agents: https://www.anthropic.com/research/building-effective-agents
Model Context Protocol Specification: https://modelcontextprotocol.io/
OpenClaw Documentation: https://docs.openclaw.ai/
Agent Harness Engineering — Addy Osmani: https://addyosmani.com/blog/agent-harness-engineering/
Best Practices for Coding with Agents — Cursor: https://cursor.com/blog/agent-best-practices
Anatomy of an Agent Harness — Viv Trivedy: https://vvtrivedy.com/posts/anatomy-of-an-agent-harness/
Loop Engineering — Addy Osmani: https://addyo.substack.com/p/loop-engineering
n8n AI Workflows vs LangGraph — Suhas Bhairav: https://suhasbhairav.com/blog/n8n-ai-workflows-vs-langgraph-agents-visual-automation-vs-code-defined-agent-graphs
Choosing the Right Agentic Framework — Konverge AI: https://konverge.ai/blog/choosing-the-right-agentic-framework-lessons-from-the-delivery-teams/

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

来不及学 AI 就不用学了？——从 AI 到 Agent，再到 Harness Engineering 与 Loop Engineering ：一条被产品化加速的技术演进线