来不及学 AI 就不用学了?——从 AI 到 Agent,再到 Harness Engineering 与 Loop Engineering :一条被产品化加速的技术演进线

简介: 本文是一份AI工程演进图谱,以「概念地图」形式梳理2022–2026年LLM→Agent→Harness→Loop的演进脉络,厘清OpenClaw、MCP、Skills等核心概念的关系,破除术语迷雾,强调Harness Engineering才是当前最值得投入的系统性工程能力。(239字)

前言:为什么需要一张「概念地图」

过去三年,AI 领域的词汇膨胀速度远超技术本身的变化速度。今天大家都在聊 openclaw,明天又冒出 Harness Engineering,后天 Loop Engineering 的帖子就刷满了时间线。

如果你只是偶尔用 ChatGPT 写邮件,这些名词可能显得多余。但如果你已经开始用 Cursor、Claude Code、Codex 或 OpenClaw 做真正的工程工作,你会发现:同一件事,不同社区用了完全不同的语言来描述

  • 有人管这叫「提示词工程」
  • 有人管这叫「上下文工程」
  • 有人管这叫「工作流编排」
  • 有人管这叫「Harness 工程」
  • 还有人管这叫「Loop 工程」

它们真的是四代完全不同的技术吗?还是同一套东西被不断重新命名?

这篇文章试图做一件事:把这条演进线梳理清楚——从基础的 LLM,到 Agent,到 Workflow 编排(含那一波「拖节点连线」工具的兴衰与 reposition),到 Skill / MCP / CLI 等周边概念,再到 OpenClaw 代表的「个人 Agent 运行时」,再到 Harness Engineering 和 Loop Engineering 这两套 2026 年最热的叙事。

读完你应该能回答三个问题:

**1. 这些概念各自解决什么问题?

  1. 它们之间是替代关系还是嵌套关系?
  2. 哪些是真正值得投入的工程能力,哪些只是营销词汇?**


@[TOC]


第一章:从 LLM 到 Agent——一次范式跃迁

1.1 LLM 是什么:一个「只会说话」的函数

大语言模型(Large Language Model)本质上是一个概率性的文本生成器。你给它一段输入(prompt),它根据训练数据中的统计规律,预测下一段最可能的输出。

在 2022–2023 年的 ChatGPT 时代,主流用法是:

用户提问 → 模型回答 → 结束

这叫 one-shot(单次调用) 模式。它的天花板很明显:

  • 模型不知道你电脑上的文件
  • 模型不能执行命令
  • 模型不能访问实时数据
  • 模型一旦答错,没有自我纠正机制

你可以通过更好的 prompt 提升输出质量,但模型仍然被困在聊天窗口里

1.2 Agent 是什么:模型 + 行动能力 + 循环

Agent(智能体) 的核心定义可以压缩成一句话:

Agent = 能在环境中采取行动、观察结果、并据此决定下一步行动的 LLM 系统。

这个定义来自 2022 年 Princeton 和 Google 提出的 ReAct(Reason + Act)模式:模型不再一次性给出最终答案,而是交替进行「推理」和「行动」:

思考 → 选择工具 → 执行 → 观察结果 → 再思考 → … → 达成目标

用伪代码表示:

state = init(goal)
for step in range(MAX_STEPS):
    thought = model.reason(state)
    action  = model.choose_tool(state)
    result  = environment.execute(action)
    state   = update(state, thought, action, result)
    if goal_achieved(state):
        break

这就是 Agent 与 LLM 的本质区别:LLM 回答一次,Agent 循环多次

2023–2024 年,OpenAI 的 Function Calling、Anthropic 的 Tool Use 把这套模式产品化。模型开始能「调用工具」——读文件、搜网页、执行 SQL。但工具调用本身还不够,你还需要一个外层运行时来:

  • 解析模型的 tool call 请求
  • 真正执行工具
  • 把结果塞回上下文
  • 判断任务是否完成
  • 决定是否继续循环

这个外层运行时,后来有了一个名字:Harness(挽具 / 挽具工程)。我们后面会详细讲。

1.3 Agent 不是魔法:三个常见误解

误解 事实
Agent = 更聪明的模型 同一个模型,有无 Harness 表现可以天差地别
Agent = 自主意识 Agent 只是在循环里执行你设计的策略
买了 Agent 产品就省事了 可靠性、成本、安全,大量工作仍在 Harness 层

第二章:Agent 生态的关键零件

在深入 OpenClaw、Workflow 工具链和 Harness / Loop Engineering 之前,先把周边概念对齐。它们不是互相竞争的技术,而是组装一个可用 Agent 的不同零件

2.1 CLI:通用行动接口

CLI(Command Line Interface) 是 Agent 最重要的「手」之一。

早期 Agent 框架倾向于为每种操作预置专用工具:读文件工具、写文件工具、搜索工具……但很快大家发现:Bash 本身就是一个万能工具

Simon Willison 有一个精辟的观察:大多数工程任务,归根结底就是几个精心选择的 shell 命令。给 Agent 一个终端,它就能:

  • git diff 看变更
  • npm test 跑测试
  • curl 调 API
  • grep 搜代码

Cursor、Claude Code、Codex 都把终端执行作为一等公民。这不是偷懒,而是承认了一个事实:预置工具永远追不上真实世界的操作空间,通用 CLI 才是扩展性最好的接口

当然,CLI 也带来了最大的安全风险——Agent 可以执行 rm -rf。所以 Harness 必须配套沙箱、命令白名单、权限模型。

2.2 MCP:标准化的「插头」

MCP(Model Context Protocol) 是 Anthropic 在 2024 年底推出的开放协议,2025–2026 年迅速成为事实标准。

可以把它理解成 AI 世界的 USB-C

┌─────────────┐     MCP 协议      ┌─────────────┐
│  AI Client  │ ◄──────────────► │  MCP Server │
│ (Cursor等)  │                   │ (数据库/API) │
└─────────────┘                   └─────────────┘

MCP 定义了三类核心原语:

原语 作用 例子
Tools 可执行的操作 查数据库、发 Slack 消息
Resources 只读数据源 文件内容、配置信息
Prompts 可复用的提示模板 代码审查模板

通信基于 JSON-RPC 2.0。客户端通过 tools/list 发现可用工具,通过 tools/call 调用。

为什么 MCP 重要? 在它之前,每个 AI 产品都有自己的插件格式。你为一个 IDE 写的集成,换到另一个 IDE 就要重写。MCP 让「写一次,到处用」成为可能——同一个 Postgres MCP Server,Cursor、Claude Desktop、OpenClaw 都能接。

2.3 Skills:可复用的「操作手册」

Skill 这个概念在不同产品里名字略有差异,但本质相同:一段结构化的 Markdown 指令,教 Agent 在特定场景下该怎么做

以 Cursor 为例,Skill 通常是一个 SKILL.md 文件,包含:

  • 触发条件(什么时候该用这个 skill)
  • 分步工作流
  • 注意事项和约束
  • 示例命令
---
name: deploy-check
description: 部署前检查清单
---
# Deploy Check
1. 运行 `npm test`
2. 检查环境变量是否齐全
3. ...

Skill 与 Rules 的区别:

Rules Skills
加载方式 静态,每次对话都注入 动态,Agent 按需调用
粒度 全局行为约束 特定任务工作流
类比 公司规章制度 岗位操作手册

OpenClaw 把 Skill 生态做到了极端——ClawHub 上有数千个社区贡献的 Skill,从发邮件到控智能家居。这也是它安全争议的主要来源(后面会讲)。

2.4 Rules / AGENTS.md / CLAUDE.md:持久记忆层

另一组关键文件是项目级上下文

  • Cursor:.cursor/rules/*.mdc
  • Claude Code:CLAUDE.mdAGENTS.md
  • OpenClaw:SOUL.md(人格)、MEMORY.md(记忆)、AGENTS.md(行为约束)

它们的共同逻辑是:把 Agent 每次会话都会忘记的东西,写到磁盘上,让 Harness 在启动时自动注入

这是「上下文工程」最朴素的实现——不靠微调模型,靠文件系统做跨会话记忆。

2.5 一张零件关系图

┌──────────────────────────────────┐
                    │           Harness(运行时)        │
                    │  ┌────────────────────────────┐  │
                    │  │         Agent Loop          │  │
                    │  │  ┌──────┐    ┌──────────┐  │  │
                    │  │  │ LLM  │───►│ Tool Exec │  │  │
                    │  │  └──────┘    └──────────┘  │  │
                    │  └────────────────────────────┘  │
                    │                                    │
                    │  Rules / Skills / AGENTS.md        │
                    │  MCP Servers                       │
                    │  CLI / Sandbox                     │
                    │  Memory / Context Management       │
                    └──────────────────────────────────┘

第三章:Workflow——从「拖线搭流程」到 Agent 时代的编排层

在聊 OpenClaw 和 Harness 之前,有必要单独讲一章 Workflow(工作流)。因为 2023–2024 年 Agent 爆火时,很多人第一次接触「让 AI 干活」,并不是通过 Cursor 或 Claude Code,而是通过画布上拖节点、用线连起来的低代码工具。

这一章回答两个问题:这类工具到底是什么?到了 2026 年,它们还活着吗,站在产业链的哪个位置?

3.1 Workflow 是什么:确定性管道 vs 自主循环

Workflow 在 AI 语境下,指把多个步骤按预定顺序(或条件分支)串联起来的执行图。核心特征是:路径在执行前 largely 可预见

触发器 → 拉数据 → 清洗 → 调 LLM → 写回数据库 → 发通知

这和 Agent 的 ReAct 循环有本质区别:

Workflow Agent Loop
控制流 人(或编译器)预先画好 模型运行时动态决定
分支逻辑 显式 if/else 节点 模型根据观察结果即兴选择
适合任务 流程固定、步骤可枚举 目标清晰但路径不确定
失败模式 某个节点配置错了 模型在循环里空转或跑偏
可审计性 高——路径在图上是可见的 低——要靠 trace 回放

早期有一个常见误判:把 Workflow 当成 Agent 的「低配版」。更准确的说法是:Workflow 是 编排层(orchestration),Agent 是 推理层(reasoning)。生产系统里两者经常叠在一起,而不是二选一。

3.2 连线时代的三巨头画像

2023 年下半年到 2024 年,「连线搭 AI 应用」是绝对的流量中心。工具可以粗分三派:

派别 A:自动化集成(Automation)

代表:ZapierMake(原 Integromat)、n8n

  • 起源:IFTTT 的商务升级版,核心是「App A 发生某事 → 触发 App B 做某事」
  • AI 化:2023 起陆续加入 OpenAI 节点、AI Agent 节点、向量检索节点
  • 强项:接 SaaS、接 webhook、接数据库——集成密度极高
  • 弱项:复杂推理、长链路状态管理、多 Agent 协作

n8n 是这一派里对开发者最友好的:开源、可自托管、2025 年后 AI 节点爆发式增长,到 2026 年已是很多团队默认的「集成神经系统」。

派别 B:LLM 应用搭建(LLM App Builder)

代表:DifyFlowiseLangFlowCoze(扣子)、FastGPT

  • 起源:LangChain 概念太碎,有人把它做成可视化
  • 典型画布:输入 → Prompt 模板 → LLM → 输出解析 → 条件分支 → 工具调用
  • 强项:RAG 知识库问答、内部工具原型、给业务方 demo
  • 弱项:上线后需求一变,画布迅速长成意大利面;版本管理、测试、CI 都别扭

Dify 在中文圈影响力尤其大——一站式 RAG + 工作流 + 发布,很多团队「第一周用 Dify 搭了个知识库助手」。

派别 C:垂直领域工作流

代表:ComfyUI(图像生成)、部分 Stable Diffusion WebUI 插件生态

  • 节点类型是「加载模型」「KSampler」「VAE 解码」,不是「调 GPT」
  • 在 AIGC 圈依然是硬通货——精细控制生成管线,Agent 短期内替代不了

3.3 黄金年代:为什么「连线」当时那么火

几个因素叠加:

  1. LangChain 太难用:链、代理、记忆、回调嵌套在一起,新手看一眼 ConversationChain 就想关 IDE
  2. 低代码幻觉:「业务人员也能搭 AI」——对简单 RAG 问答确实成立
  3. Demo 极快:半小时连出一条「PDF 上传 → 切片 → 向量库 → 对话」,融资 PPT 好写
  4. 模型还不够强:GPT-3.5 时代,你把流程锁死反而更稳定;让模型自己决定下一步,经常翻车

那时候的技术叙事是:Prompt Engineering + Workflow = 应用。Agent 这个词在,但很多人实际搭的是「带 LLM 节点的 Zapier」。

3.4 裂痕:Workflow 工具撞上了 Agent 元年

2024 下半年到 2025,风向变了。

Coding Agent 崛起(Cursor、Claude Code、Windsurf、Codex)直接吃掉了一大块 use case:

  • 以前:在 Flowise 里连一个「读代码库 → 总结」的 flow
  • 现在:对 Cursor 说一句话,它自己 grep、读文件、总结——路径是运行时生成的,不需要你画

同时,框架层从「链」进化到「图」

  • LangChain 的线性 Chain 不够表达循环和分支
  • LangGraph(2024–2025,2025.10 达 1.0 stable)用代码定义有状态图:State → Node → Conditional Edge → State
  • 工程师发现:复杂 Agent 逻辑用 Python/TypeScript 写比用鼠标拖更可控——可测试、可 diff、可 code review

视觉工作流工具的三重困境浮出水面:

困境 表现
可维护性 50 个节点的画布没人敢改,改一个牵一串
版本管理 JSON 导出进 Git 是噩梦,merge conflict 看不懂
能力天花板 模型越强,预定义路径越显得多余;强模型 + 终端 > 弱模型 + 精致 flow

社区里开始流传一种刻薄但部分成立的说法:「连线工具是 AI 时代的 Dreamweaver。」——能降低入门门槛,但严肃工程最终会回到代码。

3.5 2026 年的真实地位:没死,但换了赛道

连线工具没有消失。它们完成了一次 reposition,从「造 Agent 的主战场」退到「集成与胶水层」。

仍然强势的场景

1. 集成密集型自动化(n8n 的主场)

真实案例(Konverge AI 等交付团队的公开复盘):一个报价系统,三分之二工作量是 Outlook、ERP、SharePoint、定价表对接,只有「匹配规格 + 生成报价」需要 Agent 推理。最终架构:

n8n 负责: ingestion → 解析 → 写回系统记录 → 人工审批节点
LangGraph 负责: 被 n8n 当作一个节点调用的「推理大脑」

九个工作日 demo 上线;后来加产品线,改 n8n flow 一个下午,不用重构 Agent。

2. 内部工具 / RAG 原型(Dify 的主场)

给销售搭知识库助手、给客服搭工单分类——需求稳定、用户非技术、要快速交付。Dify 的一键发布仍然比「从零写 Harness」快。

3. 运维与数据管道

定时拉数据、清洗、触发 LLM 批处理、写 Slack 通知——这是 cron + DAG,不是 Agent,但极适合 visual workflow。

4. AIGC 管线(ComfyUI 不动摇)

图像/视频生成的节点图和语言 Agent 是不同物种,ComfyUI 生态 2026 年依然繁荣。

明显失势的场景

  • 「用画布搭一个 coding agent」 → 被 Cursor / Claude Code 碾压
  • 复杂多 Agent 协作 + 长时状态 → 工程师转向 LangGraph / 自研 Harness
  • 「业务人员完全自主维护 AI 应用」 → 承诺过度;稍有复杂度就需要工程师介入

一张 2026 年的分层图

┌─────────────────────────────────────────────────────────┐
│  用户体验层:Chat / IDE / WhatsApp(OpenClaw Gateway)    │
├─────────────────────────────────────────────────────────┤
│  推理层:Agent Loop + Harness(Cursor, LangGraph, …)   │
├─────────────────────────────────────────────────────────┤
│  集成层:Visual Workflow(n8n, Zapier, Make)  ◄── 连线工具的新主场 │
├─────────────────────────────────────────────────────────┤
│  连接器:MCP Servers, REST APIs, 数据库, SaaS           │
└─────────────────────────────────────────────────────────┘

连线工具从「大脑」变成了「周围神经系统」。 这句话大概能概括它现在的地位。

3.6 Workflow 与 Harness / Loop 的关系

把前面几章的概念对齐:

  • Workflow 节点图 = 外置的、可视化的、mostly 确定性的编排
  • Harness = 包裹模型的完整运行时(含工具、记忆、规则、也可能含 workflow 触发器)
  • Loop = Harness 内部的 while 控制流,由模型驱动

一个成熟的 2026 生产栈经常是:

n8n(workflow:什么时候跑、接哪些系统)
  └─► 调用 LangGraph Agent(harness + loop:怎么推理、怎么验证)
        └─► 通过 MCP 访问业务数据

OpenClaw 则走了另一条路:不用画布,用 Markdown 文件 + Gateway + Heartbeat cron 做编排——本质仍是 workflow,只是 UI 从「节点图」变成了「文件 + 定时器」。

3.7 给选型者的一句话

你的需求 更可能的选择
接 10 个 SaaS,定时跑,业务规则常变 n8n / Make
快速搭 RAG 内部助手,非工程师维护 Dify / Coze
复杂 Agent 推理、要审计、要测试 LangGraph / 代码 Harness
个人 7×24 助手、消息渠道驱动 OpenClaw
写代码、改仓库、跑测试 Cursor / Claude Code

Workflow 工具没有输给 Agent——它们退到了更擅长的层。 以为拖条线就能取代工程的人失望了;懂得把 n8n 和 LangGraph 叠在一起的人,反而跑得更快。


第四章:OpenClaw——个人 Agent 运行时的样本

4.1 它是什么

OpenClaw 是奥地利开发者 Peter Steinberger 在 2025 年 11 月发布的开源项目(最初叫 Clawdbot,后改名 Moltbot,最终定名 OpenClaw)。到 2026 年中,它已成为 GitHub 上增长最快的 AI 项目之一,星标超过 30 万。

一句话概括:

OpenClaw 是一个自托管的个人 AI 助手运行时,让你通过 WhatsApp、Telegram、Slack、Discord 等日常聊天应用,与一个 7×24 在线的 Agent 对话。

它不是又一个 LangChain Demo,而是一个完整的 Gateway架构

WhatsApp ──┐
Telegram ──┤
Discord  ──┼──► Gateway ──► Agent Runtime ──► LLM (Claude/GPT/本地模型)
Slack    ──┤                    │
iMessage ──┘                    ▼
                          Workspace Files
                          (SOUL.md, MEMORY.md, Skills)

4.2 核心设计:文件即记忆

OpenClaw 最聪明(也最「朴素」)的设计是:Agent 的「人格」「记忆」「技能」全部是 Markdown 文件

文件 作用
SOUL.md Agent 的人格、语气、价值观
MEMORY.md 跨会话持久记忆
HEARTBEAT.md 定时自检任务清单
AGENTS.md 行为约束与操作规范
skills/ 可复用技能目录

每次 Agent 被唤醒,Gateway 从磁盘读取这些文件,拼装成 system prompt,发给 LLM。LLM 执行工具调用后,Gateway 把结果写回磁盘。

所谓「持久记忆」,本质上就是文件读写。所谓「主动性」,本质上就是 cron。

这不是贬低——恰恰相反,这种「用简单原语组合出复杂行为」的思路,是工程上最诚实的做法。

4.3 Heartbeat:让 Agent「主动」起来

传统 Chatbot 等人说话才回应。OpenClaw 通过 Heartbeat(心跳) 机制实现主动性:

  • Gateway 每 30 分钟触发一次 Agent 运行
  • Agent 读取 HEARTBEAT.md,检查是否有待办事项
  • 无事则回复 HEARTBEAT_OK(被 Gateway 静默丢弃)
  • 有事则执行并通知用户

这让 Agent 从「你问我答」变成「它自己巡逻」。配合消息渠道集成,你可以收到「服务器 CPU 超 90% 了,我已经重启了服务」这类主动推送。

4.4 多 Agent 路由

OpenClaw 支持按渠道、按发送者、按工作区路由到不同 Agent 实例。每个 Agent 有独立的 workspace 和 session,互不干扰。这解决了「工作 Agent」和「生活 Agent」混在一起的隐私问题。

4.5 为什么 OpenClaw 爆火

几个因素叠加:

  1. 时机:2026 年市场已经准备好接受「个人 Agent」概念,不再觉得奇怪
  2. 渠道:不让你装新 App,直接在 WhatsApp 里聊——零切换成本
  3. 自托管:数据在自己机器上,对隐私敏感的用户有吸引力
  4. 模型无关:Claude、GPT、Gemini、Ollama 本地模型都能用
  5. 极简架构:懂 Markdown 就能定制 Agent,门槛极低

4.6 冷静看待:OpenClaw 的局限

作为样本极具价值,但作为生产系统需要谨慎:

  • 安全风险:ClawHub 上数千个社区 Skill,已有多起 prompt injection、凭证泄露事件(Cisco、Snyk 均有审计报告)
  • 运维成本:自托管意味着你自己负责更新、备份、监控
  • 并非新范式:文件记忆 + cron + 消息网关,都是成熟技术的新组合

结论:OpenClaw 的价值在于把 Agent 运行时做成了消费级产品,让「个人 AI 助手」从概念变成可安装的东西。它的架构模式(文件即记忆、心跳即主动、Gateway 即渠道抽象)正在成为行业参考实现。


第五章:Harness Engineering——真正值得投入的工程学科

5.1 一个等式

2026 年初,Viv Trivedy 提出了一个简洁的定义,随后被 Addy Osmani、HumanLayer、Anthropic 等广泛引用:

Agent = Model + Harness

Harness(挽具) 是模型之外的一切:

  • System prompt、Rules、Skills、AGENTS.md
  • 工具定义、MCP Server、CLI 沙箱
  • 子 Agent 编排、模型路由
  • 上下文管理(压缩、摘要、检索)
  • 钩子(hooks)、中间件、确定性检查
  • 可观测性(日志、trace、成本计量)
  • 错误恢复与人工升级路径

Cursor 官方博客也确认了这一点:Cursor 的 Agent Harness 由 Instructions(指令)+ Tools(工具)+ Model(模型) 三部分组成,且 Cursor 会针对每个前沿模型单独调优指令和工具描述。

5.2 为什么 Harness 比模型重要

有一个反复被验证的数据点:

在 Terminal Bench 2.0 基准测试中,同一个 Claude Opus 模型,在 Claude Code 里跑和在自定义 Harness 里跑,分数可以差出一个量级。有团队仅通过优化 Harness(不改模型),就从 Top 30 冲进 Top 5。

原因很直观:

  • 模型是通用的,你的代码库是特定的
  • 模型不知道你的命名规范、测试策略、部署流程
  • 模型看不到它没被告知的信息
  • 模型倾向于「看起来完成了」而不是「真的完成了」

Harness 填补的,正是「模型能力」与「任务需求」之间的鸿沟。

5.3 「Skill Issue」思维

HumanLayer 有一个刺耳但准确的说法:

大多数 Agent 失败不是 model problem,是 configuration problem。

Harness Engineering 的核心心态是 Ratchet

Agent 犯错 → 分析原因 → 把修复写进 Harness → 永远不再犯

具体做法:

Agent 犯的错 Harness 修复
不知道项目用 pnpm 不用 npm 写入 AGENTS.md
注释掉失败的测试 pre-commit hook 拦截 .skip(
40 步任务中途迷失 拆成 planner + executor 子 Agent
改完代码不跑测试 在 loop 里强制 test back-pressure
上下文爆炸后胡言乱语 加入 compaction 策略

每一条 AGENTS.md 的规则,都应该能追溯到一次真实的失败。好的 Harness 是失败史的文件化。

5.4 Inner Harness vs Outer Harness

Talk Think Do 的指南做了一个有用区分:

Inner Harness Outer Harness
谁构建 工具厂商(Cursor、Anthropic) 你 / 你的团队
例子 Agent 模式、代码索引、diff 审查 UI AGENTS.md、MCP Server、CI 传感器
可定制性
可移植性 绑定产品 跨产品

工程建议:优先投资 Outer Harness 的可移植层(AGENTS.md、MCP、CI 集成),再用产品特定的 Rules 做快速迭代。

5.5 Harness 的关键组件(从行为反推设计)

Addy Osmani 和 Viv Trivedy 都建议从期望行为反推 Harness 组件

文件系统 + Git:Agent 的工作台面。没有文件系统,你就在复制粘贴聊天内容——那不是工程。

Bash + 代码执行:通用工具。预置工具追不上需求,终端是最终 fallback。

沙箱:隔离执行环境。allow-list 命令、网络隔离、用完即毁。

记忆 + 检索:AGENTS.md 注入、向量检索、BM25 混合搜索(OpenClaw 用 SQLite 实现)。

上下文管理:对抗 context rot 三件套——压缩历史、摘要 offload、子 Agent 分流。

验证回路:测试、lint、typecheck 的结果必须回流给 Agent,形成 back-pressure。

子 Agent:探索者、实现者、审查者分工,各自独立上下文窗口。

5.6 Harness Engineering 为什么是「真学问」

因为它满足一个好工程学科的特征:

  • 可积累:每次失败都转化为永久约束
  • 可度量:基准测试、成功率、成本/任务
  • 可移植:核心资产(AGENTS.md、MCP)不绑定单一产品
  • 有深度:上下文管理、安全、编排、可观测性,每一层都有大量未解决问题

如果你 2026 年只能学一样东西,学 Harness Engineering 的投资回报率高于追逐最新模型。


第六章:Loop Engineering——一次有用的命名,而非范式革命

Loop Engineering 虽然是 2026 年 6 月最热的词汇,但个人认为:它描述的现象是真实的,却被过度包装了。

6.1 它是什么

Loop Engineering(循环工程) 在 2026 年 6 月集中爆发。导火索是 Peter Steinberger(OpenClaw 作者)的一条帖子,大意是:

别再手动 prompt 你的 coding agent 了,去设计一个能自动 prompt 它的循环。

第二天,Addy Osmani 发文正式命名「Loop Engineering」,并给出解剖结构:automations、worktrees、skills、connectors、sub-agents、external state。

一句话定义:

Loop Engineering = 设计 Agent 的迭代循环——它何时行动、如何验证、何时停止——而不是你亲手敲每一条指令。

6.2 它解决什么问题

Loop Engineering 试图回答三个具体问题:

  1. 谁来发起下一轮? 不再是人按回车,而是 cron、webhook、测试失败、定时器
  2. 怎么知道做完了? 需要可测试的终止条件(测试通过、CI 绿、文件存在)
  3. 怎么防止空转? 需要 max turns、预算上限、无进展检测、人工升级

这些问题的确存在,而且随着 Agent 能独立运行时间从分钟延长到小时,变得更加紧迫。

6.3 为什么说它「没那么了不起」

原因一:它只是 ReAct 的产品化命名

Loop Engineering 的学术祖先是 2022 年的 ReAct 论文。之后还有 Reflexion(2023)、Plan-and-Execute、Evaluator-Optimizer(Anthropic 的 Building Effective Agents 指南)……

整个「循环」概念在学术界和工程界已经存在四年。 Loop Engineering 做的,主要是给已经发生的事情贴了一个新标签。

# 这就是 Loop Engineering 的全部本质
while not done and steps < MAX_STEPS:
    action = agent.decide(state)
    result = env.execute(action)
    state = update(state, result)
    done = verifier.check(state)

十二行伪代码。没有新算法,没有新数据结构,没有新协议。

原因二:真正的难点不在「循环」,而在循环里的零件

Loop Engineering 的鼓吹者喜欢画一张演进表:

年份 时代 你做什么
2024 Prompt Engineering 写提示词
2025 Context Engineering 管理上下文
2026 Harness Engineering 搭建环境
2026 Loop Engineering 设计循环

看起来像是四级火箭。但更准确的描述是俄罗斯套娃

Loop ⊂ Harness ⊂ Context ⊂ Prompt

Loop 不是新的一层,而是 Harness 里本来就应该有的控制流。一个 Harness 如果没有循环,它根本就不是 Agent Harness,只是一个带工具调用的 Chatbot。

把 Harness 里最显而易见的那个 while 循环单独拎出来叫「Loop Engineering」,有点像把 for 循环从编程里单抽出来叫「Iteration Engineering」。

原因三:产品实现极其朴素

看 Cursor 的 /loop 实现(来自官方 Loop Skill):

while true; do
  sleep <seconds>
  echo 'AGENT_LOOP_TICK_<purpose> {"prompt":"<prompt>"}'
done

就是一个 shell 死循环 + sleep + 唤醒 Agent。动态模式也不过是「Agent 自己决定下次什么时候 sleep」。

Claude Code 的 /loop、cron、hooks、GitHub Actions 触发——全是操作系统和 CI 领域二十年前的基础设施

原因四:成本陷阱比技术突破更值得关注

2026 年 6 月,r/cursor 上有一个著名案例:一个 PM 让 Agent 给 87 个任务打标签,一小时烧掉 $1,400。Cursor CEO 亲自退款。

Loop 的核心风险不是「循环不够聪明」,而是循环没有刹车

  • 默认无界的 turns
  • 每个 turn 加载完整上下文
  • 价格 = 单价 × 轮次,Agent 把轮次搞爆了

所以 Loop 领域真正值得关注的工程实践是:

  • --max-turns / --max-runtime 硬上限
  • 每任务成本可见性
  • 无进展检测(同一测试失败三次就停)
  • 可测试的终止条件

这些是运维和治理问题,不是新的工程范式。

6.4 那 Loop Engineering 有没有价值?

有,但价值在于降低了认知门槛,不在于创造了新技术。

它让更多人意识到:

  • 你不该守在聊天窗口旁边
  • 你该定义「完成」的标准,而不是定义「下一步」
  • 验证器(verifier)是循环里最重要的零件,不是模型

如果你之前已经在用「跑测试 → 失败 → 喂给 Agent → 再跑」的模式,你早就在做 Loop Engineering 了,只是没人给你发一个时髦的标签。

6.5 一个更诚实的定位

┌─────────────────────────────────────────────────────┐
│                  Harness Engineering                 │
│  ┌───────────────────────────────────────────────┐  │
│  │              Context Engineering               │  │
│  │  ┌─────────────────────────────────────────┐  │  │
│  │  │           Prompt Engineering            │  │  │
│  │  └─────────────────────────────────────────┘  │  │
│  │                                               │  │
│  │  ┌─────────────────────────────────────────┐  │  │
│  │  │  Loop = 控制流(while + 终止条件)      │  │  │
│  │  │  不是独立的一层,是 Harness 的内置能力   │  │  │
│  │  └─────────────────────────────────────────┘  │  │
│  └───────────────────────────────────────────────┘  │
└─────────────────────────────────────────────────────┘

Loop Engineering 是一份好的检查清单,不是一门新科学。


第七章:串起来——从 2022 到 2026 的完整时间线

2022.11  ChatGPT 发布
         └─► Prompt Engineering 时代:怎么问问题
2022     ReAct 论文
         └─► Agent 概念学术化:推理 + 行动交替
2023     Function Calling / Tool Use 产品化
         └─► 模型能调工具了,但还需要外层运行时
2023–24  连线 Workflow 工具爆发(LangFlow, Dify, Flowise, n8n AI 节点)
         └─► 「拖节点搭 AI 应用」成为入门默认路径
2024.11  MCP 协议发布
         └─► Agent 集成的 USB-C 时刻
2024–25  Cursor / Claude Code / Codex 成熟
         └─► Coding Agent 吃掉「画布搭代码助手」场景
2024–25  LangGraph 1.0
         └─► 复杂 Agent 编排回归代码定义的有状态图
2025     Context Engineering 命名(Tobi Lütke / Karpathy / Anthropic)
         └─► 关注点从「怎么说」转向「给什么信息」
2025–26  n8n / Dify 等 reposition
         └─► 视觉 Workflow 退到集成层,与 LangGraph / Harness 叠用
2025.11  OpenClaw 发布
         └─► 个人 Agent 运行时消费级化(文件 + cron 替代画布)
2026     Harness Engineering 命名(Viv Trivedy / Addy Osmani)
         └─► 行业共识:模型之外才是主战场
2026.06  Loop Engineering 命名(Steinberger / Osmani)
         └─► 把 Harness 里的控制流单独品牌化

第八章:实践建议——如果你今天就要开始

8.1 按优先级排列的学习路径

优先级 学什么 为什么
⭐⭐⭐ Harness Engineering 最高 ROI,可积累、可度量、可移植
⭐⭐⭐ MCP + CLI 工具链 打通 Agent 与真实世界的标准接口
⭐⭐ Workflow 集成层(n8n 等) 接系统、定时触发——别跟 Agent 抢「大脑」的活儿
⭐⭐ Context / Memory 管理 长任务必备,AGENTS.md 是最小起步
⭐⭐ Skills 编写 把重复工作流封装成可复用模块
Loop 设计 重要但简单——定义目标、验证器、上限
追新模型 模型在涨,但 Harness 决定了你能用到多少

8.2 一个最小可用的 Harness 起步清单

# 你的项目今天就可以有的 Harness
1. AGENTS.md
   - 技术栈(语言、包管理器、测试框架)
   - 命名规范和目录结构
   - 「禁止」清单(从真实失败中积累)
2. 一个 MCP Server
   - 至少接入你的数据库或 issue tracker
   - 让 Agent 能查真实数据而不是猜
3. 验证回路
   - Agent 改完代码必须跑测试
   - 测试失败 = 继续循环的输入
4. 终止条件
   - 测试全绿 = 完成
   - 同一错误重复 3 次 = 人工介入
   - max 20 turns = 硬停止
5. 成本意识
   - 知道一次 Agent 任务大概花多少钱
   - 批量任务先在小样本上试跑

8.3 该警惕的 hype 信号

  • 有人告诉你「Loop Engineering 替代了 Harness Engineering」→ 它们在套娃,不是替代
  • 有人卖「Loop 框架」但不谈验证器和成本 → 在卖 while 循环
  • 有人强调模型版本但不谈 AGENTS.md → 在等 GPT-7 而不是修自己的 Harness
  • 社区 Skill / 插件不做安全审计就装 → OpenClaw 的教训
  • 有人声称「拖条线就能搭生产级 Agent」→ 2024 年的故事,集成层和推理层要分开看

结语:模型是引擎,Harness 是整车,Loop 是油门

用一个不太严谨但好记的汽车比喻:

  • LLM 是发动机——提供动力,但本身不会走路
  • Agent 是「发动机 + 传动系统」——能把动力转化为行动
  • CLI / MCP / Skills 是方向盘、油门、刹车——具体的操控接口
  • Workflow(n8n 等) 是周围神经系统——接 SaaS、定时触发、胶水层
  • Harness 是整辆车——底盘、悬挂、安全系统、仪表盘
  • Loop 是巡航定速——你设定目标速度和停车条件,车自己跑

2026 年的行业共识越来越清晰:发动机厂商之间的竞争依然激烈,但赢家往往不是发动机最好的,而是整车造得最好的。

OpenClaw 证明了个人 Agent 可以落地;n8n + LangGraph 证明了 Workflow 与 Agent 可以分层协作;Harness Engineering 给出了系统化的方法论;Loop Engineering 提醒你别守在聊天窗口旁——这些都很有用。

但别被新名词晃花了眼。打开任何一个成熟 Coding Agent 的源码,你看到的核心逻辑依然是:

while not done:
    response = model.generate(context)
    if response.has_tool_calls:
        results = execute_tools(response.tool_calls)
        context.append(results)
    else:
        done = True

参考与延伸阅读


引用链接

  1. ReAct: Synergizing Reasoning and Acting in Language Models: https://arxiv.org/abs/2210.03629
  2. Building Effective Agents: https://www.anthropic.com/research/building-effective-agents
  3. Model Context Protocol Specification: https://modelcontextprotocol.io/
  4. OpenClaw Documentation: https://docs.openclaw.ai/
  5. Agent Harness Engineering — Addy Osmani: https://addyosmani.com/blog/agent-harness-engineering/
  6. Best Practices for Coding with Agents — Cursor: https://cursor.com/blog/agent-best-practices
  7. Anatomy of an Agent Harness — Viv Trivedy: https://vvtrivedy.com/posts/anatomy-of-an-agent-harness/
  8. Loop Engineering — Addy Osmani: https://addyo.substack.com/p/loop-engineering
  9. n8n AI Workflows vs LangGraph — Suhas Bhairav: https://suhasbhairav.com/blog/n8n-ai-workflows-vs-langgraph-agents-visual-automation-vs-code-defined-agent-graphs
  10. Choosing the Right Agentic Framework — Konverge AI: https://konverge.ai/blog/choosing-the-right-agentic-framework-lessons-from-the-delivery-teams/
目录
相关文章
|
4天前
|
云安全 人工智能 运维
阿里云SecOps Agent,全新安全跨产品执行体验
自然语言驱动 云安全中心/WAF/CFW/ 等多款安全产品联动
1595 2
|
1天前
|
人工智能 定位技术 SEO
我学 GEO 第 15 天:终于知道AI GEO该如何做?
我是暴走的莉莉酱,边旅行边研究AI GEO的数字游民。专注普通人如何提升“AI可见度”——让AI在回答用户问题时准确识别、理解并推荐你。不讲玄学,只做可测、可调、可持续的GEO实践。
352 123
|
4天前
|
机器学习/深度学习 人工智能 调度
🐴 HappyHorse 1.1 现已上线阿里云百炼!快来查收模型使用指南,现在调用享 6 折~
HappyHorse 1.1 是新一代视频生成大模型,全面升级动态表现力、角色一致性、指令遵循、视觉质感与音画协同能力。支持I2V/T2V/R2V三类生成,适配短剧、电商广告、品牌营销等场景,提供高质、流畅、可控的AI视频生产力。
591 4
🐴 HappyHorse 1.1 现已上线阿里云百炼!快来查收模型使用指南,现在调用享 6 折~
|
15天前
|
缓存 测试技术 API
Qwen 3.7 Plus 与 Max 实测:性价比与多模态能力差异解析(2026)
2026 年 6 月 1 日,阿里悄无声息地发布了 Qwen 3.7 Plus,距 Qwen 3.7 Max 上线刚好 11 天。同样的 1M 上下文,同样的 35 小时自治上限。但价格才是头条:Plus 是 0.40/M输入,Max是 2.50/M——便宜约 6 倍——并且还能看图、看视频。Vision Arena 上 Plus 已经排到 #16。所以这周真正值得讨论的问题不是”要不要为视觉能力买单”,而是”Max 凭什么用 6 倍价格换来 2 个百分点的 benchmark 领先”。
|
15天前
|
JavaScript 定位技术 API
CodeGraph 爆火:编程 Agent 需要的不是更多上下文,而是一张提前画好的代码地图
CodeGraph 是一款爆火的本地代码智能工具,通过 tree-sitter 解析 AST 构建结构化知识图谱(存于 SQLite),为编程 Agent 提前生成“代码地图”。它显著降低 Agent 在中大型项目中的探索成本——实测工具调用减少71%、Token 降57%、速度提升46%,支持19+语言及主流框架路由识别,完全离线、无需 API Key。
919 12
CodeGraph 爆火:编程 Agent 需要的不是更多上下文,而是一张提前画好的代码地图
|
8天前
|
缓存 人工智能 运维
GLM 5.2自托管全流程实战:硬件选型、vLLM/SGLang部署与成本盈亏测算
2026年智谱发布GLM 5.2超大混合专家模型,区别于以往仅开放API的闭源大模型,该模型权重以MIT开源协议对外发布,企业与开发者可完整下载、本地审计、私有化部署,实现数据不出环境、自定义微调、自主调度推理资源。GLM 5.2拥有753B总参数,原生支持百万级上下文窗口,在代码生成、长文档推理、数学逻辑等多项基准测试中对标国际顶尖商用模型,是首款可完整自托管的前沿代码向大模型。
675 0
|
3天前
|
消息中间件 人工智能 Kafka
AI 时代,实时入湖正在告别 ETL:从 Kafka 到 Iceberg 的架构减法
本文围绕“零 ETL”这一趋势,讨论流数据入湖为什么需要做架构减法,并结合 Kafka × Table Bucket 的实践,分析一种将通用入湖能力前移到消息与表存储链路中的方案,如何在降低复杂度的同时,兼顾实时性、一致性、Schema 演进、CDC 语义与开放生态兼容。
193 121
|
3天前
|
人工智能 监控 前端开发
Electron 监控:让桌面 Agent 监控触手可及
一行代码实现Electron桌面端全景监控,自动还原崩溃现场、预警内存泄漏、全链路追踪、 SSE流式响应与交互埋点,让 AI 助手运行状态清晰可见,助力快速恢复稳定与流畅。
184 125
|
11天前
|
人工智能 自然语言处理 算法
阿里云百炼Qwen 3.7 Plus与Max实测全解:性价比与多模态能力、成本深度对比
2026年,阿里云百炼平台推出的Qwen 3.7系列成为企业与开发者落地AI应用的核心选择,其中Qwen 3.7 Max与Plus作为两大旗舰版本,定位差异显著:Max是纯文本推理旗舰,专注高强度智能体与复杂逻辑任务;Plus则是多模态全能版,在保留强大文本能力的同时,补齐图像、视频理解能力,且价格大幅降低。本文基于2026年最新实测数据,从核心参数、文本能力、多模态能力、智能体表现、性价比与场景选型六大维度,全面解析两款模型的差异,为用户提供精准选型参考。
545 0