Agent 构建变轻、Agent 架构变薄,什么正在变厚?

简介: 群体智能已在从实验走向应用,从另一维度推动 Agent Team 的共鸣。

作者:望宸


01 三条龙,三副缰绳


之前我们聊过 Harness Engineering(驾驭工程)。你的客厅里来了一条龙,得给它配上一套完整的驾驭系统:缰绳、马鞍、护具。其实自从 Agent 出现后,驾驭工程就一直存在。只是 OpenClaw 的出现,促使 AI 主权从模型厂商转移到用户侧,我们才对驾驭工程有了更深刻的体会,从而引发业界共鸣


但不同时代的 Agent 形态,我们所需要的缰绳并不一样。


以 Manus、OpenClaw 和 Claude Managed Agent 三种主流的 Agent 为例,它们都遵循三层结构,底层是基础模型,中间是 Agent 能力构建层,顶层是用户交互界面,但在"谁来构建中间层"和"中间层有多厚"这两个问题上,三者给出了不同的答案。


02 三种 Agent 形态,三种产品设计哲学

1776417500600_8803239687fd4ae599dc024e1f500f78.png

Manus:交钥匙式的黑盒 Agent 方案。

第二层 Agent 能力层(记忆、系统提示、知识库、Workflow、MCP 等)由 Manus负责调优和控制。用户拿到的是一个成品,只拥有第三层浏览器界面的使用权。就好比我们买了一台品牌整车,发动机、变速箱、悬挂系统都是厂商标定好的,只管踩油门、控制方向盘。


OpenClaw:开放骨架,用户负责优化 Agent 效果。

第二层 Agent 能力层被解构为一组文本协议:agent.md 定义行为、soul.md 定义性格、User.MD 描述用户画像,再加上 Heartbeat 心跳机制、Skills 技能和 Sessions 会话管理。这些全部归用户所有,通过自然语言“调教”龙虾,让他更懂你,能做更多事。第三层的交互界面从单一浏览器扩展到 Discord、飞书、钉钉等 IM 平台。就好比我们拿到了一辆可改装的赛车底盘,引擎是厂商的,但悬挂、空力套件、座椅全由我们自己装配。


Claude Managed Agent:托管共建,按需定制。

第二层 Agent 能力层被极简化为三个核心原语:Environment(环境)、Session(会话)和 Events(事件)。与 OpenClaw 不同的是,这个极简的第二层由 Anthropic 基于用户需求来定制化构建。第三层同样支持浏览器和 IM 多端。好比我们请了一位顶级的赛车工程团队,帮我们把一切调到最佳状态。


03 Agent 的构建在变轻,Agent 的架构在变薄

1776417533138_acc138e761d149228826b9403935dac5.png

Manus 的第二层是一个完整的能力栈。

记忆系统、系统提示词、知识库、Workflow 编排、MCP 工具协议……它几乎把让 AI 可靠工作所需要的一切都包裹在了 Agent 能力层。

这种"厚 Agent"策略在早期模型不够智能的情况下,完全合理。例如我们在这里提到的“技术债指数级放大"和"上下文腐烂"问题,根源都在于模型在面对泛化需求的自主能力有限,需要厚重的 Harness 来弥补。


OpenClaw 的第二层开始收敛。

从五六种不同类型的能力模块(记忆、知识库、Workflow……),收敛为一组结构化的文本协议(Agent.md、Soul.md、User.md),再通过热插拔的 Skills,就能构建出一个高度定制化的 Agent。我们甚至可以把"品味"编码为自动化规则来约束。因此,Agent 的行为复杂度被降维了,从工程复杂度降到了文本复杂度。

这背后反应的是我们对模型和 Agent 的认知在提升:与其设计复杂的编排系统来弥补模型的不足,不如设计简洁的约束环境来发挥模型的能力。


Claude Managed Agent 则是把第二层压缩到了极致。

只剩三个核心原语:Environment 定义执行环境,Session 管理会话状态,Events 处理事件驱动。没有显式的记忆模块、没有知识库、没有 Workflow 编排。这些能力都被"下沉"到了模型层,在一个极简的 Agent 能力框架内自主规划、推理和执行。

1776417694474_c712a1f8c5a94286830603f9fac6457e.png

Claude Managed Agent 用户界面


04 多 Agent 协作在变厚


轻和薄只是故事的一半,Agent 与 Agent 之间的协作,正在迅速变厚。


复杂任务推动 Agent Team 的涌现。

我们交给 Agent 的任务正在从"输出一张图片"升级为"帮我诊断一个线上故障"。复杂和长程任务,单体 Agent 越来越力不从心,例如出现上下文会腐烂、Skills 污染等情况。多 Agent 既能对上下文、技能起到隔离的作用,还能让主 Agent 负责规划,子 Agent 在隔离的上下文中执行具体任务,各司其职。

例如 HiClaw 采用的 Manager-Workers 架构就是典型的 Agent Team 范式,但多智能体协作的范式没有银弹,取决于场景。下方列举了 Manager-Worker(管理者-执行者)、Sequential / Pipeline(顺序链式)、Peer-to-Peer / Decentralized(去中心化对等协作),三种常见的协作范式。

1776417823651_74bb79cf720845a69e868d44412d5578.png

Manager-Worker(管理者-执行者)

这种范式的核心能力是"分而治之",最擅长的是那些任务可以被明确拆分为独立子任务、且最终需要汇总的场景。

深度研究与报告生成是最典型的场景。比如你要做一份行业竞品分析报告,Manager 把任务拆成"调研公司A的产品线"、"调研公司B的财务数据"、"调研公司C的技术栈",三个 Worker 并行去做,最后 Manager 汇总成一份完整报告。每个子任务之间几乎没有依赖关系,并行效率很高。

复杂软件项目的任务分配也是常见用法。Manager 理解了整体需求后,把前端、后端、数据库设计分别交给不同的专家 Agent。不过这里有个微妙之处:如果子任务之间有强依赖(比如后端接口定义影响前端实现),纯 Manager-Worker 就会吃力,需要 Manager 做更多的协调。

简单说,只要你的任务满足"可拆分、子任务独立、需要汇总"这三个条件,Manager-Worker 就是首选。


Sequential / Pipeline(顺序链式)

Pipeline 擅长的是有明确阶段性、后一步依赖前一步输出的任务。它的思维模型就是流水线:原料进去,成品出来,每一站做一道加工。

数据分析管道是经典场景。数据清洗 → 特征工程 → 模型推理 → 结果可视化,每一步都建立在前一步的基础上,ETL 流程天然就是 Pipeline 结构。还有代码生成与测试场景。需求理解 → 代码编写 → 单元测试生成 → 代码审查 → 修复。

每个 Agent 专注一个环节,职责边界非常清楚,出了问题也容易定位是哪个环节的 Agent 表现不佳。Pipeline 的核心优势是可解释性和可调试性。我们能清楚地看到每一步的中间结果。但它的局限也很明显:一旦某个环节需要回溯修改前面的输出,纯线性结构就很尴尬,需要加入反馈回路才能处理。


Peer-to-Peer / Decentralized(去中心化对等协作)

P2P 范式的独特之处在于没有中心控制者,每个 Agent 都是自主的,它们通过协商、广播、共享信息来协作。这种架构最擅长的是那些没有预定义流程、需要动态涌现协作模式的场景。

社会模拟与仿真是 P2P 最经典的应用。比如 Generative Agents [1] (斯坦福"AI小镇"实验)。25个 Agent 各自有自己的记忆、目标和日程,它们在虚拟环境中自主行动、互相对话、形成关系。没有任何 Manager 在指挥谁该做什么,所有的社会行为都是从对等交互中涌现出来的。

另外,多方谈判与博弈也天然适合P2P 范式。比如模拟一场商业谈判,买方、卖方、中介方各自有自己的利益和策略,它们需要互相试探、出价、让步。这种场景不存在一个正确的中心调度逻辑,博弈结果取决于各方的动态交互。

自组织的工作流优化也是一个前沿方向。多个 Agent 在执行任务时发现瓶颈,自主调整分工——比如某个 Agent 发现自己任务轻,主动从负载重的 Agent 那里分担工作。这种动态负载均衡在 Manager-Worker 架构中需要 Manager 来做,但在 P2P 中可以自发实现。

但是 P2P 的代价是协调复杂度高、行为难以预测。在生产环境中,纯 P2P 通常需要配合良好的通信协议和终止条件设计,否则容易陷入无限循环或信息爆炸。


群体智能已在从实验走向应用,从另一维度推动 Agent Team 的共鸣。

当单个 Agent 变薄到足够轻量,养一群 Agents 的成本就变得可以接受。这催生了一种全新的玩法:群体智能。

HiClaw 的700万豪车汽车设计 [2]就是一个典型群体智能的案例。多个不同角色的 Agent 进行 100 轮讨论,输出综合结论。再例如最近爆火的 AI Hedge Fund [3]。该项目构建一个了19位传奇投资人组成的 Agent 军团,包括:巴菲特 Agent 专注价值投资和护城河分析,芒格 Agent 擅长逆向思维和跨学科模型,木头姐 Agent 聚焦颠覆式创新和长期科技趋势...

1776417846196_26c21b30ba5a444e803a2bb9caac43d3.png

当多个风格迥异的投资大师 Agent 组成军团、相互碰撞时,涌现出的洞察就不再是任何单一 Agent 能达到的。这就是群体智能的价值:个体效率的提升是线性的,而群体智能的涌现是指数级的。


Agent Team 恰好和互联网的发展逻辑一致。终端设备从大型机变成了手机,越来越轻薄,但基于互联网的人类协作越来越多样化,发挥无与伦比的群体智慧。


本文配图由 QoderWork 制作。


相关链接:

【1】Generative Agents:

https://github.com/joonspk-research/generative_agents

【2】700万豪车汽车设计:

https://github.com/agentscope-ai/HiClaw/issues/405
【3】AI Hedge Fund:

https://github.com/virattt/ai-hedge-fund

相关文章
|
15天前
|
人工智能 数据可视化 安全
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
本文详解如何用阿里云Lighthouse一键部署OpenClaw,结合飞书CLI等工具,让AI真正“动手”——自动群发、生成科研日报、整理知识库。核心理念:未来软件应为AI而生,CLI即AI的“手脚”,实现高效、安全、可控的智能自动化。
34803 41
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
|
9天前
|
人工智能 自然语言处理 安全
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
本文介绍了Claude Code终端AI助手的使用指南,主要内容包括:1)常用命令如版本查看、项目启动和更新;2)三种工作模式切换及界面说明;3)核心功能指令速查表,包含初始化、压缩对话、清除历史等操作;4)详细解析了/init、/help、/clear、/compact、/memory等关键命令的使用场景和语法。文章通过丰富的界面截图和场景示例,帮助开发者快速掌握如何通过命令行和交互界面高效使用Claude Code进行项目开发,特别强调了CLAUDE.md文件作为项目知识库的核心作用。
10092 30
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
|
5天前
|
人工智能 JavaScript Ubuntu
低成本搭建AIP自动化写作系统:Hermes保姆级使用教程,长文和逐步实操贴图
我带着怀疑的态度,深度使用了几天,聚焦微信公众号AIP自动化写作场景,写出来的几篇文章,几乎没有什么修改,至少合乎我本人的意愿,而且排版风格,也越来越完善,同样是起码过得了我自己这一关。 这个其实OpenClaw早可以实现了,但是目前我觉得最大的区别是,Hermes会自主总结提炼,并更新你的写作技能。 相信就冲这一点,就值得一试。 这篇帖子主要就Hermes部署使用,作一个非常详细的介绍,几乎一步一贴图。 关于Hermes,无论你赞成哪种声音,我希望都是你自己动手行动过,发自内心的选择!
2032 21
|
27天前
|
人工智能 JSON 机器人
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
本文带你零成本玩转OpenClaw:学生认证白嫖6个月阿里云服务器,手把手配置飞书机器人、接入免费/高性价比AI模型(NVIDIA/通义),并打造微信公众号“全自动分身”——实时抓热榜、AI选题拆解、一键发布草稿,5分钟完成热点→文章全流程!
45691 155
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
|
2天前
|
人工智能 自然语言处理 安全
|
9天前
|
机器学习/深度学习 存储 人工智能
还在手写Skill?hermes-agent 让 Agent 自己进化能力
Hermes-agent 是 GitHub 23k+ Star 的开源项目,突破传统 Agent 依赖人工编写Aegnt Skill 的瓶颈,首创“自我进化”机制:通过失败→反思→自动生成技能→持续优化的闭环,让 Agent 在实践中自主构建、更新技能库,持续自我改进。
1640 5
|
16天前
|
人工智能 JSON 监控
Claude Code 源码泄露:一份价值亿元的 AI 工程公开课
我以为顶级 AI 产品的护城河是模型。读完这 51.2 万行泄露的源码,我发现自己错了。
5794 26
|
7天前
|
IDE Java 编译器
【全网最详细】JDK17下载安装图文教程 | Java17编程环境搭建步骤详解
JDK 17是Java官方长期支持(LTS)版本,提供编译、调试、运行Java程序的完整工具链。具备高稳定性、强安全性及现代语言特性(如密封类、模式匹配),广泛用于企业开发、教学入门与生产环境,是学习和实践Java的首选基础工具。(239字)
1197 15

热门文章

最新文章

下一篇
开通oss服务