章鱼不会把触角外包:为什么通用 Agent 的终局只属于模型厂商
看完 GPT-5.4 那篇文章后,我的判断更清楚了:
通用 Agent,模型厂商一定会自己做。
而且,也只有模型厂商最有机会做到最好。
如果你还把 Agent 理解成一套“模型 + 工作流 + 工具调用”的拼装系统,那可能已经有点落后于这波行业变化了。
这种理解,正在迅速过时。
因为真正的通用 Agent,从来不是在大模型外面再包一层流程编排,而是模型能力边界继续向外生长的结果。它要把理解、推理、调用工具、操作界面、接收反馈、继续修正,压进同一个闭环里。
这个闭环如果不长在模型本体上,智能就会在一层层转译里不断损耗。
这也是我越来越喜欢“章鱼”这个比喻的原因。
章鱼最聪明的地方,不只是它有一个大脑,而是它的触角本身就带着大量神经元。触角既是执行器,也是感知器,还是局部决策单元。它之所以灵活,不是因为身体外面绑了八根机械臂,而是因为触角本来就是身体的一部分。
通用 Agent 也是一样。真正高水平的 Agent,不会是“模型在云上思考,应用在外面替它跑腿”的身首分离结构,而会是“模型直接长出触角”,把工具使用、环境理解和任务执行都内化为底座能力。
一、这不是升级,这是 Agent 能力回到模型层
那篇文章里最值得重视的,不是某个 benchmark 分数,也不是某个版本号,而是 OpenAI 明显在改路线。
它不再满足于做一个“更会聊天”的模型,而是在把模型推向一个能直接交付专业工作的系统。表格、文档、PPT、编码、computer use、长流程任务、工具搜索、金融数据接入,这些能力不再是零散外挂,而是在被统一进同一个底座里。
这背后的含义其实非常直接:
- 模型不只负责回答问题
- 模型开始负责理解环境
- 模型开始负责调用工具
- 模型开始负责推动任务完成
- 模型开始负责直接交付结果
这不是一次普通的能力扩充。
这是一场 Agent 能力向模型层回收的过程。
换句话说,通用 Agent 不是模型厂商“会不会做”的问题,而是它们“迟早一定会做”的问题。
原因也不复杂。对用户来说,真正愿意付费的从来不是“模型又聪明了一点”,而是“它到底能不能把活直接干完”。谁控制任务交付,谁就控制下一代入口、数据闭环和商业化空间。模型厂商没有理由把这一层长期让给别人。
二、为什么模型厂商一定会亲自下场做通用 Agent
很多人以为 Agent 只是“调用工具的壳”。如果只是这样,确实谁都可以做,差别不过是界面和工程细节。
但真正的通用 Agent,不是一个壳,而是一套连续能力:
- 看懂环境
- 理解目标
- 规划步骤
- 选择工具
- 执行动作
- 读取结果
- 根据反馈继续修正
这七步如果拆散在不同系统里,问题马上就出来了:
- 模型理解的是文本描述,不是原始环境
- 应用执行的是预设流程,不是真正的实时决策
- 工具返回结果后,还要再被翻译给模型
- 每一轮交互都会额外消耗延迟、上下文和 token
- 出错之后,很难判断到底是模型错了、提示词错了、编排错了,还是工具协议错了
这就是为什么很多“套壳 Agent”看起来也能跑,但一旦任务变长、环境变复杂、工具变多,成功率就开始迅速塌陷。
它们的问题不是不努力,而是结构上就不是一个整体。
模型厂商不一样。它们可以从第一天起就把这些能力按同一个系统来设计,而不是在外面一层层缝起来。
三、为什么也只有模型厂商最有机会把它做好
“一定会自己做”和“只有它们最有机会做好”,其实是两层判断。
前者是战略必然,后者是能力约束。
我认为至少有四个结构性原因。
1. 训练闭环只会越来越向厂商集中
通用 Agent 的核心,不是会不会调用一次工具,而是能不能在海量真实任务里持续变好。
模型厂商做自己的 Agent,可以同时看到用户意图、推理过程、工具选择、环境变化、执行结果、失败原因和人工修正,再把这些信号回流到训练、对齐和评测体系里。
外部应用公司即使也能收集数据,能改的往往只是提示词、编排逻辑和局部策略,改不了模型本身。它们像是在教一个住在隔壁的大脑控制机械手,而厂商是在让大脑和触角一起进化。
这两种学习效率,不在一个量级。
2. 原生协同设计,不是应用层能补出来的
很多关键能力,应用层根本补不出来。
比如 tool use 是不是原生语义,computer use 是不是在训练中学过屏幕和 GUI 交互,tool search 是不是模型内部机制,长上下文、视觉理解、结构化输出和规划能力能不能协同工作。
这些都不是“接个 API”能解决的,而是模型架构、训练数据、对齐方式和推理策略共同决定的。
外挂可以让东西先跑起来,原生能力才能把东西跑稳、跑快、跑深。
3. 成本、延迟和可靠性,只会奖励一体化系统
Agent 一旦进入真实工作流,用户在乎的不是 demo 有多惊艳,而是三件事:能不能稳定完成,能不能足够快,能不能付得起。
外接式 Agent 往往要经历“模型理解一下,应用判断一下,工具执行一下,结果再喂回模型再理解一下”的多轮往返。每多一层,就多一次损耗。
而原生 Agent 的优势恰恰在于,它可以把原本需要多轮协调的事情,压缩成一套更紧密的决策回路。少一次转译,就少一次误解;少一次往返,就少一截延迟;少一层胶水代码,就少一个故障点。
这不是简单的工程优化能完全抹平的差距,而是系统边界不同带来的差距。
4. 厂商同时掌握能力标准和产品入口
GPT-5.4 释放的另一个信号很明确:同一个底座能力,可以同时流入 ChatGPT、API、Codex、Excel 这类不同入口。
这意味着模型厂商不仅在做能力本身,也在掌控能力的分发方式、默认交互、权限模型、调用接口、评测口径和商业化路径。
这会形成很强的复利:
- 新能力先在自家产品里验证
- 好的交互再沉淀成 API 能力
- 外部开发者继续放大生态
- 生态反馈再反哺模型训练
一旦这个飞轮转起来,外部通用 Agent 产品就很难再跟它拼“底层通用能力”。
四、章鱼的触角,为什么不能外包
我一直觉得,AI 行业里很多误判,都是因为大家低估了“身体一体化”这件事。
章鱼触角的价值,不是因为它长得多,而是因为它和身体共用一套神经系统。感知、决策、执行、反馈不是串行外包,而是同步耦合。
通用 Agent 也是如此。
如果触角不长在章鱼身上,会发生什么?
- 感知会被压缩
- 指令会被延迟
- 反馈会被丢失
- 学习会被割裂
- 动作会变形
你当然可以给章鱼接上外部机械臂,它也许也能抓到东西。但它不可能像原生触角那样敏锐、细腻、低延迟、可学习。
今天很多通用 Agent 创业项目,本质上就在做这件事:给模型接“外部机械臂”。
这不是没有价值。但如果目标是做最强的通用 Agent,那它们面对的是一个非常残酷的现实:
最好的触角,一定会长回模型厂商自己的身体上。
五、应用层还有机会,但不在“再包一层壳”
也不是。
真正没有护城河的,是“通用能力的转售”和“薄薄一层的工具封装”。
说白了,最危险的一类公司,就是把自己的全部价值建立在“替底层模型多拐一道弯”上。因为只要模型厂商把这道弯抹平,这层价值就会瞬间变薄。
真正还有价值的,反而是厂商短期内做不深、做不细、做不进组织内部的部分:
- 垂直行业的深知识和高责任流程
- 企业私有数据、权限体系和遗留系统整合
- 面向具体岗位的工作流重构
- 高质量评测、交付、实施和持续运营
- 在组织内部把人机协作真正跑通
说得更直接一点:
如果一家公司的价值只是“帮模型调一下工具”,那迟早会被模型厂商吃掉。
如果一家公司的价值是“替某个行业、某家公司,把模型真正嵌进业务里并跑出结果”,那机会依然很大。
前者是替章鱼卖假肢,后者是帮章鱼进入新的海域。
写在最后
那篇 GPT-5.4 文章让我更加确定,行业正在从“模型 + 外挂 Agent”走向“模型原生长出 Agent 能力”。
这不是 OpenAI 一家的选择,也不会只发生一次。只要某家公司做的是通用模型,它就一定会试图把 tool use、computer use、工作流执行、专业场景能力继续往底座里吞。因为这是自然的竞争方向,也是最合理的产品形态。
所以,我现在的判断非常明确:
通用 Agent,模型厂商一定会自己做。
而且,只有模型厂商最有机会做到最好。
就像章鱼的触角,只有长在章鱼自己的身体上,才能实现最大程度的智能化。
剩下所有人,都应该尽快想清楚一件事:
你要做的是“另一根通用触角”,还是“章鱼暂时还游不到的那片水域”?