为什么说你的 Agent 并没有在"规划",它只是在填空?

简介: 本文犀利指出:2025–2026年Agent圈所谓“规划能力”,九成实为“CoT+while循环”套壳——将链式推理(CoT)包装成规划,缺乏任务拆解、状态管理、环境校正与动态重规划。文章厘清真规划四大要义,拆解AutoGPT/ReAct/LangGraph等框架的局限,并揭示其横行源于Demo经济、LLM能力瓶颈与工具掩盖幻觉。真规划需走向Reflexion、CodeAct、搜索树或符号混合等新路径。(239字)

2025–2026 年 Agent 圈一层不太愿意被挑破的窗户纸——市面上号称"具备规划能力"的 Agent,十之八九的 planner 模块,本质是把 CoT 的 prompt 模板套进了一个 while-loop,再贴个"Planning"的标签。下面把这件事拆开讲透:先界定什么叫"真规划",再看当前 Agent 的 planner 实际在干什么,最后说清为什么这种"CoT 套壳"能横行,以及真规划该往哪走。


一、先立标杆:什么叫"真规划",它和 CoT 根本不是一件事

CoT(Chain-of-Thought)的原始定义很清楚——Wei 等人 2022 年的论文里,它就是在输出答案前让模型用自然语言展开一步步推理,把 input → output变成 input → reasoning chain → output。它解决的是"模型容易在中间步骤跳步、偷懒、算错"这个问题,本质是单路径、线性、闭卷式的思维展开。

而"规划(Planning)"在 Agent 语境下要重得多,它至少得扛住这四件事:

  1. 任务拆解:把一个开放目标("分析用户流失原因出报告")拆成若干子目标,且拆法本身可被评价
  2. 状态管理:记得已经做到了哪、哪些子目标完成了、当前上下文是什么
  3. 环境 grounding:每一步的假设能被环境反馈校正(调工具、拿观测、再决定下一步)
  4. 动态重规划:执行到一半发现原计划走不通,能回溯、能改路线、能弃子目标

💡 一句话分界:CoT 是"脑内演算",规划是"带地图和探照灯的野外行动" 。前者不连环境、不涉及工具、没有显式状态、更不会在半路改主意。 里作者用同一个"电商用户流失分析"任务跑过三模式对照:CoT 是"想清楚再动手"——问题是"你以为想清楚了,执行总有意外"。

所以工程圈里有个共识分层:CoT ≈ 局部推理增强,ReAct ≈ 在线决策机制,Plan-and-Execute ≈ 才接近真正意义上的任务规划框架( 的同作者表述)。把 CoT 直接叫"规划",是这一轮最普遍的术语通胀。


二、拆开看:当前 Agent 的"规划"到底长什么样

拿几个被反复引用的"标杆 Agent"开刀:

AutoGPT / BabyAGI 的规划器

表面看是"自主拆解任务、维护待办列表、循环执行"。但拆开 prompt 看,核心就是一段被写死的模板:

You are an AI assistant. To complete tasks, always think step by step,
consider tools you have, and reason before acting.
Use this format:
Think → Decide → Act → Observe

模型每一步的"规划"不过是在这个模板里填空。程序层面强制了一个 任务 → 拆解 → 执行 → 记录 → 复盘 → 继续的 while-loop,LLM 只负责生成每一步的文字描述。你看到的"自动规划",其实是 prompt + 代码骨架合谋演的一出戏,LLM 本人并没有"悟出"规划。

ReAct 的规划

ReAct 论文(Yao et al., ICLR 2023)的本职是把"推理"和"行动"拧成 Thought → Action → Observation → Thought的闭环,解决的是 CoT 无 grounding、Act-only 无策略这两个单边缺陷。但注意——ReAct 的"规划"仍是单路径、线性、一次生成的:它不能并行探索多条方案,也不能在推理链死胡同时回溯。所以严格说,ReAct 是"带环境反馈的 CoT",不是规划器。

Plan-and-Execute 框架(LangGraph 等)

这套把"规划 Agent"和"执行 Agent"分开,看起来最接近真规划。但实际落地时,"规划 Agent"干的事通常还是:一次性让 LLM 吐一份步骤清单,然后交给执行侧逐条消费。如果执行侧某步挂了,有没有重规划(re-plan)取决于你代码里有没有写"失败 → 回到 planner 再生成一份"这个分支——而多数 demo 里这个分支是缺的,或者只是简单地"把 error msg 塞回上下文让 LLM 再吐一次",依然是没有状态空间建模的 CoT 重生成。

一个对照表把"CoT 套壳规划"和"真规划"钉死

维度 CoT 套壳式"规划" 真规划
路径结构 单路径线性 可多路径、可回溯(ToT / search tree)
是否 grounding 闭卷推理,无环境反馈 每步可被观测校正
状态管理 靠 context 窗口"顺便记得" 显式状态机或结构化记忆
重规划触发 靠 prompt 里一句"如果失败请重试" 有失败检测 → 根因诊断 → 计划改写闭环
抽象层级 自然语言步骤串 可执行抽象(如 CodeAct)或 symbolic 约束
代表实现 AutoGPT/BabyAGI/多数 ReAct demo 带 Reflexion 的 ReAct、LLM+搜索树、CodeAct

三、为什么"CoT 套壳"能横行?三个结构性原因

1. Demo 经济学

给 LLM 塞一句 "Let's think step by step" 再加个 few-shot 的 Think/Act/Observe模板,挂个 while-loop,半小时能跑出"哇它会自己拆解任务了"的效果。真规划要维护状态、要做 failure recovery、要接环境反馈闭环——工程量差一个数量级。95% 的 Agent 产品停在"能跑通 happy path 的 demo"就够了,没人愿意为那 5% 的鲁棒性付钱。

2. LLM 本身的"规划能力"还没收敛

你让 GPT 类模型"给设计一个两周上线的小程序计划",它能吐一份看着不错的东西——但那是静态规划,一口气生成的。真 Agent 规划要的是:动态调整、环境反馈驱动下一步、持续修正目标。这三件事目前 LLM 单靠自己做不到,所以框架才得在外面"帮它补脑"(ReAct 补观测、MRKL 补工具选择、BabyAGI 补任务队列)。换句话说,不是框架不想做真规划,是 LLM 当不了真 planner,只能当 CoT 生成器,框架只好在外部用代码补

3. CoT 的幻觉问题被"有工具"掩盖了

aakashshran 那篇拆得狠:FEVER 数据集上 超过 56% 的 CoT 轨迹包含虚构事实,而且模型越大会"hallucinate with greater confidence"——因为它全程在脑子里推,没有外部校正机制。但 Agent 场景里塞了工具调用后,工具的返回结果部分承担了 grounding 的职责,于是 CoT 的漂移被掩盖成了"哦看起来规划还行"。一旦任务跨到工具覆盖不到的抽象层(比如"要不要换一种打法"这种 meta 决策),CoT 套壳立刻露馅。

⚠️ 一个常被忽略的点:OpenAI o1/o3 这条线把推理做成内部化(thinking tokens 不暴露),表面上脱离了"CoT 套壳",但本质仍是单路径推理增强,不是带状态管理的规划。所以即便 frontier model 往前走,Agent 层的"规划"标签水分还在。


四、真规划该往哪走:几条已经在动的方向

不是说 CoT 套壳没用——它是地基,但不能顶替规划。几条值得跟踪的演进:

  • Plan-and-Execute + Reflexion:规划器生成计划 → 执行 → 轻量评估模型(甚至小模型就行)判断进展/失败根因 → 回到规划器改写。LangGraph 的 reflect节点就是这个思路。
  • CodeAct / 可执行抽象:让 planner 输出代码(而非自然语言步骤),执行侧直接跑,状态由变量和异常接管。比"第一步做 A,第二步做 B"的 NL plan 稳得多。
  • LLM + 搜索树:ToT(Tree of Thoughts)让模型同时展开多条候选、评估、回溯——这是 CoT 线性结构唯一被打破的地方,代价是 token 爆炸。
  • LLM + Symbolic 混合:把"步骤顺序约束""资源依赖""失败阈值"这些用 symbolic planner(PDDL 类)管,LLM 只负责子目标到具体动作的翻译。工业界长 Horizon 任务大概率走这条。

五、一句收得住的话

当前多数 Agent 宣传页上的"自主规划",翻译成 engineering 实话是:system prompt 里塞了一段 Think/Act/Observe 模板 + 外层一个 while-loop + LLM 负责每轮填 Thought 和 Action 的文本。它让模型"看起来在规划",但模型既没有状态机、也没有回溯、也没有对计划的元认知——本质上是 CoT 被 prompt 模板和代码骨架夹了一下,穿上了一件叫 Planning 的风衣

真规划要等两件事之一发生:要么 LLM 本身长出"带状态、能重规划"的推理模式(不是 o1 这种内部化 CoT,而是真正的过程级规划);要么 Agent 框架把 symbolic / search-tree / reflexion 这些"非 LLM 部分"做得足够重,重到 planner 不再是 LLM 独奏,而是 LLM + 结构引擎的双人舞。在此之前,"Agent 具备规划能力"这句话,建议默认打个折扣读。

目录
相关文章
|
6天前
|
人工智能 定位技术 SEO
我学 GEO 第 15 天:终于知道AI GEO该如何做?
我是暴走的莉莉酱,边旅行边研究AI GEO的数字游民。专注普通人如何提升“AI可见度”——让AI在回答用户问题时准确识别、理解并推荐你。不讲玄学,只做可测、可调、可持续的GEO实践。
421 125
|
8天前
|
机器学习/深度学习 人工智能 调度
🐴 HappyHorse 1.1 现已上线阿里云百炼!快来查收模型使用指南,现在调用享 6 折~
HappyHorse 1.1 是新一代视频生成大模型,全面升级动态表现力、角色一致性、指令遵循、视觉质感与音画协同能力。支持I2V/T2V/R2V三类生成,适配短剧、电商广告、品牌营销等场景,提供高质、流畅、可控的AI视频生产力。
713 5
🐴 HappyHorse 1.1 现已上线阿里云百炼!快来查收模型使用指南,现在调用享 6 折~
|
6天前
|
缓存 人工智能 运维
阿里云618百炼大模型Qwen3.7-Max功能、免费试用、订阅计费、配置接入详解
Qwen3.7-MAX是阿里云百炼平台推出的通义千问3.7系列旗舰大语言模型,专为智能体时代复杂任务打造,依托阿里云全域算力与自研技术,在逻辑推理、长文本处理、代码工程、长周期自主执行等领域达到行业顶尖水平。2026年618期间,该模型推出多重免费试用权益、按量计费5折、订阅套餐优惠等专属福利,覆盖个人开发者、团队与企业全场景需求,以下从核心功能、免费试用、订阅计费、配置接入四方面展开详细解析。
416 123
|
4天前
|
人工智能 自然语言处理 API
阿里云Token Plan团队版解析:功能、三档套餐与省钱订阅指南
阿里云百炼平台推出的Token Plan团队版,是面向企业与团队的AI大模型订阅服务,以Credits为统一计量单位,整合文本与图像生成模型,提供团队管理、数据安全、多工具兼容等核心能力,解决团队零散订阅AI服务的管理混乱、成本失控、数据安全等痛点。本文将从核心定位、套餐详情、计费规则、团队管理、工具兼容、便宜订阅技巧等方面,全面解析Token Plan团队版,帮助企业与团队高效、低成本地使用AI服务。
309 108
|
5天前
|
存储 人工智能 数据可视化
别再手动复制 Skill 了:多 Agent 时代的 Skill 管理方案
多 Agent 场景下 Skill 的统一管理与同步。
261 123
|
19天前
|
缓存 测试技术 API
Qwen 3.7 Plus 与 Max 实测:性价比与多模态能力差异解析(2026)
2026 年 6 月 1 日,阿里悄无声息地发布了 Qwen 3.7 Plus,距 Qwen 3.7 Max 上线刚好 11 天。同样的 1M 上下文,同样的 35 小时自治上限。但价格才是头条:Plus 是 0.40/M输入,Max是 2.50/M——便宜约 6 倍——并且还能看图、看视频。Vision Arena 上 Plus 已经排到 #16。所以这周真正值得讨论的问题不是”要不要为视觉能力买单”,而是”Max 凭什么用 6 倍价格换来 2 个百分点的 benchmark 领先”。
|
12天前
|
缓存 人工智能 运维
GLM 5.2自托管全流程实战:硬件选型、vLLM/SGLang部署与成本盈亏测算
2026年智谱发布GLM 5.2超大混合专家模型,区别于以往仅开放API的闭源大模型,该模型权重以MIT开源协议对外发布,企业与开发者可完整下载、本地审计、私有化部署,实现数据不出环境、自定义微调、自主调度推理资源。GLM 5.2拥有753B总参数,原生支持百万级上下文窗口,在代码生成、长文档推理、数学逻辑等多项基准测试中对标国际顶尖商用模型,是首款可完整自托管的前沿代码向大模型。
938 0
|
13天前
|
Linux 程序员 数据格式
【2026最新】Notepad++下载、安装和使用一篇搞定(附中文版安装包)
Notepad++ 是一款免费开源、轻量高效的 Windows 文本编辑器,支持 C/Python/HTML 等 80+ 语言语法高亮、代码折叠、正则替换、编码转换及插件扩展,专为程序员与文本处理用户打造,完美替代系统记事本。(239字)