上下文爆炸？揭秘智能压缩术：引用机制让多智能体飞起来-阿里云开发者社区

上下文爆炸？揭秘智能压缩术：引用机制让多智能体飞起来

2025-09-15 792

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文探讨多智能体协作调度中的层级指挥模式及其在实际应用中的性能与体验优化。针对 React 模式在工具调用、上下文管理、任务总结与过程监督等方面的痛点，提出流式 XML 工具调用、上下文压缩、通用推理兜底、任务总结增强与 MCP 监督机制等改进方案，有效提升任务执行效率与系统稳定性，为多智能体系统优化提供实践参考。

本文较长，建议点赞收藏，以免遗失。

在多智能体协作调度场景中，尽管存在诸如层级指挥、嵌套模式、转交模式和群聊模式等多种实现方式，但层级指挥模式仍是生产环境中最常用的方式。该模式通常由主代理生成任务拆分，调度工具或子智能体分别执行，类似 Cursor、Aone Copilot、Manus 等产品的工作机制。

此前我们也参考此类产品，设计了基于 React 模式的智能体自主规划架构，集成 MCP 和子智能体以处理复杂任务。实际应用中发现，虽然任务完成质量有所提升，尤其是在复杂问题拆解和多轮检索方面表现优于传统一次性检索，但也暴露出若干性能与体验问题。

ps：如果你对React模式的工作原理不理解，为了方便你更好的理解我接下来说的内容，这里建议粉丝朋友先去看看我之前的整理的技术文档：《Python 和 LLM 从头构建 ReAct 代理全流程》

4d9ad7c094583937c503095b6d8c127e__preview_type=16&r=0.4785364585699037.gif

一、核心挑战

大模型 Tool Calls 响应过程较长
上下文通信缺乏动态压缩与可追溯策略
主代理在任务执行中产出的中间态过于简略
循环结束时机判断不够智能
对规划结果的监督机制不到位

二、优化方案与效果

1. 更高效的工具调用：用流式 XML 替代 Function Call

传统 Function Call 虽然能够返回稳定可解析的工具及参数，并通过多轮 message 组装支持上下文推理，但在生产环境中存在明显短板：

Tool Calls 流式效果差，多次循环后用户等待时间过长
并非所有模型都支持 Tool Calls

我们采用 XML 标签方式返回工具名和参数，同时将思考过程与工具推理步骤合并，通过流式输出提升用户体验。

提示词示例：

Respond to the human as helpfully and accurately as possible.

1. 你是一个 agent，请合理调用工具直至完美完成用户的任务，停止调用工具后，系统会自动交还控制权给用户。请只有在确定问题已解决后才终止调用工具。 
2. 请善加利用你的工具收集相关信息，绝对不要猜测或编造答案。  
3. 部分工具会产生文档，上下文中只会保留文档的标题，当有其他工具需要该文档内容时，你只需要正确返回完整文档标题到工具入参中即可，如xxx.md。 
4. **切记** 最终的回答必须是一份完整详尽的答案，而不是对执行任务的总结。
5. 一开始首先对任务进行合理拆分，给出思考和规划过程，严格按照思考规划过程按步骤执行，执行过程中可根据工具返回结果合理调整规划步骤

你有如下可用工具列表:
%s //这里是直接把functionCall的Tools列表转string做替换即可

返回本次需要调用的工具理由及工具名和工具入参，每次只提供一个操作,**工具名及工具入参必须遵循以下格式**
<tool_name>工具名</tool_name>
<arguments> 完整的json格式 </arguments>
**切记 工具参数必须是标准的json格式**

遵循以下格式:

Thought: [深入分析当前任务和可用资源，考虑前后步骤，输出本次调用的依据]
Action:  <tool_name>工具名</tool_name> <arguments> 完整的json格式 </arguments>
Observation: 工具执行之后会返回的结果
**切记 工具参数必须是标准的json格式**
...(重复 Thought/Action/Observation N 次)

当任务执行完成时，或必须需要用户介入时，严格按照以下格式返回：
<final_answer> 最终给用户呈现的任务结果总结 </final_answer>

<instruction>
%s //这里是用户自定义的提示词作替换，因为我们做的是平台，因此支持用户自定义提示词
 </instruction>

效果对比：

使用 XML 方式做思考规划及工具调用：

使用 FunctionCall 做思考规划及工具调用：

改进前后效果对比：

2. 上下文压缩与合理引用

长上下文会导致推理耗时增加、难以共享原文给子智能体、模型调用成本增加等问题。

解决方案包括：

定义特殊文本生成工具，将生成内容存储为文件，仅保留引用信息
对网络检索等工具产出的大量数据，训练文本改写小模型，降低上下文长度

改造前上下文流转：

改造后上下文流转：

效果演示：

3. 增强规划过程：万能 Agent 兜底机制

主代理在循环过程中主要职责是产出下一步调用工具及参数，但当没有合适工具执行规划步骤时，系统会出现严重问题。

解决方案是引入通用推理工具，当没有专用工具可用时，自动调用该工具生成推理内容，为后续步骤提供足够背景知识。

工具描述示例：

效果演示：

4. 优化任务总结机制

传统做法通过判断工具列表是否为空或设置调用次数上限来结束任务，但最终输出往往过于简略，无法满足用户需求。

解决方案是引入总结输出工具，当判断输出的工具为内置的结束总结工具时，额外调用一次原生大模型，生成专业的任务汇总报告。

工具描述和入参描述：

效果对比

不使用总结工具的输出：

使用推理总结工具后：

5. 过程监督与轨迹保持

缺乏监督机制会导致系统偏离初始规划，陷入局部最优或死循环。

解决方案是引入规划 MCP 服务，提供即插即用的监督工具，引导模型在每次调用后更新任务执行情况和待办事项，确保按照初始规划轨迹执行。

规划 MCP 服务：

效果演示：

三、笔者总结

本文针对 React 模型助理在生产环境中遇到的性能与体验问题，提出了系统化的改进方案。这些方案不仅适用于自主规划模式，也可为其他多智能体协作模式提供借鉴。

实践表明，许多优化工作实际上是针对模型本身能力不足进行的工程补偿。在资源允许的情况下，直接采用更先进的模型（如 Claud）可能节省大量优化成本。多智能体协同构建是一个持续优化的过程，很多时候需要平衡工程优化与模型能力之间的关系，在适当的时候借助更强大的基础模型能力提升系统整体表现。好了，今天的分享就到这里，点个小红心，我们下期见。

上下文爆炸？揭秘智能压缩术：引用机制让多智能体飞起来

一、核心挑战