AgentEvolver：让智能体系统学会「自我进化」-阿里云开发者社区

AI加速发展的当下，智能体已成为强大的执行者，能够与环境交互、调用工具。但它们距离成为真正的学习者——能够持续成长与自我迭代的智能体——仍有一步之遥。

AgentEvolver 正是为迈出这关键一步而设计的自进化系统。它将「自我任务生成、自我经验导航、自我反思归因」三大支柱融于一身，系统性地解决了Agent RL训练中的任务稀缺、探索低效和学习信号模糊等关键难题。引导智能体从“被动接受训练”的模式，转向“主动寻求进化”的新旅程。

💻 GitHub 仓库:

https://github.com/modelscope/AgentEvolver

📃 技术报告:

https://arxiv.org/abs/2511.10395

「AgentEvolver 使用更少的参数，但是取得了更优异的性能。」

🌱 为何需要“自我进化”？

尽管智能体技术发展迅速，大多数系统仍停留在“按照指令完成任务”的层面——缺乏持续学习、适应变化的能力。这背后通常存在三大瓶颈：

任务构建成本高：
新的环境往往需要重新定义任务与目标，人工成本高、覆盖面有限。
探索效率低：
强化学习依赖大量交互采样，训练成本与时间消耗巨大。
样本利用不充分：
奖励稀疏且模糊，模型难以判断哪些中间步骤真正起作用。

AgentEvolver 的出现，将这些难题转化为新的突破点。它通过系统内部的多模块协同——让智能体学会提问、整理经验、分析因果——实现持续的自我演化，而无需依赖人工持续介入。

🧠 三大机制：驱动系统自进化的核心引擎

AgentEvolver 的核心，是一个由三大机制驱动的动态学习闭环。它让智能体不再是被动执行任务的“工具”，而是一个能不断学习、总结、改进的动态系统。它的核心在于三大机制的协同作用，驱动智能体在复杂环境中持续优化和演化：

自我任务生成（Self-Questioning）：自主生成探索任务，摆脱对人工数据集的依赖。
自我经验导航（Self-Navigating）：高效复用历史经验，提升探索效率。
自我反思归因（Self-Attributing）：精细评估步骤级奖励，提升样本利用率。

💭 机制①：自我任务生成（Self-Questioning）

在多数传统方法中，训练任务都由人来定义——写规则、设场景、造目标。但这样的训练集总是有限，如同为系统预设了一张固定的地图，边界清晰但想象力有限。一旦走出地图，系统便会迷失方向。

AgentEvolver 的自我任务生成机制，让系统学会主动“提出问题”。它结合长期目标与当前环境，自主生成新的探索任务，去主动探测未知的功能边界。换句话说，智能体系统不再等待投喂，而是学会反躬自问：“我还有什么不知道？”，并以此获得源源不断的内生探索动力。

「“自我任务生成”流水线，包括环境探索、任务合成和任务筛选。」

其关键技术流程包括：

好奇心引导的环境探索：将环境配置作为先验知识提供给LLM，引导模型在环境中进行自由探索，从而生成多样化、高质量的交互轨迹。

适应性任务合成：LLM 分析探索轨迹，结合用户偏好逆向生成任务查询，并从轨迹中抽取出对应的操作序列作为参考解。

任务筛选与验证：通过语义去重过滤冗余任务，并在真实环境中回放参考解，以验证任务的可行性并剔除幻觉任务。

基于参考的合成奖励：引入 LLM 裁判，通过对比智能体轨迹与参考解，评估关键步骤的覆盖度与执行效率，生成稠密、可靠的奖励信号用于策略优化。

机制②：自我经验导航（Self-Navigating）

在传统的学习范式中，智能体的每次探索往往是孤立的事件。经验无法有效沉淀，导致系统即便面对相似的情境，仍会重复已知的错误，探索效率低下。

AgentEvolver的自我经验导航机制，让系统学会主动“沉淀经验”。它将多轮交互中的成功与失败，提炼为结构化的“可迁移知识”，自主构建起关于策略有效性与环境反馈的内部认知地图。这些经验不再是散乱的数据点，而是成为指导未来决策的导航信标。于是，探索因此不再是随机的撞南墙，而是一种带着记忆和方向感的学习。

「“自我经验导航”流水线，包括经验获取、经验混合探索和经验内化。」

其关键技术流程包括：

经验获取：将历史成败轨迹提炼为结构化的自然语言经验，并将其向量化，构建一个可供随时检索的经验池。

经验混合探索：采用混合策略进行探索，部分轨迹由检索到的相关经验引导，部分进行纯粹探索，以平衡探索与利用。

经验内化：

经验剥离：将指导探索的经验文本从训练样本中移除，迫使模型学习其背后的推理逻辑，而非简单记忆文本。
选择性增强：针对那些由成功经验引导并产生正向收益的轨迹，在计算梯度时给予其更高的权重。

⚖ 机制③：自我反思归因（Self-Attributing）

在长程任务中，由于奖励信号的滞后与模糊，传统的信用分配机制难以定位关键动作，导致策略优化效率低下。

AgentEvolver的自我反思归因机制，让系统学会主动进行“决策归因”。它通过回溯任务轨迹，进行复盘分析，将笼统的最终奖励，精细化地分配到真正起作用的关键动作上。这意味着，智能体系统从被动的“黑箱”执行者，转变为能够自我剖析的分析单元。它不再依赖模糊的最终信号，而是通过识别并强化“关键动作”，在对关键行为的微观洞察中高效迭代策略，显著提升长程任务的样本效率。

其关键技术流程包括：

步级贡献归因：任务完成后，系统调用一个“复盘专家”的 LLM，对整个执行轨迹进行回溯分析，为每一步行为的贡献打上“好”(GOOD) 或“坏”(BAD) 的定性标签。目的是评估过程的合理性。

构建双通道复合奖励：为了全面评估，系统将上述“归因”与“结果”结合，构建一个复合奖励

归因奖励 (过程分)：将上一步的“好”/“坏”标签量化为 +1 / -1。
结果奖励 (结果分)：保留任务的最终得分。
这两部分奖励会先独立进行标准化，然后再加权融合，形成一个既看重过程又看重结果的综合性奖励信号。

优势计算与策略优化：

将上述综合奖励转化为每一步的优势函数（Advantage），并将该优势值广播至此步骤对应的所有token上，最终通过 GRPO 算法高效地进行策略优化。

💫 三个机制形成了一个持续自我演化的闭环：环境 → 任务 → 经验 → 策略。AgentEvolver 不再依赖外部指令，而是凭借自身循环不断成长。

⚙️ 架构设计：面向扩展与适配性的模块化系统

强大的进化机制，需要同样强大且灵活的系统架构作为支撑。为此，AgentEvolver 采用模块化、易扩展的系统结构，不仅确保了核心机制可独立演进，更能无缝适配多样的工具、环境与任务需求。

其核心由两大支柱构成：Env Service 与 Context Manager。一个面向外部世界，一个服务内部推理逻辑。它们相互协同，确保系统在多任务、多环境中保持稳定与连贯，为自我任务生成、自我经验导航、自我反思归因等机制提供统一的运行基础。

🌍 Env Service：连接外部世界的桥梁

Env Service 负责管理智能体与外部环境的交互。它提供标准化接口以支持多种任务沙箱、工具 API 与仿真环境（如 AppWorld、BFCL等）。这一模块不仅执行环境调用与状态同步，还负责反馈执行结果，让系统具备跨环境运行与迁移的能力。

🧠 Context Manager：组织推理与交互逻辑的中枢

Context Manager 定义了智能体“如何思考、如何行动”。它负责管理多轮交互的上下文信息与推理模版，AgentEvolver 内嵌了多种上下文管理模版，这使得它无论面对简单任务、复杂任务、还是长序列任务，Context Manager 都能保持智能体的逻辑连贯与策略自洽。

💫 这两个模块相互独立、又彼此协作—— Env Service 让系统走进环境，Context Manager 让系统理解环境。

它们共同支撑起三大自进化机制（任务生成、经验导航、反思归因），让 AgentEvolver 成为一个能适应不同工具、环境与推理场景的通用进化系统。同时，该体系也降低了研究者的实验门槛，使其能够将更多精力专注于算法本身的设计与验证。

📈 实验表现

在 AppWorld 与 BFCL-v3 两大公开基准测试中，AgentEvolver 的有效性得到了充分验证。

更高的参数效率：搭载 AgentEvolver 完整架构的 7B 模型，平均任务成功率达到 45.2%，显著超越了参数量为其两倍的 14B 基线模型（29.8%）。

显著的性能提升：在同尺寸的 14B 模型上，AgentEvolver 将基线模型的成功率从 29.8% 大幅提升至 57.6%。

机制的协同效应：消融实验证实，自我任务生成、经验导航与反思归因三大机制均对性能有明确的正向贡献，验证了系统设计的完整性。

🚀 快速上手

只需几行命令，就能启动一个具备完整自进化循环的智能体系统。

AgentEvolver 会自动进行任务生成、策略优化与反思分析，让学习过程持续向前推进。

# 1. 克隆并安装
git clone https://github.com/modelscope/AgentEvolver.git
cd AgentEvolver && bash install.sh
cd env_service/environments/appworld && bash setup.sh
# 2. 启动！(以 AppWorld 为例)
conda activate agentevolver
python launcher.py --conf examples/overall.yaml --with-appworld --with-reme

💬 我们的愿景

从「被动执行」到「主动进化」。

我们相信，未来的智能体不应仅仅是指令的执行者，更应是能够自我驱动、探索未知、实现超越的学习者。AgentEvolver 正是朝着这个方向迈出的坚实一步，为构建能够「自我进化的通用人工智能」奠定基础。

在未来，我们将进一步推动智能体在多智能体场景中的协同进化，探索其在共享与交互环境中的自主共生策略；同时深入研究跨阶段的协作式自进化机制，将提问、导航、归因等能力耦合为持续循环，不断实现能力的相互增强与迭代突破。

📚 加入我们

我们开源了 AgentEvolver 的全部代码与技术细节，欢迎你加入这场探索，与我们共同见证 AI 如何学会自我提问、自我导航、自我成长。

💻 GitHub 仓库:

https://github.com/modelscope/AgentEvolver

📃 技术报告:

https://arxiv.org/abs/2511.10395

AgentEvolver：让智能体系统学会「自我进化」

🌱 为何需要“自我进化”？

🧠 三大机制：驱动系统自进化的核心引擎

💭 机制①：自我任务生成（Self-Questioning）

机制②：自我经验导航（Self-Navigating）

⚖ 机制③：自我反思归因（Self-Attributing）

⚙️ 架构设计：面向扩展与适配性的模块化系统

🌍 Env Service：连接外部世界的桥梁

🧠 Context Manager：组织推理与交互逻辑的中枢

📈 实验表现

🚀 快速上手

💬 我们的愿景

ModelScope模型即服务

热门文章

最新文章

相关电子书