AgentEvolver:让智能体系统学会「自我进化」

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
简介: AgentEvolver 是一个自进化智能体系统,通过自我任务生成、经验导航与反思归因三大机制,推动AI从“被动执行”迈向“主动学习”。它显著提升强化学习效率,在更少参数下实现更强性能,助力智能体持续自我迭代。开源地址:https://github.com/modelscope/AgentEvolver

AI加速发展的当下,智能体已成为强大的执行者,能够与环境交互、调用工具。但它们距离成为真正的学习者——能够持续成长与自我迭代的智能体——仍有一步之遥。


AgentEvolver 正是为迈出这关键一步而设计的自进化系统。它将「自我任务生成、自我经验导航、自我反思归因」三大支柱融于一身,系统性地解决了Agent RL训练中的任务稀缺、探索低效和学习信号模糊等关键难题。引导智能体从“被动接受训练”的模式,转向“主动寻求进化”的新旅程。


💻 GitHub 仓库:

https://github.com/modelscope/AgentEvolver


📃 技术报告:

https://arxiv.org/abs/2511.10395

「AgentEvolver 使用更少的参数,但是取得了更优异的性能。」

🌱 为何需要“自我进化”?

尽管智能体技术发展迅速,大多数系统仍停留在“按照指令完成任务”的层面——缺乏持续学习、适应变化的能力。这背后通常存在三大瓶颈:

  1. 任务构建成本高:
    新的环境往往需要重新定义任务与目标,人工成本高、覆盖面有限。
  2. 探索效率低:
    强化学习依赖大量交互采样,训练成本与时间消耗巨大。
  3. 样本利用不充分:
    奖励稀疏且模糊,模型难以判断哪些中间步骤真正起作用。


AgentEvolver 的出现,将这些难题转化为新的突破点。它通过系统内部的多模块协同——让智能体学会提问、整理经验、分析因果——实现持续的自我演化,而无需依赖人工持续介入。


🧠 三大机制:驱动系统自进化的核心引擎

AgentEvolver 的核心,是一个由三大机制驱动的动态学习闭环。它让智能体不再是被动执行任务的“工具”,而是一个能不断学习、总结、改进的动态系统。它的核心在于三大机制的协同作用,驱动智能体在复杂环境中持续优化和演化:

  1. 自我任务生成(Self-Questioning):自主生成探索任务,摆脱对人工数据集的依赖。
  2. 自我经验导航(Self-Navigating):高效复用历史经验,提升探索效率。
  3. 自我反思归因(Self-Attributing):精细评估步骤级奖励,提升样本利用率。

💭 机制①:自我任务生成(Self-Questioning)

在多数传统方法中,训练任务都由人来定义——写规则、设场景、造目标。但这样的训练集总是有限,如同为系统预设了一张固定的地图,边界清晰但想象力有限。一旦走出地图,系统便会迷失方向。


AgentEvolver 的自我任务生成机制,让系统学会主动“提出问题”。它结合长期目标与当前环境,自主生成新的探索任务,去主动探测未知的功能边界。换句话说,智能体系统不再等待投喂,而是学会反躬自问:“我还有什么不知道?”,并以此获得源源不断的内生探索动力。

「“自我任务生成”流水线,包括环境探索、任务合成和任务筛选。」

其关键技术流程包括:

  • 好奇心引导的环境探索:将环境配置作为先验知识提供给LLM,引导模型在环境中进行自由探索,从而生成多样化、高质量的交互轨迹。


  • 适应性任务合成:LLM 分析探索轨迹,结合用户偏好逆向生成任务查询,并从轨迹中抽取出对应的操作序列作为参考解。


  • 任务筛选与验证:通过语义去重过滤冗余任务,并在真实环境中回放参考解,以验证任务的可行性并剔除幻觉任务。


  • 基于参考的合成奖励:引入 LLM 裁判,通过对比智能体轨迹与参考解,评估关键步骤的覆盖度与执行效率,生成稠密、可靠的奖励信号用于策略优化。


机制②:自我经验导航(Self-Navigating)

在传统的学习范式中,智能体的每次探索往往是孤立的事件。经验无法有效沉淀,导致系统即便面对相似的情境,仍会重复已知的错误,探索效率低下。


AgentEvolver的自我经验导航机制,让系统学会主动“沉淀经验”。它将多轮交互中的成功与失败,提炼为结构化的“可迁移知识”,自主构建起关于策略有效性与环境反馈的内部认知地图。这些经验不再是散乱的数据点,而是成为指导未来决策的导航信标。于是,探索因此不再是随机的撞南墙,而是一种带着记忆和方向感的学习。

「“自我经验导航”流水线,包括经验获取、经验混合探索和经验内化。」


其关键技术流程包括:

  • 经验获取:将历史成败轨迹提炼为结构化的自然语言经验,并将其向量化,构建一个可供随时检索的经验池。


  • 经验混合探索:采用混合策略进行探索,部分轨迹由检索到的相关经验引导,部分进行纯粹探索,以平衡探索与利用。


  • 经验内化:
  • 经验剥离:将指导探索的经验文本从训练样本中移除,迫使模型学习其背后的推理逻辑,而非简单记忆文本。
  • 选择性增强:针对那些由成功经验引导并产生正向收益的轨迹,在计算梯度时给予其更高的权重。


⚖ 机制③:自我反思归因(Self-Attributing)

在长程任务中,由于奖励信号的滞后与模糊,传统的信用分配机制难以定位关键动作,导致策略优化效率低下。

AgentEvolver的自我反思归因机制,让系统学会主动进行“决策归因”。它通过回溯任务轨迹,进行复盘分析,将笼统的最终奖励,精细化地分配到真正起作用的关键动作上。这意味着,智能体系统从被动的“黑箱”执行者,转变为能够自我剖析的分析单元。它不再依赖模糊的最终信号,而是通过识别并强化“关键动作”,在对关键行为的微观洞察中高效迭代策略,显著提升长程任务的样本效率。


其关键技术流程包括:

  • 步级贡献归因:任务完成后,系统调用一个“复盘专家”的 LLM,对整个执行轨迹进行回溯分析,为每一步行为的贡献打上“好”(GOOD) 或“坏”(BAD) 的定性标签。目的是评估过程的合理性。


  • 构建双通道复合奖励:为了全面评估,系统将上述“归因”与“结果”结合,构建一个复合奖励
  • 归因奖励 (过程分):将上一步的“好”/“坏”标签量化为 +1 / -1。
  • 结果奖励 (结果分):保留任务的最终得分。
    这两部分奖励会先独立进行标准化,然后再加权融合,形成一个既看重过程又看重结果的综合性奖励信号。


  • 优势计算与策略优化:

    将上述综合奖励转化为每一步的优势函数(Advantage),并将该优势值广播至此步骤对应的所有token上,最终通过 GRPO 算法高效地进行策略优化。

💫 三个机制形成了一个持续自我演化的闭环:环境 → 任务 → 经验 → 策略 。AgentEvolver 不再依赖外部指令,而是凭借自身循环不断成长。


⚙️ 架构设计:面向扩展与适配性的模块化系统

强大的进化机制,需要同样强大且灵活的系统架构作为支撑。为此,AgentEvolver 采用模块化、易扩展的系统结构,不仅确保了核心机制可独立演进,更能无缝适配多样的工具、环境与任务需求。


其核心由两大支柱构成:Env ServiceContext Manager。一个面向外部世界,一个服务内部推理逻辑。它们相互协同,确保系统在多任务、多环境中保持稳定与连贯,为自我任务生成、自我经验导航、自我反思归因等机制提供统一的运行基础。

🌍 Env Service:连接外部世界的桥梁

Env Service 负责管理智能体与外部环境的交互。它提供标准化接口以支持多种任务沙箱、工具 API 与仿真环境(如 AppWorld、BFCL等)。这一模块不仅执行环境调用与状态同步,还负责反馈执行结果,让系统具备跨环境运行与迁移的能力。


🧠 Context Manager:组织推理与交互逻辑的中枢

Context Manager 定义了智能体“如何思考、如何行动”。它负责管理多轮交互的上下文信息与推理模版,AgentEvolver 内嵌了多种上下文管理模版,这使得它无论面对简单任务、复杂任务、还是长序列任务,Context Manager 都能保持智能体的逻辑连贯与策略自洽。


💫 这两个模块相互独立、又彼此协作—— Env Service 让系统走进环境,Context Manager 让系统理解环境。

它们共同支撑起三大自进化机制(任务生成、经验导航、反思归因),让 AgentEvolver 成为一个能适应不同工具、环境与推理场景的通用进化系统。同时,该体系也降低了研究者的实验门槛,使其能够将更多精力专注于算法本身的设计与验证。


📈 实验表现

在 AppWorld 与 BFCL-v3 两大公开基准测试中,AgentEvolver 的有效性得到了充分验证。

  • 更高的参数效率:搭载 AgentEvolver 完整架构的 7B 模型,平均任务成功率达到 45.2%,显著超越了参数量为其两倍的 14B 基线模型(29.8%)。


  • 显著的性能提升:在同尺寸的 14B 模型上,AgentEvolver 将基线模型的成功率从 29.8% 大幅提升至 57.6%。


  • 机制的协同效应:消融实验证实,自我任务生成、经验导航与反思归因三大机制均对性能有明确的正向贡献,验证了系统设计的完整性。

🚀 快速上手

只需几行命令,就能启动一个具备完整自进化循环的智能体系统。

AgentEvolver 会自动进行任务生成、策略优化与反思分析,让学习过程持续向前推进。

# 1. 克隆并安装
git clone https://github.com/modelscope/AgentEvolver.git
cd AgentEvolver && bash install.sh
cd env_service/environments/appworld && bash setup.sh
# 2. 启动!(以 AppWorld 为例)
conda activate agentevolver
python launcher.py --conf examples/overall.yaml --with-appworld --with-reme


💬 我们的愿景

从「被动执行」到「主动进化」。

我们相信,未来的智能体不应仅仅是指令的执行者,更应是能够自我驱动、探索未知、实现超越的学习者。AgentEvolver 正是朝着这个方向迈出的坚实一步,为构建能够「自我进化的通用人工智能」奠定基础。


在未来,我们将进一步推动智能体在多智能体场景中的协同进化,探索其在共享与交互环境中的自主共生策略;同时深入研究跨阶段的协作式自进化机制,将提问、导航、归因等能力耦合为持续循环,不断实现能力的相互增强与迭代突破。


📚 加入我们

我们开源了 AgentEvolver 的全部代码与技术细节,欢迎你加入这场探索,与我们共同见证 AI 如何学会自我提问、自我导航、自我成长。


💻 GitHub 仓库:

https://github.com/modelscope/AgentEvolver


📃 技术报告:

https://arxiv.org/abs/2511.10395

目录
相关文章
|
2天前
|
云安全 人工智能 安全
AI被攻击怎么办?
阿里云提供 AI 全栈安全能力,其中对网络攻击的主动识别、智能阻断与快速响应构成其核心防线,依托原生安全防护为客户筑牢免疫屏障。
|
12天前
|
域名解析 人工智能
【实操攻略】手把手教学,免费领取.CN域名
即日起至2025年12月31日,购买万小智AI建站或云·企业官网,每单可免费领1个.CN域名首年!跟我了解领取攻略吧~
|
6天前
|
安全 Java Android开发
深度解析 Android 崩溃捕获原理及从崩溃到归因的闭环实践
崩溃堆栈全是 a.b.c?Native 错误查不到行号?本文详解 Android 崩溃采集全链路原理,教你如何把“天书”变“说明书”。RUM SDK 已支持一键接入。
491 201
|
4天前
|
人工智能 移动开发 自然语言处理
2025最新HTML静态网页制作工具推荐:10款免费在线生成器小白也能5分钟上手
晓猛团队精选2025年10款真正免费、无需编程的在线HTML建站工具,涵盖AI生成、拖拽编辑、设计稿转代码等多种类型,均支持浏览器直接使用、快速出图与文件导出,特别适合零基础用户快速搭建个人网站、落地页或企业官网。
622 157
|
10天前
|
人工智能 自然语言处理 安全
国内主流Agent工具功能全维度对比:从技术内核到场景落地,一篇读懂所有选择
2024年全球AI Agent市场规模达52.9亿美元,预计2030年将增长至471亿美元,亚太地区增速领先。国内Agent工具呈现“百花齐放”格局,涵盖政务、金融、电商等多场景。本文深入解析实在智能实在Agent等主流产品,在技术架构、任务规划、多模态交互、工具集成等方面进行全维度对比,结合市场反馈与行业趋势,为企业及个人用户提供科学选型指南,助力高效落地AI智能体应用。
|
4天前
|
数据采集 消息中间件 人工智能
跨系统数据搬运的全方位解析,包括定义、痛点、技术、方法及智能体解决方案
跨系统数据搬运打通企业数据孤岛,实现CRM、ERP等系统高效互通。伴随数字化转型,全球市场规模超150亿美元,中国年增速达30%。本文详解其定义、痛点、技术原理、主流方法及智能体新范式,结合实在Agent等案例,揭示从数据割裂到智能流通的实践路径,助力企业降本增效,释放数据价值。
|
存储 人工智能 监控
从代码生成到自主决策:打造一个Coding驱动的“自我编程”Agent
本文介绍了一种基于LLM的“自我编程”Agent系统,通过代码驱动实现复杂逻辑。该Agent以Python为执行引擎,结合Py4j实现Java与Python交互,支持多工具调用、记忆分层与上下文工程,具备感知、认知、表达、自我评估等能力模块,目标是打造可进化的“1.5线”智能助手。
625 46

热门文章

最新文章