小模型也能做 Agent?阿里最新的 AgenticQwen 论文讲了什么

简介: 这篇论文讨论了一个很实际的工程问题:在真实的工业场景中,Agent 往往不只是要会聊天,还要具备多步推理、调用工具的能力。但受限于工业生产环境对成本的控制和延迟的要求,不适合把所有任务都交由大模型来处理。

4月23日,阿里团队在 arXiv 上发布了关于 Agent 的论文:《AgenticQwen: Training Small Agentic Language Models with Dual Data Flywheels for Industrial-Scale Tool Use》

这篇论文讨论了一个很实际的工程问题:在真实的工业场景中,Agent 往往不只是要会聊天,还要具备多步推理、调用工具的能力。但受限于工业生产环境对成本的控制和延迟的要求,不适合把所有任务都交由大模型来处理。

因此,阿里团队提出了 AgenticQwen,一组小型智能体语言模型,主要包括 AgenticQwen-8BAgenticQwen-30B-A3B

AgenticQwen 主要基于合成数据,并结合少量开源数据,通过多轮强化学习 RL 训练而成。整个训练框架结合了推理强化学习 (Reasoning RL)智能体**强化学习 (Agentic RL) ,并引入“双数据飞轮 Dual Data FlyWheels**”这一数据生成和训练迭代机制,让训练任务随着模型能力的提升,不断加大难度。

从论文定位上来看,AgenticQwen 并不是要证明小模型可以替代大模型,而是尝试回答一个具体问题:对于高频、相对标准化、可验证的工具使用任务,能否通过专门的训练机制,让较小模型获得更好的 Agent 行为能力。此外,论文明确区分了复杂开放性任务和标准化工具任务:对于高度专业的任务,大模型仍然是必要的;但对于订票、搜索、数据分析等更常见的工具使用场景,小模型具有降低服务成本和延迟的优势。

内容目录

本文主要介绍四个部分:

  • AgenticQwen 的核心问题:为什么工业 Agent 系统会需要小模型,以及这类场景和普通聊天有何区别。

  • 双数据飞轮:论文提出推理飞轮 reasoning data flywheel 和智能体飞轮 agentic data flywheel,用来持续生成更难的训练样本。

  • 实验结果:主要看 TAU-2、BFCL-V4 Multi-turn,以及工业 Agent 系统中的 WebWalker、XBench、GAIA 结果。

  • 局限性:长上下文能力、Qwen 模型依赖,以及更“偏向”Qwen 自己,不一定能直接推广到其他模型。

论文的核心贡献

这篇论文的核心贡献可以概括为三点:

  1. 提出 AgenticQwen 系列小型 Agent 模型。这些模型使用合成数据和少量开源数据,通过多轮强化学习训练,目标是提升小模型在多步推理和工具调用任务中的表现。

  2. 论文提出了 Dual Data Flywheels,也就是「双数据飞轮」。推理飞轮负责从模型失败的样本中构造更难的、可被验证的推理问题;智能体飞轮负责把原本线性的工具调用流程,扩展成多分支行为树,让模型在训练中接触更多条件分支、环境变化和用户干扰,以便模拟真实的工业应用场景。

  3. 实验数据验证,论文在公开 benchmark 测试和工业 Agent 系统中评估模型效果。结果显示,AgenticQwen-8B 和 AgenticQwen-30B-A3B 相比基础 Qwen 模型的对应版本,性能有明显提升,并在部分任务上缩小了与 Qwen3-235B-A22B-Instruct 的差距。

聊天模型和 Agent 模型的不同

和普通语言模型只要学习如何根据输入生成文本不同,Agent 模型还需要在特定环境中行动。比如,用户让模型订票、查询订单、生成分析报告,它就需要判断是否要调用工具、调用哪个工具,如何处理工具返回结果,以及是否需要继续追问用户获取更多信息。

论文认为,工业 Agent 系统中有不少任务其实是有固定流程的。它们未必需要大模型的全部能力,但很需要模型稳定地完成多步工具调用。AgenticQwen 的目标,就是针对这类高频、流程相对明确的任务,训练小模型稳定调用工具和执行任务的能力,而不是追求在所有开放式任务上超过大模型。

这一区别很重要。AgenticQwen 关注的不是“聊天能力”,而是在工具环境中模型表现出来的决策能力:模型是否能根据当前状态选择下一步动作,是否能在用户信息不完整或有误导时,依旧保证流程的正确。

双数据飞轮:让训练样本逐轮变难

论文认为,单纯地增加合成数据的数量并不一定能持续提升模型能力。一个原因是合成数据可能逐渐同质化,导致强化学习信号变弱。为了解决这个问题,论文提出了双数据飞轮,让训练数据随着模型表现动态更新。

第一个飞轮是 Reasoning Data Flywheel。完成一轮推理强化学习后,系统会收集模型没有解出的题目,再基于这些失败样本生成更难的变体。论文中这一扩展主要用于数学任务,因为数学问题通常有唯一且容易验证的答案。新训练数据的生成方式,主要是先通过 self-instruct expansion 和 persona injection 生成更难、更丰富的题目,再通过一致性过滤控制数据质量。论文中,Qwen3-235B 会对候选题目求解三次,只有三次最终答案一致的样本才会保留。

第二个飞轮是 Agentic Data Flywheel。这部分是针对工具使用的任务。初始任务通常是线性流程,比如:“查询航班 → 预订 → 确认”。但在真实场景中,工具返回的不同结果会引出不同的分支:航班是否售罄、是否会延误,用户是否为金卡会员、是否满足平台补偿规则等等。论文通过行为树扩展,把单一路径变成多分支 workflow,并通过 branch-to-task inversion 反向生成能触发这些分支的新任务。

值得一提的是,论文还加入了对抗式模拟用户。例如,用户声称自己应该获得现金补偿,但实际情况是他只是普通会员,不符合获得现金补偿的条件。这时候,模型就需要调用工具核验他的会员状态,再根据平台补偿规则,选择正确的分支流程,而不是直接顺从用户请求。

训练环境:模拟用户、工具和奖励

AgenticQwen 的 Agentic RL 可以理解为是一个模拟任务环境。模型与模拟用户交互,调用模拟工具,并根据任务规则完成目标。论文中,用户和工具都由 Qwen3-235B 在 mock environment 中模拟;奖励由基于任务的 rubric 给出。任务会被拆成可验证的子目标,最终奖励根据完成子目标的比例落在 [0, 1] 范围内来确定。

这一设计的目标是把 Agent 任务从“输出正确格式”转向“完成可验证的子目标”。比如,在订票流程中,奖励可以检查模型是否正确地调用了更新订单状态的工具。这比单纯判断最终回答是否自然,更适合训练模型的工具调用和多步任务执行能力。

实验结果:公开工具环境 benchmark

论文在 TAU-2 和 BFCL-V4 Multi-turn 上评估模型。TAU-2 覆盖航空 Airline、电信 Telecom、零售 Retail 这三类场景,来评估模型在真实世界中的可靠性;BFCL-V4 Multi-turn 用来评估模型多轮调用工具的能力。

其中,TAU-2 包含约 300 个多轮任务,BFCL-V4 Multi-turn 包含约 800 个任务。

论文 Table 1 显示了各模型的平均分,具体如下:Qwen3-8B 为 23.8,AgenticQwen-8B 为 47.4;Qwen3-30B-A3B-Instruct 为 36.2,AgenticQwen-30B-A3B 为 50.2;Qwen3-235B-A22B-Instruct 为 52.0

这组结果可以说明两点。

  1. AgenticQwen-8B 相比基础 Qwen3-8B 有明显提升:47.4 vs 23.8。

  2. AgenticQwen-30B-A3B 在这组 benchmark 上接近 Qwen3-235B-A22B-Instruct(50.2 vs 52.0),但不能据此推断它在所有任务中的能力都接近 235B 模型。

论文还说明,AgenticQwen-30B-A3B 是 MoE 模型,每次推理激活约 3B 参数;AgenticQwen-8B 是 Dense 模型,推理时会激活更多参数。

多轮数据飞轮是否有效

论文 Figure 2 展示了模型从 Round 0 到 Round 3 的训练变化。

数据表明 Qwen3-30B-A3B 和 Qwen3-8B 在 TAU-2 和 BFCL-V4 Multi-turn 的多个子任务上,表现能力有所提升。论文指出,三轮飞轮之后,模型的表现已经接近用于生成合成数据的强模型,因此没有继续扩展更多轮。

这部分结果说明,数据飞轮不只是训练前的数据构造方法,而是参与了多轮强化学习过程。每一轮模型暴露出的新问题,会继续推动下一轮数据扩展。

在工业 Agent 系统中的评估

论文还在一个工业 Agent 系统中,对 AgenticQwen 的表现进行了评估。该系统部署在云产品场景中,可以在沙箱环境中调用工具,完成生成折线图、总结一周工作文档等任务。

论文提到,AgenticQwen 已经接入该系统进行内部试点;当系统预测某个任务会落在模型能力范围内时,部分请求会自动路由给 AgenticQwen。

论文 Figure 3 给了一个企业数据分析案例:用户要求分析 Q3 数据,Agent 需要通过 SQL 查询销售数据、解析用户的 JSON 日志,并对 PDF 格式的市场趋势报告做 RAG,最后生成 BI 简报。论文认为这个例子主要考察了模型的 schema 发现、跨数据源推理和动态工具编排能力。

搜索和数据分析的 benchmark

在工业系统的能力评估中,论文还报告了模型在 WebWalker、XBench 和 GAIA 这三个搜索 benchmark 中的结果。

上表显示,AgenticQwen-30B-A3B 分别为 52.5 / 47.0 / 41.7,Qwen3-30B-A3B-Instruct 分别为 45.0 / 30.0 / 37.3,Qwen3-235B-A22B-Instruct 分别为 59.5 / 48.0 / 48.5。其中,在 XBench 上,AgenticQwen-30B-A3B 从基础版 Qwen3-30B-A3B-Instruct30.0 提升到 47.0,论文标注为 +17.0

论文还显示了 GAIA 上,各模型的平均端到端推理时间:Qwen3-235B-A22B-Instruct 为 449.5 秒,Qwen3-30B-A3B-Instruct 为 355.6 秒,AgenticQwen-30B-A3B 为 344.1 秒。作者推测,AgenticQwen-30B-A3B 耗时更少,可能是因为它经过了 Agent 训练之后,任务规划更有效,减少了一些不必要的工具调用或者交互步骤。这只是作者对结果作出的可能性解释,不是严格因果证明。

局限性

局限性:包括长上下文能力限制、对 Qwen 模型家族的依赖,以及模拟环境和真实系统之间的差距。

长上下文能力:AgenticQwen 主要关注推理和工具调用。对于高度开放、需要长上下文能力的 Agent 行为,小模型仍有困难。论文特别提到,deep-search 任务需要很长上下文,可能超过 8B 和 30B 模型的原生能力;在工业 benchmark 分析中,作者也指出 8B 和 30B 模型的 40K 长文上限可能会限制搜索任务的表现。

Qwen 模型依赖:训练过程比较依赖 Qwen 模型。Qwen 模型不只是被训练对象,还承担了数据生成器、模拟器和评估器的角色:生成新样本、模拟用户和工具环境,并根据任务规则给模型表现打分。论文认为这在成本效率上有优势,但也会造成结果更“偏向”Qwen 自己,不一定能直接推广、应用到其他模型。因此,作者提倡未来用其他模型来验证同一框架。

最后,模拟环境和真实线上环境仍有差距。行为树和对抗式用户可以增加训练复杂度,但真实业务还需要权限控制、规则校验、日志追踪、异常处理和人工介入。

小结

AgenticQwen 这篇论文的核心思路是:通过专门的数据生成和强化学习流程,提升小模型在工具使用和多步任务执行中的表现。

它的关键设计是双数据飞轮。Reasoning Data Flywheel 从模型失败样本中生成更难的可验证推理题;Agentic Data Flywheel 把线性工具流程扩展成多分支行为树,让模型在训练中接触条件分支、环境变化和用户干扰。

从实验结果看,AgenticQwen-8B 从基础 Qwen3-8B 的 23.8 提升到 47.4;AgenticQwen-30B-A3B 达到 50.2,接近 Qwen3-235B-A22B-Instruct 的 52.0。在工业搜索与数据分析 benchmark 上,AgenticQwen-30B-A3B 也比基础 Qwen3-30B-A3B-Instruct 有提升。

因此,这篇论文更适合被理解为一条小模型 Agent 训练路线,而不是“小模型全面替代大模型”的证据。它说明,在任务可模拟、流程可验证、反馈可自动计算的场景中,小模型可以通过更有针对性的训练缩小与更大模型在特定 Agent 任务上的差距。

相关文章
|
9天前
|
人工智能 开发工具 iOS开发
Claude Code 新手完全上手指南:安装、国产模型配置与常用命令全解
Claude Code 是一款运行在终端环境中的 AI 编程助手,能够直接在命令行中完成代码生成、项目分析、文件修改、命令执行、Git 管理等开发全流程工作。它最大的特点是**任务驱动、终端原生、轻量高效、多模型兼容**,无需图形界面、不依赖 IDE 插件,能够深度融入开发者日常工作流。
3100 7
|
11天前
|
Shell API 开发工具
Claude Code 快速上手指南(新手友好版)
AI编程工具卷疯啦!Claude Code凭借任务驱动+终端原生的特性,成了开发者的效率搭子。本文从安装、登录、切换国产模型到常用命令,手把手带新手快速上手,全程避坑,30分钟独立用起来。
3179 20
|
5天前
|
人工智能 Linux BI
国内用 Claude Code 终于不用翻墙了:一行命令搞定,自动接 DeepSeek
JeecgBoot AI专题研究 一键脚本:Claude Code + JeecgBoot Skills + DeepSeek 全平台接入 一行命令装好 Claude Code + JeecgBoot Skills + DeepSeek 接入,无需翻墙使用 Claude Code,支持 Wind
2089 3
国内用 Claude Code 终于不用翻墙了:一行命令搞定,自动接 DeepSeek
|
24天前
|
人工智能 JSON 供应链
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
LucianaiB分享零成本畅用JVS Claw教程(学生认证享7个月使用权),并开源GeoMind项目——将JVS改造为科研与产业地理情报可视化AI助手,支持飞书文档解析、地理编码与腾讯地图可视化,助力产业关系图谱构建。
23588 15
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
|
1天前
|
人工智能 自然语言处理 文字识别
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
Qwen3.7-Max是阿里云百炼面向智能体时代推出的新一代旗舰模型,对标GPT-5.5、Claude Opus 4.7等闭源旗舰。该模型支持百万级token上下文窗口,具备顶级推理能力、多模态搜索与视觉理解增强、流式输出低延迟响应等核心优势,覆盖编程、办公、长周期自主执行等复杂场景。同时支持OpenAI接口兼容,便于系统快速迁移。用户可通过Token Plan团队版、Coding Plan或节省计划等订阅方式灵活调用,适合企业级高要求场景使用。
|
11天前
|
人工智能 JSON BI
DeepSeek V4-Pro 接入 Claude Code 完全实战:体验、测试与关键避坑指南
Claude Code 作为当前主流的 AI 编程辅助工具,凭借强大的代码理解、工程执行与自动化能力深受开发者喜爱,但原生模型的使用成本相对较高。为了在保持能力的同时进一步降低开销,不少开发者开始寻找兼容度高、价格更友好的替代模型。DeepSeek V4 系列的发布带来了新的选择,该系列包含 V4-Pro 与 V4-Flash 两款模型,并提供了与 Anthropic 完全兼容的 API 接口,理论上只需简单修改配置,即可让 Claude Code 无缝切换为 DeepSeek 引擎。
2591 3
|
3天前
|
人工智能 自然语言处理 安全
Claude Code 全攻略:命令大全+三种模式+记忆体系+实战工作流完整手册
Claude Code 是当前最流行的终端级 AI 编程助手,能够直接在命令行中完成代码生成、项目理解、文件修改、命令执行、错误修复等全流程开发工作。它不依赖图形界面、不占用额外资源,却能深度理解项目结构,自动生成规范代码,大幅提升研发效率。
739 2
|
10天前
|
人工智能 安全 开发工具
Claude Code 官方工作原理与使用指南
Claude Code 不是传统代码补全工具,而是 Anthropic 推出的终端 AI 代理,具备代理循环、双驱动架构(模型+工具)、全局项目感知、6 种权限模式等核心能力,本文基于官方文档系统解析其工作原理与高效使用技巧。
1424 0