WebDancer:从零训练一个 DeepResearch 类智能体

简介: WebDancer 是一款具备 Agentic 能力的智能体,能在开放网页环境中自主提问、搜索、推理并验证答案。它通过多步推理、信息整合与交叉验证解决复杂问题,如医学文献分析或政策追踪。WebDancer 采用 CRAWLQA 和 E2HQA 数据合成策略生成高质量训练数据,并结合 SFT(监督微调)+ RL(强化学习)双阶段训练方法,提升模型在动态环境中的适应性和泛化能力。其核心技术包括 ReAct 行为框架和 DAPO 强化学习算法,确保路径优化与策略稳定性。未来,WebDancer 将接入 Browser 工具链,拓展至代码沙盒、长文本写作等应用场景,进一步向通用智能体演进。

640 (72).png


传统的问答式 AI 模型往往只能处理简单、单跳的问题,比如“北京有多少人口?”这类任务只需一次检索就能完成。但现实中的复杂问题远不止如此,例如:“某药物对晚期肺癌患者是否有效?有哪些临床试验支持?”这类问题需要多步推理信息整合交叉验证

WebDancer 能在开放网页环境中自主提问搜索推理验证答案,不再依赖固定流程或 prompt 工程模拟行为,而是通过训练让 Agentic 能力内生于模型之中,这让它具备更强的自主性、适应性和泛化能力。


640 (73).png


无论是查找医学文献、分析企业财报,还是追踪政策更新,WebDancer 都能自动提问、多跳搜索、交叉验证,并输出结构化结论。


640 (74).png


目前大多数公开的问答数据集,如 2WIKI 和 hotpotQA,任务简单、缺乏训练价值,不能真实得体现更加复杂的用户意图。它们往往只能支持单跳或浅层推理任务,远远无法满足 Agentic 模型对多步决策、自主行为建模的需求。 高难度的 GAIA 和 WebWalkerQA,样本量小,大多只有测试集,缺乏可用于训练的轨迹数据。

为了解决这一难题,WebDancer 提出了两种高质量数据合成策略:CRAWLQA 和 E2HQA 。

  • CRAWLQA:通过获取真实网页内容,模拟人类浏览行为,从权威网站中提取有价值的信息,自动生成复杂的问答对。它能保证数据的真实性与多样性。
  • E2HQA:从简单问题出发,逐步注入逻辑跳跃,构建长链推理样本。它让问题能够“从弱到强”,通过这样的数据让模型逐步掌握复杂任务的处理能力。

640 (75).png

这两种方法相辅相成,不仅解决了训练数据不足的问题,还提升了数据质量,为后续SFT(监督微调)+ RL(强化学习)训练打下了坚实基础。


640 (76).png


互联网环境复杂多变:网页频繁更新、链接失效、广告干扰;完成一个任务往往需要多次跳转、交叉验证、路径可能多达十几步;工具调用反馈不确定,模型难以判断每一步是否正确。这些挑战让 Agentic 模型的训练变得异常困难 —— 它不仅要理解问题,还要能适应变化、修正路径、持续探索。

为了解决这些问题,WebDancer 采用了 SFT + RL 双阶段训练策略 ,并结合一系列关键技术:使用 ReAct 框架构建“思考(Thought)→ 行动(Action)→ 观察(Observation)”的行为模式,让模型具备自主决策能力;引入 DAPO 强化学习算法,通过动态采样提升策略鲁棒性数据效率;同时配合高效的 rollout 和并行计算机制,显著降低训练成本

640 (6).jpg


WebDancer 背后的核心技术体系主要包括以下几点:

  • CRAWLQA & E2HQA 数据合成策略:从真实网页中生成高质量、多步推理样本;
  • ReAct 行为框架:构建“思考 → 行动 → 观察”的循环机制;
  • SFT + RL 双阶段训练策略:先模仿人类行为,再通过试错优化路径;
  • DAPO 强化学习算法:提升策略稳定性与数据效率;
  • 多阶段数据过滤机制:确保训练轨迹干净、逻辑清晰、可复现。

ReAct 框架是 WebDancer 的行为基础。作为一种经典的 Agentic 架构,它让模型在每一步中交替进行思考(Thought)→ 行动(Action)→ 观察(Observation),形成一个自主推理与执行的闭环。

这种结构使 WebDancer 不再只是被动回答问题,而是主动决策:比如判断下一步该访问哪个网页、执行搜索或调用工具,并根据返回结果决定是否调整路径,实现真正的“边想边做”。


640 (7).jpg


不是所有的 Agentic 智能体训练都遵循“数据越多越好”的原则。事实上,大量低质量、重复甚至逻辑混乱的数据不仅无法提升模型表现,反而可能干扰训练过程,导致推理路径不稳定,影响最终效果。

为此,我们提出了一种“漏斗式”数据过滤策略来进行数据筛选——增加data efficiency(数据效率),最终,我们仅使用从包含 17.7k 条数据的完整数据集(All)中过滤出来的 6.5k 条长思维链的数据(Final)在 QwQ 模型上就能在 GAIA 上获得很好的效果。


640 (77).png

640 (78).png


为了训练出具备 Agentic 能力的智能体,WebDancer采用了 SFT(监督微调)+ RL(强化学习) 的两阶段训练策略,可以让模型既能“学会行为模式”,又能“适应真实环境”。

  • SFT(监督微调)—— 教模型“怎么做”
    在这一阶段,WebDancer 利用高质量的 ReAct 数据(即“思考 → 行动 → 观察”的轨迹)进行训练,让模型快速掌握基本的行为模式。比如如何拆解问题、如何访问网页、如何验证结果等。这个阶段相当于给模型一个“操作手册”,帮助它完成冷启动。
  • RL(强化学习)—— 让模型“做得更好”
    在 SFT 基础上,WebDancer 进一步通过 RL(使用 DAPO 算法)不断试错优化,提升其在复杂任务中的泛化能力与稳定性。这个阶段让模型不再只是模仿人类行为,而是在真实环境中不断调整路径,找到最优解。


640 (79).png


WebWalker 是通义实验室 RAG 团队早期探索“网页信息检索 + 智能推理”的代表性工作。它主要聚焦于通过网页浏览完成问答任务,已经在 WebWalkerQA 等数据集上取得了领先表现,并被 ACL 2025 接收。

而 WebDancer 可以看作是 WebWalker 的“进阶版”,它的目标更高:

  • 直接从用户 query 出发去寻找信息源,而不是给定网页去寻找;
  • 不再只是“找到答案”,而是自主提问、搜索、验证与修正;
  • 更强调 agentic 能力的系统性训练,包括 ReAct 框架、SFT+RL 训练策略、高质量轨迹蒸馏等;
  • 更注重模型在开放动态环境下的泛化能力,比如应对广告干扰、页面变动、路径回溯等问题。


640 (80).png


构造复杂且合法的用户问题是训练 Agentic 模型的第一步,只有模拟真实研究过程的问题,才能激发模型的自主推理能力。

同时,高质量的思考轨迹至关重要,这类轨迹不仅包含多步推理路径,还融合了反思与验证机制,显著提升了模型在开放任务中的泛化能力。在训练 Instruction 模型时,强化学习(RL)能带来明显提升;由 Reasoning 模型生成的长链思维轨迹(long CoT),也为训练其他 agentic 模型提供了高质量的数据来源。


640 (81).png


下一步我们将接入完整的 Browser 工具链,使模型具备像人类一样操作网页的能力,真正实现 DeepResearch 级别的网络交互。同时,通义实验室 RAG 团队正在研发适用于长轨迹行为链的新型强化学习算法,以提升 Agentic 模型在复杂任务中的训练效率与策略稳定性。我们还计划引入包括代码沙盒(Sandbox)长文本写作工具 HTML 生成能力在内的多种 MCP 服务,进一步拓展 WebDancer 的应用边界,向更通用的智能体演进。

如果你想深入了解 WebDancer 的训练方法与技术细节,欢迎访问 GitHub 或查阅相关论文。


GitHub

论文地址

相关文章
|
29天前
|
SQL 人工智能 Java
阿里云百炼开源面向 Java 开发者的 NL2SQL 智能体框架
Spring-ai-alibaba-nl2sql 是析言 GBI 产品在数据问答领域的一次重要开源尝试,专注于 NL2SQL 场景下的核心能力开放。
435 48
|
16天前
|
Prometheus 运维 监控
服务器监控实战:Prometheus+Grafana高效搭建指南
服务器监控实战:Prometheus+Grafana高效搭建指南
|
16天前
|
Prometheus 监控 Cloud Native
云原生监控实战:Prometheus+Grafana快速搭建指南
云原生监控实战:Prometheus+Grafana快速搭建指南
|
16天前
|
机器学习/深度学习 人工智能 自然语言处理
AI产品经理的技术必修课:从工具应用到系统设计
AI产品经理的技术必修课:从工具应用到系统设计
209 84
|
9天前
|
安全 PHP
PHP 8 新特性实战:提升开发效率的利器
PHP 8 新特性实战:提升开发效率的利器
145 87
|
6月前
|
人工智能 自然语言处理 测试技术
WebWalker:阿里巴巴推出评估LLMs在网页浏览任务中性能的基准工具
WebWalker是阿里巴巴开发的用于评估大型语言模型在网页浏览任务中性能的工具,支持多智能体框架和垂直探索策略,提供WebWalkerQA数据集进行性能测试。
235 1
WebWalker:阿里巴巴推出评估LLMs在网页浏览任务中性能的基准工具
|
21天前
|
JSON IDE 开发工具
鸿蒙开发:基于DevEco Studio插件实现组件化运行
切换模块之后,务必执行以下:Sync and Refresh Project,仅仅切换后执行一次即可,还有就是设置默认的启动页面,也就是每个模块第一次切换时设置一次即可,通常第一次配置之后,后续便不在配置。
72 23
鸿蒙开发:基于DevEco Studio插件实现组件化运行
|
6天前
|
机器学习/深度学习 人工智能 算法
通义WebSailor开源,检索性能登顶开源榜单!
通义开源网络智能体WebSailor具备强大推理与检索能力,在复杂场景下表现优异,已登顶开源网络智能体榜单。其创新训练方法大幅提升了模型性能,适用于多领域复杂任务。
158 0
通义WebSailor开源,检索性能登顶开源榜单!