传统的问答式 AI 模型往往只能处理简单、单跳的问题,比如“北京有多少人口?”这类任务只需一次检索就能完成。但现实中的复杂问题远不止如此,例如:“某药物对晚期肺癌患者是否有效?有哪些临床试验支持?”这类问题需要多步推理、信息整合与交叉验证。
WebDancer 能在开放网页环境中自主提问、搜索、推理并验证答案,不再依赖固定流程或 prompt 工程模拟行为,而是通过训练让 Agentic 能力内生于模型之中,这让它具备更强的自主性、适应性和泛化能力。
无论是查找医学文献、分析企业财报,还是追踪政策更新,WebDancer 都能自动提问、多跳搜索、交叉验证,并输出结构化结论。
目前大多数公开的问答数据集,如 2WIKI 和 hotpotQA,任务简单、缺乏训练价值,不能真实得体现更加复杂的用户意图。它们往往只能支持单跳或浅层推理任务,远远无法满足 Agentic 模型对多步决策、自主行为建模的需求。 高难度的 GAIA 和 WebWalkerQA,样本量小,大多只有测试集,缺乏可用于训练的轨迹数据。
为了解决这一难题,WebDancer 提出了两种高质量数据合成策略:CRAWLQA 和 E2HQA 。
- CRAWLQA:通过获取真实网页内容,模拟人类浏览行为,从权威网站中提取有价值的信息,自动生成复杂的问答对。它能保证数据的真实性与多样性。
- E2HQA:从简单问题出发,逐步注入逻辑跳跃,构建长链推理样本。它让问题能够“从弱到强”,通过这样的数据让模型逐步掌握复杂任务的处理能力。
这两种方法相辅相成,不仅解决了训练数据不足的问题,还提升了数据质量,为后续SFT(监督微调)+ RL(强化学习)训练打下了坚实基础。
互联网环境复杂多变:网页频繁更新、链接失效、广告干扰;完成一个任务往往需要多次跳转、交叉验证、路径可能多达十几步;工具调用反馈不确定,模型难以判断每一步是否正确。这些挑战让 Agentic 模型的训练变得异常困难 —— 它不仅要理解问题,还要能适应变化、修正路径、持续探索。
为了解决这些问题,WebDancer 采用了 SFT + RL 双阶段训练策略 ,并结合一系列关键技术:使用 ReAct 框架构建“思考(Thought)→ 行动(Action)→ 观察(Observation)”的行为模式,让模型具备自主决策能力;引入 DAPO 强化学习算法,通过动态采样提升策略鲁棒性与数据效率;同时配合高效的 rollout 和并行计算机制,显著降低训练成本。
WebDancer 背后的核心技术体系主要包括以下几点:
- CRAWLQA & E2HQA 数据合成策略:从真实网页中生成高质量、多步推理样本;
- ReAct 行为框架:构建“思考 → 行动 → 观察”的循环机制;
- SFT + RL 双阶段训练策略:先模仿人类行为,再通过试错优化路径;
- DAPO 强化学习算法:提升策略稳定性与数据效率;
- 多阶段数据过滤机制:确保训练轨迹干净、逻辑清晰、可复现。
ReAct 框架是 WebDancer 的行为基础。作为一种经典的 Agentic 架构,它让模型在每一步中交替进行思考(Thought)→ 行动(Action)→ 观察(Observation),形成一个自主推理与执行的闭环。
这种结构使 WebDancer 不再只是被动回答问题,而是主动决策:比如判断下一步该访问哪个网页、执行搜索或调用工具,并根据返回结果决定是否调整路径,实现真正的“边想边做”。
不是所有的 Agentic 智能体训练都遵循“数据越多越好”的原则。事实上,大量低质量、重复甚至逻辑混乱的数据不仅无法提升模型表现,反而可能干扰训练过程,导致推理路径不稳定,影响最终效果。
为此,我们提出了一种“漏斗式”数据过滤策略来进行数据筛选——增加data efficiency(数据效率),最终,我们仅使用从包含 17.7k 条数据的完整数据集(All)中过滤出来的 6.5k 条长思维链的数据(Final)在 QwQ 模型上就能在 GAIA 上获得很好的效果。
为了训练出具备 Agentic 能力的智能体,WebDancer采用了 SFT(监督微调)+ RL(强化学习) 的两阶段训练策略,可以让模型既能“学会行为模式”,又能“适应真实环境”。
- SFT(监督微调)—— 教模型“怎么做”
在这一阶段,WebDancer 利用高质量的 ReAct 数据(即“思考 → 行动 → 观察”的轨迹)进行训练,让模型快速掌握基本的行为模式。比如如何拆解问题、如何访问网页、如何验证结果等。这个阶段相当于给模型一个“操作手册”,帮助它完成冷启动。 - RL(强化学习)—— 让模型“做得更好”
在 SFT 基础上,WebDancer 进一步通过 RL(使用 DAPO 算法)不断试错优化,提升其在复杂任务中的泛化能力与稳定性。这个阶段让模型不再只是模仿人类行为,而是在真实环境中不断调整路径,找到最优解。
WebWalker 是通义实验室 RAG 团队早期探索“网页信息检索 + 智能推理”的代表性工作。它主要聚焦于通过网页浏览完成问答任务,已经在 WebWalkerQA 等数据集上取得了领先表现,并被 ACL 2025 接收。
而 WebDancer 可以看作是 WebWalker 的“进阶版”,它的目标更高:
- 直接从用户 query 出发去寻找信息源,而不是给定网页去寻找;
- 不再只是“找到答案”,而是自主提问、搜索、验证与修正;
- 更强调 agentic 能力的系统性训练,包括 ReAct 框架、SFT+RL 训练策略、高质量轨迹蒸馏等;
- 更注重模型在开放动态环境下的泛化能力,比如应对广告干扰、页面变动、路径回溯等问题。
构造复杂且合法的用户问题是训练 Agentic 模型的第一步,只有模拟真实研究过程的问题,才能激发模型的自主推理能力。
同时,高质量的思考轨迹至关重要,这类轨迹不仅包含多步推理路径,还融合了反思与验证机制,显著提升了模型在开放任务中的泛化能力。在训练 Instruction 模型时,强化学习(RL)能带来明显提升;由 Reasoning 模型生成的长链思维轨迹(long CoT),也为训练其他 agentic 模型提供了高质量的数据来源。
下一步我们将接入完整的 Browser 工具链,使模型具备像人类一样操作网页的能力,真正实现 DeepResearch 级别的网络交互。同时,通义实验室 RAG 团队正在研发适用于长轨迹行为链的新型强化学习算法,以提升 Agentic 模型在复杂任务中的训练效率与策略稳定性。我们还计划引入包括代码沙盒(Sandbox)、长文本写作工具和 HTML 生成能力在内的多种 MCP 服务,进一步拓展 WebDancer 的应用边界,向更通用的智能体演进。
如果你想深入了解 WebDancer 的训练方法与技术细节,欢迎访问 GitHub 或查阅相关论文。