WebSailor:探索 WebAgent的超人类推理能力

简介: 通义实验室推出WebSailor方案,通过创新的post-training方法显著提升开源模型在复杂网页推理任务中的表现。该方案包括合成高不确定性数据、多轮工具调用轨迹重构及强化学习算法DUPO应用,在多个评测中展现优越性能。

0.png

0 (1).png 0 (2).png 0 (3).png 0 (4).png 0 (5).png 0 (6).png


📄 在互联网信息检索任务中,即使是很强的LLM,有时也会陷入“信息迷雾”之中,通义实验室最新提出的方案WebSailor通过一整套创新的post-training方法,大幅提升了开源模型在复杂网页推理任务上的表现。

💡 WebSailor 的技术方案涵盖从数据到训练的全流程创新:

1️⃣ 大规模合成具有高不确定性(uncertainty)的复杂任务数据(称为 SailorFog-QA);

2️⃣ 借助开源reasoning model获得多轮工具调用轨迹再重构推理过程,并基于Qwen-2.5-instruct(3B、7B、32B、72B)进行 RFT 冷启动训练;

3️⃣ 引入高效的强化学习算法 DUPO 进一步提升模型的决策能力。

📈 从实验结果来看:我们采用此方法训练的 WebSailor-72B 模型,其性能显著优于现有的开源 WebAgent,在 BrowseComp-en 上获得了 12 分,在 BrowseComp-zh 上获得了 30.1 分。我们在SimpleQA的子集上评估了泛化性能,WebSailor即使在简单任务上也展现出极强的兼容性和有效性。

论文

技术主页

相关文章
|
9月前
|
机器学习/深度学习 人工智能 算法
通义WebSailor开源,检索性能登顶开源榜单!
通义开源网络智能体WebSailor具备强大推理与检索能力,在复杂场景下表现优异,已登顶开源网络智能体榜单。其创新训练方法大幅提升了模型性能,适用于多领域复杂任务。
880 0
通义WebSailor开源,检索性能登顶开源榜单!
|
6月前
|
人工智能 运维 Cloud Native
2025 云栖精选资料:《从云原生到 AI 原生核心技术与最佳实践》PPT 免费下载
一本合集,四大主题,覆盖 AI 原生技术的核心版图。立即获取,与行业领跑者同行,抢占 AI 原生时代的技术先机!
|
10月前
|
机器学习/深度学习 数据采集 人工智能
WebDancer:从零训练一个 DeepResearch 类智能体
WebDancer 是一款具备 Agentic 能力的智能体,能在开放网页环境中自主提问、搜索、推理并验证答案。它通过多步推理、信息整合与交叉验证解决复杂问题,如医学文献分析或政策追踪。WebDancer 采用 CRAWLQA 和 E2HQA 数据合成策略生成高质量训练数据,并结合 SFT(监督微调)+ RL(强化学习)双阶段训练方法,提升模型在动态环境中的适应性和泛化能力。其核心技术包括 ReAct 行为框架和 DAPO 强化学习算法,确保路径优化与策略稳定性。未来,WebDancer 将接入 Browser 工具链,拓展至代码沙盒、长文本写作等应用场景,进一步向通用智能体演进。
1612 27
|
10月前
|
人工智能 IDE 定位技术
通义灵码 AI IDE 上线,第一时间测评体验
通义灵码 AI IDE 重磅上线,开启智能编程新纪元!无需插件,开箱即用,依托通义千问大模型,实现高效、智能的编程体验。支持 MCP 工具链,可快速调用多种服务(如12306余票查询、高德地图标注等),大幅提升开发效率。结合 Qwen3 强大的 Agent 能力,开发者可通过自然语言快速构建功能,如智能选票系统、地图可视化页面等。行间代码预测、AI 规则定制、记忆能力等功能,让 AI 更懂你的编码习惯。Lingma IDE 不仅是工具,更是开发者身边的智能助手,助力 AI 编程落地实践。立即下载体验,感受未来编程的魅力!
1097 16
|
9月前
|
人工智能
真·零门槛!原来手搓AI应用这么简单
这是一篇关于如何创作小红书爆款文案的专业指南,涵盖标题技巧、正文结构、情绪表达及关键词运用。内容包括高吸引力标题公式、正文六种开篇模板、关键词库和写作规则,帮助用户高效打造高转化文案。
639 1
|
9月前
|
人工智能 前端开发 机器人
10+热门 AI Agent 框架深度解析:谁更适合你的项目?
选型Agent框架不等于追热门!要选真正能跑得稳、适配团队能力与业务需求的框架。架构选错,轻则性能差,重则项目难推进。本文详解10大热门框架对比、5大新兴框架推荐及四步选型法,助你高效落地AI应用。
|
人工智能 Rust 开发者
【MCP教程系列】使用Python在阿里云百炼创建基于UVX的MCP服务完整指南
本文介绍如何使用基于uvx工具链的Python项目,结合阿里云百炼平台实现小红书文案审核助手的MCP服务开发与部署。首先通过安装uv工具初始化项目并配置虚拟环境,编写server.py文件调用qwen-plus模型完成内容审核功能。随后将项目打包上传至PyPI,供全球开发者访问。接着在阿里云百炼平台上配置并部署该MCP服务,解决可能的依赖问题。最后,在智能体应用中引入此MCP服务进行测试验证,确保其正常运行。
4167 0
|
7月前
|
机器学习/深度学习 数据采集 人工智能
Tongyi DeepResearch的技术报告探秘
引言阿里通义实验室悄悄(其实动静不小)发布了一个叫 Tongyi DeepResearch 的 Agent 项目。它没有开发布会,没请明星站台,甚至没发通稿——但它在 GitHub 上架当天,就登顶了“每日趋势榜”。这速度,比人类发现…
1050 2
Tongyi DeepResearch的技术报告探秘

热门文章

最新文章

下一篇
开通oss服务