通义WebSailor开源,检索性能登顶开源榜单!

简介: 通义开源网络智能体WebSailor具备强大推理与检索能力,在复杂场景下表现优异,已登顶开源网络智能体榜单。其创新训练方法大幅提升了模型性能,适用于多领域复杂任务。

刚刚,通义正式开源网络智能体WebSailor,该智能体具备强大的推理和检索能力,发布后在智能体评测集BrowseComp上登顶开源网络智能体榜单。目前WebSailor的构建方案及部分数据集已在Github开源。

WebSailor网络智能体可以应用复杂场景下的检索任务,对于模糊问题可迅速在不同的网页中进行快速检索并推理验证,从而在海量信息中通过严密的多步推理和交叉验证中最终得出检索答案。

同时,针对该智能体的训练,通义实验室团队采用了整套创新的post-training方法,大幅提升了该开源模型在复杂网页推理任务上的表现,在高难度智能体评测集BrowseComp上,WebSailor的成绩超越了DeepSeek R1、Grok-3等模型和智能体,一举登顶开源网络智能体榜单。

  • 开源地址:

https://github.com/Alibaba-NLP/WebAgent

# 检索效果展示

中文任务检索:

image.png

英文任务检索:

image.png

# 模型构建方式

在面对高度不确定、线索模糊的复杂检索任务时,AI既需要主动在广阔的互联网中搜集信息,还需要从海量内容中过滤掉无关的噪声,再通过严密的多步推理和交叉验证,才能将所有线索串联起来。

为此,在构建数据集阶段,通义实验室大规模合成了具有高不确定性的复杂任务数据SailorFog-QA,并基于Qwen模型进行冷启动微调,让模型学到超越人类的复杂推理模式。

同时在该模型训练时,团队还提出了高效的强化学习算法 DUPO,基于双阶段动态采样策略,大幅提高了训练效率,确保即使在密集工具交互的情境中,也能快速迭代模型,DUPO 将复杂Agent的强化学习训练速度提升了约2–3倍。

# 检索性能测评

为了验证WebSailor的实验效果,通义实验室在多个benchmark评测集上进行实测。

BrowseComp是Open AI开源的浏览器检索效果评测集,旨在评测大模型和智能体的检索性能,发布数月以来,该评测集包含了1266个高难度问题,是目前难度最高的评测集之一,业界尚无开源系统取得接近闭源模型的成绩。

英文版和中文版BrowseComp评测集的实测结果显示,WebSailor跨越了开源和闭源系统之间的鸿沟,WebSailor-32B、WebSailor-72B不仅在开源模型和Agent阵营里实现了断层领先,甚至超越了DeepSeek R1、Grok-3等闭源模型,仅次于闭源的OpenAI DeepResearch。

尽管WebSailor仅基于高难度数据训练,但在聚焦普通任务SimpleQA的数据集上,WebSailor的表现也超越了其它方法,展现出极强的兼容性和有效性,验证了WebSailor方法的泛化能力。

# 未来展望

WebSailor提供了一个通用的workflow,可借鉴到其他领域的问题中。它强调的“高难度任务合成 + 小规模冷启动 + 高效RL优化”的组合拳策略,具有很强的普适性。

未来,开源社区可以参考WebSailor的思路,去攻克更多类似“超越人类能力”的任务——比如开放领域的复杂推理问答、学术知识发现,甚至跨模态的信息整合等。



来源  |  阿里云公众号

相关文章
|
5月前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
472 2
|
5月前
|
机器学习/深度学习 数据采集 人工智能
通义实验室Mobile-Agent-v3开源,全平台SOTA的GUI智能体,支持手机电脑等多平台交互
近日,通义实验室MobileAgent团队正式开源全新图形界面交互基础模型 GUI-Owl,并同步推出支持多智能体协同的自动化框架 Mobile-Agent-v3。该模型基于Qwen2.5-VL打造,在手机端与电脑端共8个GUI任务榜单中全面刷新开源模型性能纪录,达成全平台SOTA。
1665 2
|
5月前
|
人工智能 数据库 索引
超越幻觉:检索增强生成如何为AI大模型“装上”事实核查系统
超越幻觉:检索增强生成如何为AI大模型“装上”事实核查系统
354 107
|
5月前
|
人工智能 Java 开发者
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
JManus是阿里开源的Java版OpenManus,基于Spring AI Alibaba框架,助力Java开发者便捷应用AI技术。支持多Agent框架、网页配置、MCP协议及PLAN-ACT模式,可集成多模型,适配阿里云百炼平台与本地ollama。提供Docker与源码部署方式,具备无限上下文处理能力,适用于复杂AI场景。当前仍在完善模型配置等功能,欢迎参与开源共建。
2292 58
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
|
5月前
|
人工智能 数据可视化 前端开发
AI Ping:精准可靠的大模型服务性能评测平台
AI Ping是清华系团队推出的“大模型服务评测平台”,被誉为“AI界的大众点评”。汇聚230+模型服务,7×24小时监测性能数据,以吞吐量、延迟等硬指标助力开发者科学选型。界面简洁,数据可视化强,支持多模型对比,横向对标国内外主流平台,为AI应用落地提供权威参考。
1284 3
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
阶跃星辰开源! Step 3 :最新一代基础大模型 ,多模推理,极致效率
阶跃星辰开源新一代大模型 Step 3,采用 MoE 架构,参数量达 321B,激活参数 32B,平衡推理效率与资源利用,具备强大多模态能力,支持复杂推理与视觉分析,已在多个评测集取得领先成绩。
667 10
|
5月前
|
人工智能 自然语言处理 IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
1006 109

热门文章

最新文章