GPT-4o测评准确率竟不到1%！BrowseComp：OpenAI开源AI代理评测新基准，1266道高难度网络检索问题

2025-04-11 768

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： OpenAI最新开源的BrowseComp基准包含1266个高难度网络检索问题，覆盖影视、科技、艺术等九大领域，其最新Deep Research模型以51.5%准确率展现复杂信息整合能力，为AI代理的浏览能力评估建立新标准。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发感兴趣，我会每日分享大模型与 AI 领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦

🚨 「你的AI代理会翻车吗？OpenAI新基准1266道送命题，GPT-4o准确率竟不到1%！」

大家好，我是蚝油菜花。当开发者还在为AI代理的搜索能力沾沾自喜时，这个来自OpenAI的基准正在揭开智能体浏览能力的「皇帝新衣」！

你是否经历过这些智能体翻车现场：

今天要解剖的 BrowseComp 基准，正是检验AI代理网络浏览能力的「终极炼狱场」！这个包含1266个高难度问题的测试集，用三大硬核标准重塑评估体系：

browsecomp-compare

已有团队用它测出GPT-4o仅0.6%准确率——你的AI代理，准备好接受真实世界检索挑战了吗？

🚀 快速阅读

OpenAI开源BrowseComp基准系统评估AI代理网络浏览能力。

BrowseComp 是什么

BrowseComp

BrowseComp 是 OpenAI 构建的 AI 代理网络浏览能力评估基准，包含 1266 个需要多源信息整合的复杂问题。这些问题需在互联网进行深度检索，例如查找特定足球赛事细节或冷门影视角色信息，每个问题都经过严格验证确保答案不在搜索引擎首屏。

该基准采用三层验证机制：现有模型无法解答、五次谷歌搜索无首屏答案、人工十分钟内无法解决。答案设计为简短明确的结构化数据，支持自动化验证流程，为评估提供可靠标准。

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦