「真实网络世界」测试场上线:基于GPT-4的智能体也只能跑10.59%成功率

简介: 「真实网络世界」测试场上线:基于GPT-4的智能体也只能跑10.59%成功率

大模型能在网上完成人类给的任务吗?新的 Benchmark 来了。

随着生成式 AI 的发展,利用大语言模型构建 AI 智能体逐渐走红。比如斯坦福、谷歌联合构建了一个具有 25 个 AI 智能体的「虚拟小镇」,「小镇居民」的行为比人类角色扮演的更加真实,甚至举办了一场情人节派对。


又比如商汤、清华等机构提出的通才 AI 智能体 Ghost in the Minecraft (GITM),在《我的世界》中比以往所有智能体都有更优秀的表现……


这些 AI 智能体的先后涌现,甚至让人认为是未来通用人工智能(AGI)的雏形。


然而,有些智能体主要是在简化的合成环境中创建和测试的,这极大地限制了它们在现实场景中的应用。强如 ChatGPT,也只能通过插件的方式与互联网进行有限的互动。


本文,来自卡耐基梅隆大学(CMU)等机构的研究者引入了一个逼真且可复现的网络环境 WebArena,旨在促进研究者开发能够执行各种任务的自主智能体。



论文地址:https://arxiv.org/pdf/2307.13854.pdf

论文主页:https://webarena.dev/#try-it-yourself

项目地址:https://github.com/web-arena-x/webarena


基于 WebArena 环境,该研究发布了一组基准任务,重点是评估智能体完成任务的准确率。此外,他们还设计并实现了几个自主智能体,这些智能体集成了最先进的技术。


结果表明,在 WebArena 环境中,本文设计的智能体在解决复杂问题任务上的性能较差,即本文设计的基于 GPT-4 的智能体在端到端任务上的成功率只有 10.59%。


由此看来,进一步开发更具鲁棒性的智能体还是很必要的,当前最先进的 LLM 在现实任务中还远远不够,以后,研究者可以借助 WebArena 来衡量基于 LLM 的智能体发展。


WebArena 网络环境概述如图 1 所示,其包含四个网络应用程序:在线购物、论坛讨论、协作开发以及业务内容管理。



为了模拟人类解决问题的方式,WebArena 还嵌入了实用工具和知识资源:实用工具如地图、计算器和草稿本;知识资源如文档、知识库、开发工具使用手册等。


除了 WebArena 之外,他们还开源了一个包含 812 个任务的网络任务基准。



WebArena 介绍


本文的目标是创建一个逼真且可复现的网络环境。为了达到这一目标,研究者用独立环境来实现复现性,而不是依赖于实时网站。


网站是如何选择的为了确定要使用哪些网站类别,该研究首先对大约 200 个示例进行分析,最终确定了四个类别:


支持在线购物活动的电子商务平台(例如 Amazon、eBay);

用于意见交流的社交论坛平台(例如 Reddit、StackExchange);

用于软件开发的协作开发平台(例如 GitLab);

管理数字内容的内容管理系统(CMS)(例如在线商店管理)。


WebArena 网站 Demo 示例如下,包含了上述 4 种场景:



除了这些平台,该研究还选择了三种在网络任务中经常使用的实用工具:


地图,用于导航和搜索有关兴趣点(POIs)的信息,比如机构或位置;

计算器;

便签本,用于记录笔记。


此外,该研究还将各种知识资源纳入 WebArena 环境中。这些资源的范围从一般的信息库如维基百科,到更专业的知识库如网站用户手册。


该研究还设计了观测数据,包括网页的 URL 和内容部分,此外,他们还提供了多种选项来表示内容:可以将内容表示为屏幕截图(左侧)、HTML DOM 树(中间)和 accessibility tree(右侧)。



动作空间


该研究设计了一个复合动作空间,模拟网页上可用的键盘和鼠标操作。表格 1 列出了所有可用的动作,分为三个不同的组别。第一类包括基本操作,如点击、悬停、输入文本和组合键按下。第二类包括选项卡管理动作,如打开、关闭和在选项卡之间切换。第三类包含 URL 导航动作,例如访问特定的 URL 或在浏览历史中前进和后退。



实验


该研究使用了 gpt-3.5-turbo-0613 和 gpt-4-0613 进行实验。


在 WebArena 环境下的主要结果如表 3 所示。由 GPT-4 提供支持的推理智能体在端到端任务上的成功率为 10.63%。相同的推理智能体由 GPT-3.5 提供支持时,成功率降至 7.38%。这些结果表明在涉及长期规划任务上,尤其是在 WebArena 这样逼真环境中执行任务的智能体还面临很多挑战。



下图为 GPT-4 智能体失败案例:左侧,智能体无法进入用户部分;右侧,智能体重复输入相同的搜索查询。



下表为本文基准和现有基准上的比较。



参考链接:

https://twitter.com/shuyanzhxyc/status/1683917253597855744


相关文章
|
17天前
|
机器学习/深度学习 测试技术 信息无障碍
VLM集体失明?视力测试惨败,GPT-4o、Claude 3.5全都不及格
【8月更文挑战第2天】新研究表明,顶尖视觉语言模型(VLMs)如GPT-4o和Claude 3.5,在看似简单的视觉任务上表现堪忧,诸如判断圆圈是否重叠或线条是否交叉等。此发现揭示了即便是在图像理解方面表现出色的VLMs也存在基本视觉认知的局限性,提示模型融合视觉信息的方式有待改进。论文详细探讨了可能的原因及未来提升方向。[@arxiv:2407.06581]
41 6
|
9天前
|
机器学习/深度学习 人工智能 自然语言处理
软件测试的未来之路:自动化与智能化的融合之旅
随着技术的飞速发展,软件测试领域正经历着一场革命。传统的手动测试方法逐渐让位于更加高效、智能的自动化测试策略。本文将探讨自动化测试工具的演进,以及人工智能如何赋能未来的软件测试实践,提升测试效率和准确性。我们将通过实例分析,了解自动化测试工具的现状,探索AI技术在测试中的应用,并展望未来软件测试的趋势。
22 2
|
13天前
|
机器学习/深度学习 边缘计算 人工智能
软件测试的演化之路:从手动到智能化
【8月更文挑战第6天】在数字化浪潮不断推进的今天,软件测试作为保障软件质量的重要环节,经历了从原始的手动测试到现在的智能化测试的转变。本文将探讨这一演变过程,分析其背后的驱动力和未来趋势,以及这些变化给软件产业带来的深远影响。
|
19天前
|
机器学习/深度学习 人工智能 自然语言处理
软件测试的未来:自动化与智能化的融合
随着科技的发展,软件测试领域正在经历一场革命。传统的手动测试方法正逐渐被自动化和智能化技术所取代。本文将探讨这一趋势如何影响软件测试的未来,以及它为提高软件质量和开发效率带来的机遇。
|
21天前
|
机器学习/深度学习 人工智能 自然语言处理
探索软件测试的未来:自动化与智能化的交汇点
随着技术的迅猛发展,软件测试领域正站在一个崭新的十字路口。本文将深入探讨自动化测试和人工智能(AI)如何共同塑造软件测试的未来,提升测试效率与准确性。通过分析当前趋势和未来预测,我们将揭示这些技术如何影响测试策略、工具选择以及质量保证流程,进而推动软件开发的整体进步。
31 1
|
5天前
|
JavaScript 前端开发 应用服务中间件
【qkl】JavaScript连接web3钱包,实现测试网络中的 Sepolia ETH余额查询、转账功能
【区块链】JavaScript连接web3钱包,实现测试网络中的 Sepolia ETH余额查询、转账功能
|
1月前
|
人工智能 运维 自然语言处理
操作系统智能助手OS Copilot体验与测试结果
OS Copilot是基于大模型构建的操作系统智能助手,支持命令行自然语言问答、辅助命令执行、阿里云CLI调用、系统运维和调优等功能,帮助您更好地使用Alibaba Cloud Linux,提高Alibaba Cloud Linux的使用效率。
操作系统智能助手OS Copilot体验与测试结果
|
2月前
|
人工智能 分布式计算 DataWorks
首批!阿里云 MaxCompute 完成中国信通院数据智能平台专项测试
2024年5月31日,在中国信通院组织的首批数据智能平台专项测试中,阿里云数据智能平台解决方案(MaxCompute、DataWorks、PAI)顺利完成测试。
166 5
首批!阿里云 MaxCompute 完成中国信通院数据智能平台专项测试
|
1月前
|
SQL 安全 网络协议
网络扫描与渗透测试基础
【7月更文挑战第12天】网络扫描与渗透测试是保障网络安全的重要手段,通过模拟黑客攻击的方式,发现潜在的安全漏洞,并提供修复建议,为系统安全保驾护航。在网络安全日益重要的今天,掌握网络扫描与渗透测试技术对于企业和组织来说至关重要。希望本文能够为读者提供有益的参考和借鉴。
|
1月前
|
机器学习/深度学习 数据采集 人工智能
探索自动化测试的边界:从脚本到智能
在软件开发领域,自动化测试已成为确保产品质量和提升开发效率的关键因素。随着人工智能和机器学习技术的飞速发展,传统的自动化测试方法正面临重大的变革。本文将从多个角度分析自动化测试的现状与未来趋势,探讨如何通过集成先进的技术手段优化测试流程,并预测自动化测试领域的发展方向。
34 1