「真实网络世界」测试场上线:基于GPT-4的智能体也只能跑10.59%成功率

简介: 「真实网络世界」测试场上线:基于GPT-4的智能体也只能跑10.59%成功率

大模型能在网上完成人类给的任务吗?新的 Benchmark 来了。

随着生成式 AI 的发展,利用大语言模型构建 AI 智能体逐渐走红。比如斯坦福、谷歌联合构建了一个具有 25 个 AI 智能体的「虚拟小镇」,「小镇居民」的行为比人类角色扮演的更加真实,甚至举办了一场情人节派对。


又比如商汤、清华等机构提出的通才 AI 智能体 Ghost in the Minecraft (GITM),在《我的世界》中比以往所有智能体都有更优秀的表现……


这些 AI 智能体的先后涌现,甚至让人认为是未来通用人工智能(AGI)的雏形。


然而,有些智能体主要是在简化的合成环境中创建和测试的,这极大地限制了它们在现实场景中的应用。强如 ChatGPT,也只能通过插件的方式与互联网进行有限的互动。


本文,来自卡耐基梅隆大学(CMU)等机构的研究者引入了一个逼真且可复现的网络环境 WebArena,旨在促进研究者开发能够执行各种任务的自主智能体。



论文地址:https://arxiv.org/pdf/2307.13854.pdf

论文主页:https://webarena.dev/#try-it-yourself

项目地址:https://github.com/web-arena-x/webarena


基于 WebArena 环境,该研究发布了一组基准任务,重点是评估智能体完成任务的准确率。此外,他们还设计并实现了几个自主智能体,这些智能体集成了最先进的技术。


结果表明,在 WebArena 环境中,本文设计的智能体在解决复杂问题任务上的性能较差,即本文设计的基于 GPT-4 的智能体在端到端任务上的成功率只有 10.59%。


由此看来,进一步开发更具鲁棒性的智能体还是很必要的,当前最先进的 LLM 在现实任务中还远远不够,以后,研究者可以借助 WebArena 来衡量基于 LLM 的智能体发展。


WebArena 网络环境概述如图 1 所示,其包含四个网络应用程序:在线购物、论坛讨论、协作开发以及业务内容管理。



为了模拟人类解决问题的方式,WebArena 还嵌入了实用工具和知识资源:实用工具如地图、计算器和草稿本;知识资源如文档、知识库、开发工具使用手册等。


除了 WebArena 之外,他们还开源了一个包含 812 个任务的网络任务基准。



WebArena 介绍


本文的目标是创建一个逼真且可复现的网络环境。为了达到这一目标,研究者用独立环境来实现复现性,而不是依赖于实时网站。


网站是如何选择的为了确定要使用哪些网站类别,该研究首先对大约 200 个示例进行分析,最终确定了四个类别:


支持在线购物活动的电子商务平台(例如 Amazon、eBay);

用于意见交流的社交论坛平台(例如 Reddit、StackExchange);

用于软件开发的协作开发平台(例如 GitLab);

管理数字内容的内容管理系统(CMS)(例如在线商店管理)。


WebArena 网站 Demo 示例如下,包含了上述 4 种场景:



除了这些平台,该研究还选择了三种在网络任务中经常使用的实用工具:


地图,用于导航和搜索有关兴趣点(POIs)的信息,比如机构或位置;

计算器;

便签本,用于记录笔记。


此外,该研究还将各种知识资源纳入 WebArena 环境中。这些资源的范围从一般的信息库如维基百科,到更专业的知识库如网站用户手册。


该研究还设计了观测数据,包括网页的 URL 和内容部分,此外,他们还提供了多种选项来表示内容:可以将内容表示为屏幕截图(左侧)、HTML DOM 树(中间)和 accessibility tree(右侧)。



动作空间


该研究设计了一个复合动作空间,模拟网页上可用的键盘和鼠标操作。表格 1 列出了所有可用的动作,分为三个不同的组别。第一类包括基本操作,如点击、悬停、输入文本和组合键按下。第二类包括选项卡管理动作,如打开、关闭和在选项卡之间切换。第三类包含 URL 导航动作,例如访问特定的 URL 或在浏览历史中前进和后退。



实验


该研究使用了 gpt-3.5-turbo-0613 和 gpt-4-0613 进行实验。


在 WebArena 环境下的主要结果如表 3 所示。由 GPT-4 提供支持的推理智能体在端到端任务上的成功率为 10.63%。相同的推理智能体由 GPT-3.5 提供支持时,成功率降至 7.38%。这些结果表明在涉及长期规划任务上,尤其是在 WebArena 这样逼真环境中执行任务的智能体还面临很多挑战。



下图为 GPT-4 智能体失败案例:左侧,智能体无法进入用户部分;右侧,智能体重复输入相同的搜索查询。



下表为本文基准和现有基准上的比较。



参考链接:

https://twitter.com/shuyanzhxyc/status/1683917253597855744


相关文章
|
2月前
|
机器学习/深度学习 PyTorch 算法框架/工具
目标检测实战(一):CIFAR10结合神经网络加载、训练、测试完整步骤
这篇文章介绍了如何使用PyTorch框架,结合CIFAR-10数据集,通过定义神经网络、损失函数和优化器,进行模型的训练和测试。
145 2
目标检测实战(一):CIFAR10结合神经网络加载、训练、测试完整步骤
|
4月前
|
SQL 安全 测试技术
网络安全的屏障与钥匙:漏洞防护与加密技术解析软件测试的艺术:探索性测试的力量
【8月更文挑战第27天】在数字时代的海洋中,网络安全是保护我们数据资产的灯塔和堤坝。本文将深入浅出地探讨网络安全领域的关键要素——安全漏洞、加密技术以及不可或缺的安全意识。通过实际案例分析,我们将了解如何识别和修补潜在的安全漏洞,掌握现代加密技术的工作原理,并培养起一道坚固的安全防线。文章旨在为读者提供实用的知识和技能,以便在日益复杂的网络环境中保持警惕,确保个人及组织信息的安全。
|
4月前
|
机器学习/深度学习
神经网络与深度学习---验证集(测试集)准确率高于训练集准确率的原因
本文分析了神经网络中验证集(测试集)准确率高于训练集准确率的四个可能原因,包括数据集大小和分布不均、模型正则化过度、批处理后准确率计算时机不同,以及训练集预处理过度导致分布变化。
|
24天前
|
机器学习/深度学习 人工智能 自然语言处理
智能化软件测试:AI驱动的自动化测试策略与实践####
本文深入探讨了人工智能(AI)在软件测试领域的创新应用,通过分析AI技术如何优化测试流程、提升测试效率及质量,阐述了智能化软件测试的核心价值。文章首先概述了传统软件测试面临的挑战,随后详细介绍了AI驱动的自动化测试工具与框架,包括自然语言处理(NLP)、机器学习(ML)算法在缺陷预测、测试用例生成及自动化回归测试中的应用实例。最后,文章展望了智能化软件测试的未来发展趋势,强调了持续学习与适应能力对于保持测试策略有效性的重要性。 ####
|
1月前
|
数据库连接 Go 数据库
Go语言中的错误注入与防御编程。错误注入通过模拟网络故障、数据库错误等,测试系统稳定性
本文探讨了Go语言中的错误注入与防御编程。错误注入通过模拟网络故障、数据库错误等,测试系统稳定性;防御编程则强调在编码时考虑各种错误情况,确保程序健壮性。文章详细介绍了这两种技术在Go语言中的实现方法及其重要性,旨在提升软件质量和可靠性。
30 1
|
1月前
|
机器学习/深度学习 自然语言处理 前端开发
前端神经网络入门:Brain.js - 详细介绍和对比不同的实现 - CNN、RNN、DNN、FFNN -无需准备环境打开浏览器即可测试运行-支持WebGPU加速
本文介绍了如何使用 JavaScript 神经网络库 **Brain.js** 实现不同类型的神经网络,包括前馈神经网络(FFNN)、深度神经网络(DNN)和循环神经网络(RNN)。通过简单的示例和代码,帮助前端开发者快速入门并理解神经网络的基本概念。文章还对比了各类神经网络的特点和适用场景,并简要介绍了卷积神经网络(CNN)的替代方案。
114 1
|
1月前
|
编解码 安全 Linux
网络空间安全之一个WH的超前沿全栈技术深入学习之路(10-2):保姆级别教会你如何搭建白帽黑客渗透测试系统环境Kali——Liinux-Debian:就怕你学成黑客啦!)作者——LJS
保姆级别教会你如何搭建白帽黑客渗透测试系统环境Kali以及常见的报错及对应解决方案、常用Kali功能简便化以及详解如何具体实现
|
2月前
|
人工智能
反向和错位图灵测试:GPT-4比人类更人性化!
【10月更文挑战第8天】本文探讨了GPT-4在反向和错位图灵测试中的表现。反向测试中,GPT-4判断自身生成对话的准确性高于判断人类对话;错位测试中,人类更容易区分GPT-4生成的对话。研究揭示了GPT-4的某些特征及其局限性,如数据集偏差和任务特定性。
31 5
|
2月前
|
机器学习/深度学习 数据采集 算法
目标分类笔记(一): 利用包含多个网络多种训练策略的框架来完成多目标分类任务(从数据准备到训练测试部署的完整流程)
这篇博客文章介绍了如何使用包含多个网络和多种训练策略的框架来完成多目标分类任务,涵盖了从数据准备到训练、测试和部署的完整流程,并提供了相关代码和配置文件。
64 0
目标分类笔记(一): 利用包含多个网络多种训练策略的框架来完成多目标分类任务(从数据准备到训练测试部署的完整流程)
|
1月前
|
人工智能 安全 Linux
网络空间安全之一个WH的超前沿全栈技术深入学习之路(4-2):渗透测试行业术语扫盲完结:就怕你学成黑客啦!)作者——LJS
网络空间安全之一个WH的超前沿全栈技术深入学习之路(4-2):渗透测试行业术语扫盲完结:就怕你学成黑客啦!)作者——LJS
下一篇
DataWorks