同时操控手机和电脑，100项任务，跨系统智能体评测基准有了-阿里云开发者社区

同时操控手机和电脑，100项任务，跨系统智能体评测基准有了

2024-09-09 102

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【9月更文挑战第9天】近年来，随着人工智能技术的进步，自主智能体的应用日益广泛。为解决现有评测基准的局限性，研究人员推出了CRAB（Cross-environment Agent Benchmark），这是一种支持跨环境任务的新框架，结合了基于图的精细评估方法和高效的任务构建机制。CRAB框架支持多种设备并可轻松扩展至任何具备Python接口的环境。首个跨平台基准CRAB-v0包含100项任务，实验显示GPT-4单智能体在完成率方面表现最佳。CRAB框架为智能体研究提供了新机遇，但也面临计算资源和评估准确性等方面的挑战。

近年来，随着人工智能技术的发展，自主智能体在各种环境中的应用变得越来越普遍。这些智能体通常需要使用多模态语言模型（MLMs）来完成自然语言描述的任务，例如在网站、桌面电脑或移动设备上进行操作。然而，现有的智能体评测基准存在一些局限性，如仅关注单一环境、缺乏详细和通用的评估方法，以及构建任务和评估器的复杂性。

为了解决这些问题，研究人员提出了CRAB（Cross-environment Agent Benchmark），这是一种全新的智能体评测框架，旨在支持跨环境任务，并结合了基于图的精细评估方法和高效的任务及评估器构建机制。CRAB框架支持多种设备，并可以轻松扩展到任何具有Python接口的环境。

利用CRAB框架，研究人员开发了第一个跨平台的CRAB基准-v0，其中包含100个在计算机桌面和移动设备环境中的任务。他们使用不同的单智能体和多智能体系统配置，对四种先进的MLM进行了评估。实验结果表明，使用GPT-4的单智能体在完成率方面表现最佳，达到了35.26%。

CRAB框架的提出为自主智能体的研究提供了新的机遇和挑战。首先，它提供了一种通用的评估框架，可以用于比较不同智能体在各种环境中的性能。这对于推动智能体技术的发展和应用具有重要意义。其次，CRAB框架的跨环境特性使得研究人员可以更全面地评估智能体的能力，而不仅仅是在单一环境中。这有助于发现智能体的局限性，并提出改进的方法。

然而，CRAB框架也存在一些挑战和限制。首先，由于CRAB框架的通用性和灵活性，它可能需要更多的计算资源和时间来完成评估。这可能会限制其在实际应用中的可行性。其次，CRAB框架的评估方法可能需要进一步的改进和完善，以确保其准确性和可靠性。此外，由于CRAB框架是一个新的评测基准，可能需要更多的研究和实践来验证其有效性和适用性。

论文地址：https://arxiv.org/abs/2407.01511

同时操控手机和电脑，100项任务，跨系统智能体评测基准有了

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

直播

下载

镜像站

技术资料

同时操控手机和电脑，100项任务，跨系统智能体评测基准有了

热门文章

最新文章

相关课程

相关电子书

相关实验场景