大模型代肝，自动刷《崩铁》升级材料，Claude操纵计算机还能这么用！-阿里云开发者社区

大模型代肝，自动刷《崩铁》升级材料，Claude操纵计算机还能这么用！

2025-02-07 482

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Claude 3.5 Computer Use是首个提供公共测试的具备图形用户界面（GUI）操作能力的前沿AI模型，标志着GUI自动化领域的重要突破。它通过API调用实现端到端解决方案，能根据用户指令和视觉GUI状态生成操作，无需外部知识辅助。研究展示了其在网页搜索、工作流和生产力软件等任务中的卓越能力，并揭示了滚动导航等局限性。未来有望进一步优化并拓展应用领域。论文链接：https://arxiv.org/pdf/2411.10323。

在人工智能领域，大模型的发展日新月异，它们在各种任务中展现出了强大的能力。最近，一项关于Claude 3.5 Computer Use的研究引起了广泛关注。作为首个在公共测试阶段提供图形用户界面（GUI）操作的前沿AI模型，Claude 3.5 在计算机使用方面展现了前所未有的能力。

自动化桌面任务的研究正变得越来越受欢迎，这主要是因为用户对提高生产力和在不同应用环境中的可访问性的需求日益增长。从网页导航到专业软件，甚至视频游戏，用户经常会遇到重复性的任务，这些任务如果能够自动化，将大大提升效率。

尽管大型语言模型如GPT-4和Qwen-2-VL已经展示了它们在通过通用GUI交互自动化任务方面的潜力，但这些模型的能力仍然远远不足以满足实际桌面任务自动化的需求。因此，研究者们开始探索利用通用大语言模型（LLMs）来理解GUI状态并生成操作的GUI自动化代理。

Anthropic公司发布的Claude 3.5 Computer Use标志着这一领域的重大突破。它引入了首个提供计算机使用公共测试的前沿AI模型。与之前的研究不同，Claude 3.5 Computer Use通过API调用来提供端到端的解决方案，它能够根据用户指令和观察到的纯视觉GUI状态来生成操作，而无需额外的外部知识，如参考计划和GUI解析。

为了探索Claude 3.5 Computer Use的能力和局限性，研究者们设计了一系列涵盖各种领域和软件的测试任务。这些任务包括网页搜索、生产力工具、工作流和娱乐等。通过观察这些测试案例，研究者们展示了Claude 3.5 Computer Use在语言到桌面操作方面的非凡能力。

研究者们还提供了一个开箱即用的代理框架，用于部署基于API的GUI自动化模型，该框架易于实现。他们的目标是通过详细的分析来展示Claude 3.5 Computer Use的能力和局限性，并提出关于规划、操作和评估的问题，这些问题对于未来的改进至关重要。

研究者们通过多个具体的应用案例，展示了Claude 3.5 Computer Use在不同领域的应用潜力。

网页搜索：在网页搜索任务中，Claude 3.5 Computer Use展示了其在复杂网页界面中进行规划、操作和适应的能力。例如，它能够根据用户的预算条件在亚马逊上搜索并添加耳机到购物车。

工作流：在工作流任务中，Claude 3.5 Computer Use展示了其在多应用交互和多目标用户查询方面的能力。例如，它能够从Apple Music中找到最新的和本地的热门音乐，并将其添加到播放列表中。

生产力软件：在生产力软件任务中，Claude 3.5 Computer Use展示了其在自动化办公任务方面的能力。例如，它能够将文档的布局更改为A3大小并设置为横向方向。

Claude 3.5 Computer Use的模型设计包括系统提示、状态观察、推理范式、工具使用和GUI操作空间等方面。它通过观察实时屏幕截图来感知环境，并采用一种基于推理和行动的范式来生成可靠的操作。

该模型还提供了三种由Anthropic定义的工具：计算机工具、文本编辑工具和Bash工具。这些工具帮助Claude 3.5 Computer Use与计算机进行交互，并执行各种操作。

Claude 3.5 Computer Use的研究为GUI自动化领域带来了新的突破，它展示了大模型在计算机操作方面的潜力。然而，该研究也指出了模型的一些局限性，如在滚动导航和文本选择方面的准确性问题。

未来，研究者们可以进一步改进模型的设计和训练，以提高其在各种任务中的性能。他们还可以探索将模型应用于其他领域，如自动化客户服务、数据分析和游戏操作等。

论文链接：https://arxiv.org/pdf/2411.10323

大模型代肝，自动刷《崩铁》升级材料，Claude操纵计算机还能这么用！

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

大模型代肝，自动刷《崩铁》升级材料，Claude操纵计算机还能这么用！

热门文章

最新文章

相关课程

相关电子书

相关实验场景