大模型代肝,自动刷《崩铁》升级材料,Claude操纵计算机还能这么用!

简介: Claude 3.5 Computer Use是首个提供公共测试的具备图形用户界面(GUI)操作能力的前沿AI模型,标志着GUI自动化领域的重要突破。它通过API调用实现端到端解决方案,能根据用户指令和视觉GUI状态生成操作,无需外部知识辅助。研究展示了其在网页搜索、工作流和生产力软件等任务中的卓越能力,并揭示了滚动导航等局限性。未来有望进一步优化并拓展应用领域。论文链接:https://arxiv.org/pdf/2411.10323。

在人工智能领域,大模型的发展日新月异,它们在各种任务中展现出了强大的能力。最近,一项关于Claude 3.5 Computer Use的研究引起了广泛关注。作为首个在公共测试阶段提供图形用户界面(GUI)操作的前沿AI模型,Claude 3.5 在计算机使用方面展现了前所未有的能力。

自动化桌面任务的研究正变得越来越受欢迎,这主要是因为用户对提高生产力和在不同应用环境中的可访问性的需求日益增长。从网页导航到专业软件,甚至视频游戏,用户经常会遇到重复性的任务,这些任务如果能够自动化,将大大提升效率。

尽管大型语言模型如GPT-4和Qwen-2-VL已经展示了它们在通过通用GUI交互自动化任务方面的潜力,但这些模型的能力仍然远远不足以满足实际桌面任务自动化的需求。因此,研究者们开始探索利用通用大语言模型(LLMs)来理解GUI状态并生成操作的GUI自动化代理。

Anthropic公司发布的Claude 3.5 Computer Use标志着这一领域的重大突破。它引入了首个提供计算机使用公共测试的前沿AI模型。与之前的研究不同,Claude 3.5 Computer Use通过API调用来提供端到端的解决方案,它能够根据用户指令和观察到的纯视觉GUI状态来生成操作,而无需额外的外部知识,如参考计划和GUI解析。

为了探索Claude 3.5 Computer Use的能力和局限性,研究者们设计了一系列涵盖各种领域和软件的测试任务。这些任务包括网页搜索、生产力工具、工作流和娱乐等。通过观察这些测试案例,研究者们展示了Claude 3.5 Computer Use在语言到桌面操作方面的非凡能力。

研究者们还提供了一个开箱即用的代理框架,用于部署基于API的GUI自动化模型,该框架易于实现。他们的目标是通过详细的分析来展示Claude 3.5 Computer Use的能力和局限性,并提出关于规划、操作和评估的问题,这些问题对于未来的改进至关重要。

研究者们通过多个具体的应用案例,展示了Claude 3.5 Computer Use在不同领域的应用潜力。

网页搜索:在网页搜索任务中,Claude 3.5 Computer Use展示了其在复杂网页界面中进行规划、操作和适应的能力。例如,它能够根据用户的预算条件在亚马逊上搜索并添加耳机到购物车。

工作流:在工作流任务中,Claude 3.5 Computer Use展示了其在多应用交互和多目标用户查询方面的能力。例如,它能够从Apple Music中找到最新的和本地的热门音乐,并将其添加到播放列表中。

生产力软件:在生产力软件任务中,Claude 3.5 Computer Use展示了其在自动化办公任务方面的能力。例如,它能够将文档的布局更改为A3大小并设置为横向方向。

Claude 3.5 Computer Use的模型设计包括系统提示、状态观察、推理范式、工具使用和GUI操作空间等方面。它通过观察实时屏幕截图来感知环境,并采用一种基于推理和行动的范式来生成可靠的操作。

该模型还提供了三种由Anthropic定义的工具:计算机工具、文本编辑工具和Bash工具。这些工具帮助Claude 3.5 Computer Use与计算机进行交互,并执行各种操作。

Claude 3.5 Computer Use的研究为GUI自动化领域带来了新的突破,它展示了大模型在计算机操作方面的潜力。然而,该研究也指出了模型的一些局限性,如在滚动导航和文本选择方面的准确性问题。

未来,研究者们可以进一步改进模型的设计和训练,以提高其在各种任务中的性能。他们还可以探索将模型应用于其他领域,如自动化客户服务、数据分析和游戏操作等。

论文链接:https://arxiv.org/pdf/2411.10323

目录
相关文章
|
5月前
|
人工智能 新制造 云栖大会
TsingtaoAI亮相云栖大会,AI大模型赋能传统制造业焕新升级
2025年9月24日,杭州云栖小镇,2025云栖大会盛大开幕。作为全球AI技术与产业融合的重要平台,本届大会以“AI驱动产业变革”为主题,集中展示大模型技术在各领域的创新应用。 其中,由西湖区商务局牵头组织的“AI大模型应用与产业融合”专场论坛成为大会亮点之一,吸引了来自政府、企业及投资机构的百余名代表参与。 在论坛上,TsingtaoAI作为制造业智能化转型的代表企业,分享了在具身智能-制造企业的AI应用实践。
351 1
|
人工智能 自然语言处理 程序员
AI战略丨拓展智能边界,大模型体系全面升级
阿里云在基础模型体系和生态、模型工程化落地路径、端云协同解决方案等多维度上都在快速迭代。
|
编解码 人工智能 API
通义万相2.1视频/图像模型新升级!可在阿里云百炼直接体验
通义万相2.1模型推出新特征,包括复杂人物运动的稳定展现、现实物理规律的逼真还原及中英文视频特效的绚丽呈现。通过自研的高效VAE和DiT架构,增强时空上下文建模能力,支持无限长1080P视频的高效编解码,并首次实现中文文字视频生成功能。升级后的通义万相荣登VBench榜单第一,提供电影级分镜效果、四格漫画故事速览及情侣头像创意定制等多种玩法,满足多样化的视觉创作需求。可直接在阿里云百炼平台调用API体验这些功能。
4724 0
|
人工智能 自然语言处理 程序员
通义灵码2.0全新升级,AI程序员全面开放使用
通义灵码2.0来了,成为全球首个同时上线JetBrains和VSCode的AI 程序员产品!立即下载更新最新插件使用。
4117 85
通义灵码2.0全新升级,AI程序员全面开放使用
|
10月前
|
人工智能 Rust 自然语言处理
通义灵码2.5:四大升级亮点
通义灵码2.5不仅是一款工具,更是开发者思维的延伸。通过体验官计划,我们见证了AI如何将重复性工作转化为创意性探索。无论是新手还是资深工程师,都能借此释放生产力,聚焦于架构设计与创新。
219 16
|
10月前
|
传感器 自然语言处理 搜索推荐
通义灵码 2.5 版体验报告:智能编程助手的全新升级
通义灵码2.5版通过Qwen3模型和智能体模式,显著提升了编程效率与体验。智能体可自主决策,快速完成应用开发;MCP工具广场提供3000+工具,一键安装便捷高效;记忆能力让工具越用越懂用户需求;Qwen3强大的自然语言处理能力助力复杂任务解析。界面友好、性能稳定,为开发者带来高效个性化体验,未来潜力巨大。
308 16
|
9月前
|
人工智能 IDE 定位技术
通义灵码 AI IDE 正式上线,智能体自动写代码,首创自动记忆,工程感知全面升级
阿里云发布的通义灵码AI IDE深度适配千问3大模型,集成智能编码助手功能,支持编程智能体、工具调用、工程感知等能力。其核心亮点包括:支持最强开源模型千问3,全面集成通义灵码插件能力,自带编程智能体模式,支持长期记忆与行间建议预测(NES)。通义灵码已覆盖主流IDE,助力开发者实现高效智能编程,插件下载量超1500万,生成代码超30亿行,成为国内最受欢迎的辅助编程工具。立即体验更智能的开发流程!
2601 1
|
机器学习/深度学习 存储 算法
DistilQwen2.5发布:通义千问蒸馏小模型再升级
为解决大语言模型在资源有限环境下的高计算成本和复杂性问题,阿里云推出了基于 Qwen2.5 的轻量化模型系列 DistilQwen2.5。该模型通过双层蒸馏框架、数据优化策略及参数融合技术,在保留性能的同时显著降低计算资源消耗。本文提供了详细的使用教程和代码示例,方便用户在 PAI 平台上调用。
|
人工智能 编解码 测试技术
阿里云通义千问发布多款AI大模型 多模态、长文本能力全面升级!
阿里云通义千问发布多款AI大模型 多模态、长文本能力全面升级!

热门文章

最新文章