AI+硬件最新资讯合集(2024-11-11第3期)

简介: 近期出现让大模型具备控制电脑和手机能力的智能体,掀起 “Computer Use Agents” 热潮。

01「AI+电脑」

“干货!” 看完这些论文你也能让AI操控电脑

近期出现让大模型具备控制电脑和手机能力的智能体,掀起 “Computer Use Agents” 热潮。Computer Use Agent 领域发展蓬勃,未来有望为残障人士、办公自动化和智能家居等带来更智能、自主的电脑操控体验和革命性变革。以下是AI 操控电脑的相关论文,包括论文的下载链接、研究方法及成果,具体内容如下:

Modeling/Framework 类:

论文名称

主要内容

论文链接

Agent Workflow Memory

提出 Agent Workflow Memory (AWM) 方法,从 agent 轨迹感知可复用工作流集成到记忆中,提高网页导航任务成功率和执行效率,为智能体动态记忆构建和适应能力研究提供前景

https://www.aminer.cn/pub/66e24c4d01d2a3fbfcbe4dd9?fr=awm

Agent S

采用 “经验增强分层规划” 方法,像人类操作软件一样从网络知识和 “记忆库” 学习,分解任务执行并积累经验,使 AI 自主操作电脑成为可能,为残障人士提供新交互方式

https://www.aminer.cn/pub/66bd64f401d2a3fbfc1d8c91?fr=aqas

OSCAR

提出通用智能体 OSCAR,通过状态感知推理和动态任务重规划,实现对多种桌面和移动应用图形用户界面精确控制,提高用户生产力

https://www.aminer.cn/pub/671afe5c01d2a3fbfc6b3c0d?fr=OSCAR

AgentStore

采用新颖集成方法,通过 AgentStore 平台整合异质智能体实现自动化计算机任务,引入 MetaAgent 及 AgentToken 策略提升智能体专业化和通用化性能

https://www.aminer.cn/pub/671afe0401d2a3fbfc69557c?fr=AgentStore

Cradle

Cradle 框架允许 AI 实体无需事先训练,用键盘鼠标操作与多种开源闭源应用程序沟通,实现对游戏和软件的新型交互方式

https://www.aminer.cn/pub/65e7d36d13fb2c6cf6f6c4bb?fr=Cradle

Web Agents with World Models

提出世界模型增强(WMA)的互联网交互智能体,通过过渡聚焦观察抽象方法训练 LLM 作为世界模型,提升智能体性能

https://www.aminer.cn/pub/6711c43701d2a3fbfc5803c4?fr=weba

NNetscape Navigator

提出 NNetscape Navigator(NNetnav),通过合成演示训练网络代理,利用语言指令层次结构提高搜索效率,经浏览器交互、轨迹回滚、反标指令及监督微调优化语言模型策略

https://www.aminer.cn/pub/670348bd01d2a3fbfcb5f6a9?fr=nnn

The Impact of Element Ordering on LM Agent Performance

研究元素排序对语言模型代理性能影响,提出基于维度降低的有效排序方法,比较不同环境中元素排序表现,为像素环境提供有效排序

https://www.aminer.cn/pub/66eb89d301d2a3fbfcea593f?fr=eol

Agent-E

Agent-E 是新型网络智能体,在自主网络导航方面有架构创新,包括层次化设计、DOM 提炼与降噪技术及利用变化观察指导任务执行

https://www.aminer.cn/pub/6699cc7c01d2a3fbfcc2c6ea?fr=ae

Tree Search for Language Model Agents

提出推理时搜索算法,使 LM 智能体在交互式网页环境中探索和多步骤规划,是首个在现实网页任务中有效的 LM 智能体树搜索算法

https://www.aminer.cn/pub/66836fa201d2a3fbfcb1ff59?fr=tsfl

ICAL

提出 ICAL 方法,将低质量演示转化为抽象经验,构建记忆库提升大规模生成语言和视觉语言模型决策和指令遵循性能,可从噪声演示中抽象一般性程序并通过人类反馈精炼适应

https://www.aminer.cn/pub/6678d2dd01d2a3fbfc6e8df8?fr=ical

OS-Copilot

OS-Copilot 是具有自我提升能力的通用计算机智能体框架,通过提供通用交互接口加速构建,能集成到操作系统自动执行任务,学习课程掌握应用程序操作能力

https://www.aminer.cn/pub/65cad4c5939a5f4082f3860b?fr=oc

Grounding 类:

论文名称

主要内容

论文链接

Navigating the Digital World as Humans Do

提出全新人类化视觉定位方法,通过视觉 grounding 模型使 GUI 智能体像人类一样感知环境,提升无文本输入时性能,基于 LLaVA 架构调整和网络合成数据训练视觉 grounding 模型

https://www.aminer.cn/pub/67049ca601d2a3fbfc08e270?fr=ndwa

OmniParser for Pure Vision Based GUI Agent

OmniParser 是通用纯视觉方法,将用户界面截图解析为结构化元素,含图标检测和功能描述微调模型,提高大型视觉语言模型在界面操作表现,提供通用屏幕解析方法辅助用户完成任务

https://www.aminer.cn/pub/66ac3e8501d2a3fbfc898589?fr=omni

SeeClick

构建基于大规模视觉语言模型(LVLM)的视觉 GUI 智能体 SeeClick,通过在 GUI grounding 数据上训练增强定位能力,可在多种 GUI 上根据指令定位操作元素,像人类一样视觉观察屏幕执行操作

https://www.aminer.cn/pub/65af2fe5939a5f4082fa4390?fr=click

Evaluation 类:

论文名称

主要内容

论文链接

Windows Agent Arena

用 Windows Agent Arena 评估多模态操作系统智能体,构建基于真实 Windows 操作系统的可扩展环境,实现任务自动化执行和基于结果评估,比传统人类演示评估更灵活高效。

https://www.aminer.cn/pub/66e3a00801d2a3fbfc96aa0f?fr=waa

AgentStudio

AgentStudio 是构建通用虚拟智能体的工具包,提供从环境到智能体、从数据到评估的完整解决方案,加速智能体发展。

https://www.aminer.cn/pub/66037e1213fb2c6cf6e8bbe9?fr=as

附上报道原文:“干货!” 看完这些论文你也能让AI操控电脑(附下载链接)

02「AI+手机」

AndroidLab:Phone Use 研究平台

AndroidLab 是一个全面的 Android 代理开发与评估平台,由北京智谱华章科技有限公司推出。它通过标准化的多模态操作环境、全面且可重现的基准测试和高效的训练工具,显著提升了开源模型在任务完成率和操作效率上的表现,尤其是在经过指令调优后,开源模型的性能接近甚至超过闭源模型。


附上报道原文:

AndroidLab:Phone Use 研究平台

03「AI+机器人」

3B模型打通机器人任督二脉!冲咖啡叠衣服都能干

只要一个3B参数的大模型,就能控制机器人,帮你搞定各种家务。叠衣服冲咖啡都能轻松拿捏,而且全都是由模型自主控制,不需要遥控。这些操作背后的大模型叫做π0,参数量只有3B,来自今年刚成立的初创公司Physical Intelligence(简称π)。有网友直言,π0控制的机器人,是他见过最接近真正的通用机器人的。π0不仅能控制机器人,还能控制不同的机器人,出色地完成这些任务。

附上报道原文:

3B模型打通机器人任督二脉!冲咖啡叠衣服都能干,7种形态适配,OpenAI也投了

04「AI+其他硬件形态」

AR眼镜将如何成为AI时代的新物种

XREAL创始人&CEO徐驰认为未来5到10年内,AR眼镜将逐步取代手机,成为新的主流终端设备。

AR眼镜与AI的结合:徐驰认为AR是AI最好的载体,AI需要数据,而眼镜作为用户采集数据的设备,能够了解用户的个性化数据,成为最大的、最佳的载体。同时,AI也是AR最好的交互方式,可以简化交互过程。

未来可以期待的:AR眼镜上面有一个很强大的AI智能助手,AI因为有了个性化数据,它可以给到你更精准的个人助手。

XREAL 作为全球 AR 眼镜市场领先者,主要面向欧美销售。学习苹果和大疆,重视自研核心高门槛技术,如显示模块和空间感知技术,投入大量研发资源,未来将通过技术创新带来体验升级,如芯片化创新,在芯片设计方面有一定优势且不断探索提升。


附上报道原文:

XREAL创始人CEO徐驰:未来5-10年,我们将见证眼镜取代手机


50万奖金池的AI+硬件创新大赛等你来战,详情请点击链接👇查看

https://modelscope.cn/brand/view/Mobile-Agent?branch=0&tree=3

相关文章
|
7天前
|
传感器 人工智能 机器人
|
15天前
|
人工智能 机器人 中间件
AI+硬件最新资讯合集(2024-10-28第1期)
AI与硬件的结合正逐步改变我们的生活方式,本期合集将带您了解AI+硬件的最新动态:
|
1月前
|
人工智能 自然语言处理 运维
干货|AI赋能教学开发-利用AI生成教案、课件和讲义
本文分享了高校教师利用AI工具设计课程方案和课件的经验,分为两部分。第一部分详细介绍使用GPT4o生成高质量课程大纲的过程,包括客户需求分析、提示词设计及优化调整。第二部分展示如何借助AIPPT快速制作精美课件,并介绍AIPPT的长文档解读和链接生成PPT等功能。此外,文章还分享了多个实用的AI工具、智能体和提示词技巧,助力提升教学效率与质量。
88 2
|
21天前
|
人工智能 自然语言处理 机器人
“今日热点:AI像人类一样使用手机和电脑”,魔搭社区的开源项目已先行一步
今天,Claude发布了Computer Use的新功能,可以让AI像人一样使用电脑!
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
|
2月前
|
人工智能 自然语言处理 算法
揭秘AI写作助手:技术原理与应用实践
在数字化浪潮的推动下,人工智能(AI)正逐步渗透到我们工作和生活的方方面面。本文将深入探讨AI写作助手的技术原理及其在不同场景的应用实例,旨在揭示这项技术如何助力内容创作、提升效率和质量。通过分析其背后的算法、数据处理方式以及实际运用效果,读者可以获得对AI写作工具更全面的认识,并了解如何利用这些工具优化自身的写作流程。
|
6月前
|
存储 人工智能 Linux
|
Web App开发 人工智能 搜索推荐
进击的AI工具集:全能AI阅读软件Walles AI
Walles AI 是一款 All in One 的全能AI阅读工具。简单来说,Walles AI= AI聊天对话工具 + AI网页阅读工具+AI 浏览器智能助手+ AI 搜索引擎助手+ AI PDF文档阅读工具+AI 视频阅读工具…… 更多新的AI阅读场景正在解锁中。
386 0
|
人工智能 自然语言处理 算法
魔塔社区体验AI开发
魔塔社区做AI开发的初体验
29172 0
魔塔社区体验AI开发
|
传感器 人工智能 编解码
HaaS AI应用实践之 老板来了
ucloud_ai_demo是基于云端AI能力实现的AI识别案例
HaaS AI应用实践之 老板来了