AI+硬件最新资讯合集(2024-11-11第3期)

简介: 近期出现让大模型具备控制电脑和手机能力的智能体,掀起 “Computer Use Agents” 热潮。

01「AI+电脑」

“干货!” 看完这些论文你也能让AI操控电脑

近期出现让大模型具备控制电脑和手机能力的智能体,掀起 “Computer Use Agents” 热潮。Computer Use Agent 领域发展蓬勃,未来有望为残障人士、办公自动化和智能家居等带来更智能、自主的电脑操控体验和革命性变革。以下是AI 操控电脑的相关论文,包括论文的下载链接、研究方法及成果,具体内容如下:

Modeling/Framework 类:

论文名称

主要内容

论文链接

Agent Workflow Memory

提出 Agent Workflow Memory (AWM) 方法,从 agent 轨迹感知可复用工作流集成到记忆中,提高网页导航任务成功率和执行效率,为智能体动态记忆构建和适应能力研究提供前景

https://www.aminer.cn/pub/66e24c4d01d2a3fbfcbe4dd9?fr=awm

Agent S

采用 “经验增强分层规划” 方法,像人类操作软件一样从网络知识和 “记忆库” 学习,分解任务执行并积累经验,使 AI 自主操作电脑成为可能,为残障人士提供新交互方式

https://www.aminer.cn/pub/66bd64f401d2a3fbfc1d8c91?fr=aqas

OSCAR

提出通用智能体 OSCAR,通过状态感知推理和动态任务重规划,实现对多种桌面和移动应用图形用户界面精确控制,提高用户生产力

https://www.aminer.cn/pub/671afe5c01d2a3fbfc6b3c0d?fr=OSCAR

AgentStore

采用新颖集成方法,通过 AgentStore 平台整合异质智能体实现自动化计算机任务,引入 MetaAgent 及 AgentToken 策略提升智能体专业化和通用化性能

https://www.aminer.cn/pub/671afe0401d2a3fbfc69557c?fr=AgentStore

Cradle

Cradle 框架允许 AI 实体无需事先训练,用键盘鼠标操作与多种开源闭源应用程序沟通,实现对游戏和软件的新型交互方式

https://www.aminer.cn/pub/65e7d36d13fb2c6cf6f6c4bb?fr=Cradle

Web Agents with World Models

提出世界模型增强(WMA)的互联网交互智能体,通过过渡聚焦观察抽象方法训练 LLM 作为世界模型,提升智能体性能

https://www.aminer.cn/pub/6711c43701d2a3fbfc5803c4?fr=weba

NNetscape Navigator

提出 NNetscape Navigator(NNetnav),通过合成演示训练网络代理,利用语言指令层次结构提高搜索效率,经浏览器交互、轨迹回滚、反标指令及监督微调优化语言模型策略

https://www.aminer.cn/pub/670348bd01d2a3fbfcb5f6a9?fr=nnn

The Impact of Element Ordering on LM Agent Performance

研究元素排序对语言模型代理性能影响,提出基于维度降低的有效排序方法,比较不同环境中元素排序表现,为像素环境提供有效排序

https://www.aminer.cn/pub/66eb89d301d2a3fbfcea593f?fr=eol

Agent-E

Agent-E 是新型网络智能体,在自主网络导航方面有架构创新,包括层次化设计、DOM 提炼与降噪技术及利用变化观察指导任务执行

https://www.aminer.cn/pub/6699cc7c01d2a3fbfcc2c6ea?fr=ae

Tree Search for Language Model Agents

提出推理时搜索算法,使 LM 智能体在交互式网页环境中探索和多步骤规划,是首个在现实网页任务中有效的 LM 智能体树搜索算法

https://www.aminer.cn/pub/66836fa201d2a3fbfcb1ff59?fr=tsfl

ICAL

提出 ICAL 方法,将低质量演示转化为抽象经验,构建记忆库提升大规模生成语言和视觉语言模型决策和指令遵循性能,可从噪声演示中抽象一般性程序并通过人类反馈精炼适应

https://www.aminer.cn/pub/6678d2dd01d2a3fbfc6e8df8?fr=ical

OS-Copilot

OS-Copilot 是具有自我提升能力的通用计算机智能体框架,通过提供通用交互接口加速构建,能集成到操作系统自动执行任务,学习课程掌握应用程序操作能力

https://www.aminer.cn/pub/65cad4c5939a5f4082f3860b?fr=oc

Grounding 类:

论文名称

主要内容

论文链接

Navigating the Digital World as Humans Do

提出全新人类化视觉定位方法,通过视觉 grounding 模型使 GUI 智能体像人类一样感知环境,提升无文本输入时性能,基于 LLaVA 架构调整和网络合成数据训练视觉 grounding 模型

https://www.aminer.cn/pub/67049ca601d2a3fbfc08e270?fr=ndwa

OmniParser for Pure Vision Based GUI Agent

OmniParser 是通用纯视觉方法,将用户界面截图解析为结构化元素,含图标检测和功能描述微调模型,提高大型视觉语言模型在界面操作表现,提供通用屏幕解析方法辅助用户完成任务

https://www.aminer.cn/pub/66ac3e8501d2a3fbfc898589?fr=omni

SeeClick

构建基于大规模视觉语言模型(LVLM)的视觉 GUI 智能体 SeeClick,通过在 GUI grounding 数据上训练增强定位能力,可在多种 GUI 上根据指令定位操作元素,像人类一样视觉观察屏幕执行操作

https://www.aminer.cn/pub/65af2fe5939a5f4082fa4390?fr=click

Evaluation 类:

论文名称

主要内容

论文链接

Windows Agent Arena

用 Windows Agent Arena 评估多模态操作系统智能体,构建基于真实 Windows 操作系统的可扩展环境,实现任务自动化执行和基于结果评估,比传统人类演示评估更灵活高效。

https://www.aminer.cn/pub/66e3a00801d2a3fbfc96aa0f?fr=waa

AgentStudio

AgentStudio 是构建通用虚拟智能体的工具包,提供从环境到智能体、从数据到评估的完整解决方案,加速智能体发展。

https://www.aminer.cn/pub/66037e1213fb2c6cf6e8bbe9?fr=as

附上报道原文:“干货!” 看完这些论文你也能让AI操控电脑(附下载链接)

02「AI+手机」

AndroidLab:Phone Use 研究平台

AndroidLab 是一个全面的 Android 代理开发与评估平台,由北京智谱华章科技有限公司推出。它通过标准化的多模态操作环境、全面且可重现的基准测试和高效的训练工具,显著提升了开源模型在任务完成率和操作效率上的表现,尤其是在经过指令调优后,开源模型的性能接近甚至超过闭源模型。


附上报道原文:

AndroidLab:Phone Use 研究平台

03「AI+机器人」

3B模型打通机器人任督二脉!冲咖啡叠衣服都能干

只要一个3B参数的大模型,就能控制机器人,帮你搞定各种家务。叠衣服冲咖啡都能轻松拿捏,而且全都是由模型自主控制,不需要遥控。这些操作背后的大模型叫做π0,参数量只有3B,来自今年刚成立的初创公司Physical Intelligence(简称π)。有网友直言,π0控制的机器人,是他见过最接近真正的通用机器人的。π0不仅能控制机器人,还能控制不同的机器人,出色地完成这些任务。

附上报道原文:

3B模型打通机器人任督二脉!冲咖啡叠衣服都能干,7种形态适配,OpenAI也投了

04「AI+其他硬件形态」

AR眼镜将如何成为AI时代的新物种

XREAL创始人&CEO徐驰认为未来5到10年内,AR眼镜将逐步取代手机,成为新的主流终端设备。

AR眼镜与AI的结合:徐驰认为AR是AI最好的载体,AI需要数据,而眼镜作为用户采集数据的设备,能够了解用户的个性化数据,成为最大的、最佳的载体。同时,AI也是AR最好的交互方式,可以简化交互过程。

未来可以期待的:AR眼镜上面有一个很强大的AI智能助手,AI因为有了个性化数据,它可以给到你更精准的个人助手。

XREAL 作为全球 AR 眼镜市场领先者,主要面向欧美销售。学习苹果和大疆,重视自研核心高门槛技术,如显示模块和空间感知技术,投入大量研发资源,未来将通过技术创新带来体验升级,如芯片化创新,在芯片设计方面有一定优势且不断探索提升。


附上报道原文:

XREAL创始人CEO徐驰:未来5-10年,我们将见证眼镜取代手机


50万奖金池的AI+硬件创新大赛等你来战,详情请点击链接👇查看

https://modelscope.cn/brand/view/Mobile-Agent?branch=0&tree=3

相关文章
|
6月前
|
人工智能 自然语言处理 前端开发
[AI]文心一言出圈的同时,NLP处理下的ChatGPT-4.5最新资讯
[AI]文心一言出圈的同时,NLP处理下的ChatGPT-4.5最新资讯
|
19天前
|
传感器 人工智能 机器人
|
23天前
|
人工智能 分布式计算 数据可视化
大模型私有化部署全攻略:硬件需求、数据隐私、可解释性与维护成本挑战及解决方案详解,附示例代码助你轻松实现企业内部AI应用
【10月更文挑战第23天】随着人工智能技术的发展,企业越来越关注大模型的私有化部署。本文详细探讨了硬件资源需求、数据隐私保护、模型可解释性、模型更新和维护等方面的挑战及解决方案,并提供了示例代码,帮助企业高效、安全地实现大模型的内部部署。
51 1
|
23天前
|
人工智能 分布式计算 数据可视化
大模型私有化部署全攻略:硬件需求、数据隐私、可解释性与维护成本挑战及解决方案详解,附示例代码助你轻松实现企业内部AI应用
【10月更文挑战第23天】随着人工智能技术的发展,大模型在各领域的应用日益广泛。然而,将其私有化部署到企业内部面临诸多挑战,如硬件资源需求高、数据隐私保护、模型可解释性差、更新维护成本高等。本文探讨了这些挑战,并提出了优化硬件配置、数据加密、可视化工具、自动化更新机制等解决方案,帮助企业顺利实现大模型的私有化部署。
53 1
|
27天前
|
人工智能 机器人 中间件
AI+硬件最新资讯合集(2024-10-28第1期)
AI与硬件的结合正逐步改变我们的生活方式,本期合集将带您了解AI+硬件的最新动态:
|
6月前
|
人工智能 数据可视化 算法
苹果Vision Pro携Sora引领AI的新浪潮,XR硬件未来探索之旅
苹果Vision pro刚刚发布,一跃成为迄今最先进的虚拟现实和增强现实眼镜,苹果公司将其称为“空间计算机”。 OpenAI的创始人兼首席执行官山姆·奥特曼评价:苹果Vision pro是自iPhone以后第二惊艳的技术。实际上手体验时,当你带上眼睛后,沉浸式呈现眼前是一个虚拟空间,它以高分辨率屏幕,支持重放事件和人物的三维视频录像,看起来就像置身其中,只需要通过简单的眼神和隔空手势操作。
|
6月前
|
机器学习/深度学习 人工智能 芯片
AI芯片设计与优化:算力提升、能耗降低与硬件加速器的发展趋势
AI芯片设计与优化:算力提升、能耗降低与硬件加速器的发展趋势
1170 0
|
6月前
|
传感器 人工智能 安全
【Java】智慧工地云SaaS源码,AI服务器、硬件设备讲解视频
【Java】智慧工地云SaaS源码,AI服务器、硬件设备讲解视频
117 0
|
7天前
|
机器学习/深度学习 人工智能 自然语言处理
当前AI大模型在软件开发中的创新应用与挑战
2024年,AI大模型在软件开发领域的应用正重塑传统流程,从自动化编码、智能协作到代码审查和测试,显著提升了开发效率和代码质量。然而,技术挑战、伦理安全及模型可解释性等问题仍需解决。未来,AI将继续推动软件开发向更高效、智能化方向发展。
|
12天前
|
机器学习/深度学习 人工智能 自然语言处理
AI在医疗领域的应用及其挑战
【10月更文挑战第34天】本文将探讨人工智能(AI)在医疗领域的应用及其面临的挑战。我们将从AI技术的基本概念入手,然后详细介绍其在医疗领域的各种应用,如疾病诊断、药物研发、患者护理等。最后,我们将讨论AI在医疗领域面临的主要挑战,包括数据隐私、算法偏见、法规合规等问题。
34 1