AI+硬件最新资讯合集(2024-11-11第3期)

简介: 近期出现让大模型具备控制电脑和手机能力的智能体,掀起 “Computer Use Agents” 热潮。

01「AI+电脑」

“干货!” 看完这些论文你也能让AI操控电脑

近期出现让大模型具备控制电脑和手机能力的智能体,掀起 “Computer Use Agents” 热潮。Computer Use Agent 领域发展蓬勃,未来有望为残障人士、办公自动化和智能家居等带来更智能、自主的电脑操控体验和革命性变革。以下是AI 操控电脑的相关论文,包括论文的下载链接、研究方法及成果,具体内容如下:

Modeling/Framework 类:

论文名称

主要内容

论文链接

Agent Workflow Memory

提出 Agent Workflow Memory (AWM) 方法,从 agent 轨迹感知可复用工作流集成到记忆中,提高网页导航任务成功率和执行效率,为智能体动态记忆构建和适应能力研究提供前景

https://www.aminer.cn/pub/66e24c4d01d2a3fbfcbe4dd9?fr=awm

Agent S

采用 “经验增强分层规划” 方法,像人类操作软件一样从网络知识和 “记忆库” 学习,分解任务执行并积累经验,使 AI 自主操作电脑成为可能,为残障人士提供新交互方式

https://www.aminer.cn/pub/66bd64f401d2a3fbfc1d8c91?fr=aqas

OSCAR

提出通用智能体 OSCAR,通过状态感知推理和动态任务重规划,实现对多种桌面和移动应用图形用户界面精确控制,提高用户生产力

https://www.aminer.cn/pub/671afe5c01d2a3fbfc6b3c0d?fr=OSCAR

AgentStore

采用新颖集成方法,通过 AgentStore 平台整合异质智能体实现自动化计算机任务,引入 MetaAgent 及 AgentToken 策略提升智能体专业化和通用化性能

https://www.aminer.cn/pub/671afe0401d2a3fbfc69557c?fr=AgentStore

Cradle

Cradle 框架允许 AI 实体无需事先训练,用键盘鼠标操作与多种开源闭源应用程序沟通,实现对游戏和软件的新型交互方式

https://www.aminer.cn/pub/65e7d36d13fb2c6cf6f6c4bb?fr=Cradle

Web Agents with World Models

提出世界模型增强(WMA)的互联网交互智能体,通过过渡聚焦观察抽象方法训练 LLM 作为世界模型,提升智能体性能

https://www.aminer.cn/pub/6711c43701d2a3fbfc5803c4?fr=weba

NNetscape Navigator

提出 NNetscape Navigator(NNetnav),通过合成演示训练网络代理,利用语言指令层次结构提高搜索效率,经浏览器交互、轨迹回滚、反标指令及监督微调优化语言模型策略

https://www.aminer.cn/pub/670348bd01d2a3fbfcb5f6a9?fr=nnn

The Impact of Element Ordering on LM Agent Performance

研究元素排序对语言模型代理性能影响,提出基于维度降低的有效排序方法,比较不同环境中元素排序表现,为像素环境提供有效排序

https://www.aminer.cn/pub/66eb89d301d2a3fbfcea593f?fr=eol

Agent-E

Agent-E 是新型网络智能体,在自主网络导航方面有架构创新,包括层次化设计、DOM 提炼与降噪技术及利用变化观察指导任务执行

https://www.aminer.cn/pub/6699cc7c01d2a3fbfcc2c6ea?fr=ae

Tree Search for Language Model Agents

提出推理时搜索算法,使 LM 智能体在交互式网页环境中探索和多步骤规划,是首个在现实网页任务中有效的 LM 智能体树搜索算法

https://www.aminer.cn/pub/66836fa201d2a3fbfcb1ff59?fr=tsfl

ICAL

提出 ICAL 方法,将低质量演示转化为抽象经验,构建记忆库提升大规模生成语言和视觉语言模型决策和指令遵循性能,可从噪声演示中抽象一般性程序并通过人类反馈精炼适应

https://www.aminer.cn/pub/6678d2dd01d2a3fbfc6e8df8?fr=ical

OS-Copilot

OS-Copilot 是具有自我提升能力的通用计算机智能体框架,通过提供通用交互接口加速构建,能集成到操作系统自动执行任务,学习课程掌握应用程序操作能力

https://www.aminer.cn/pub/65cad4c5939a5f4082f3860b?fr=oc

Grounding 类:

论文名称

主要内容

论文链接

Navigating the Digital World as Humans Do

提出全新人类化视觉定位方法,通过视觉 grounding 模型使 GUI 智能体像人类一样感知环境,提升无文本输入时性能,基于 LLaVA 架构调整和网络合成数据训练视觉 grounding 模型

https://www.aminer.cn/pub/67049ca601d2a3fbfc08e270?fr=ndwa

OmniParser for Pure Vision Based GUI Agent

OmniParser 是通用纯视觉方法,将用户界面截图解析为结构化元素,含图标检测和功能描述微调模型,提高大型视觉语言模型在界面操作表现,提供通用屏幕解析方法辅助用户完成任务

https://www.aminer.cn/pub/66ac3e8501d2a3fbfc898589?fr=omni

SeeClick

构建基于大规模视觉语言模型(LVLM)的视觉 GUI 智能体 SeeClick,通过在 GUI grounding 数据上训练增强定位能力,可在多种 GUI 上根据指令定位操作元素,像人类一样视觉观察屏幕执行操作

https://www.aminer.cn/pub/65af2fe5939a5f4082fa4390?fr=click

Evaluation 类:

论文名称

主要内容

论文链接

Windows Agent Arena

用 Windows Agent Arena 评估多模态操作系统智能体,构建基于真实 Windows 操作系统的可扩展环境,实现任务自动化执行和基于结果评估,比传统人类演示评估更灵活高效。

https://www.aminer.cn/pub/66e3a00801d2a3fbfc96aa0f?fr=waa

AgentStudio

AgentStudio 是构建通用虚拟智能体的工具包,提供从环境到智能体、从数据到评估的完整解决方案,加速智能体发展。

https://www.aminer.cn/pub/66037e1213fb2c6cf6e8bbe9?fr=as

附上报道原文:“干货!” 看完这些论文你也能让AI操控电脑(附下载链接)

02「AI+手机」

AndroidLab:Phone Use 研究平台

AndroidLab 是一个全面的 Android 代理开发与评估平台,由北京智谱华章科技有限公司推出。它通过标准化的多模态操作环境、全面且可重现的基准测试和高效的训练工具,显著提升了开源模型在任务完成率和操作效率上的表现,尤其是在经过指令调优后,开源模型的性能接近甚至超过闭源模型。


附上报道原文:

AndroidLab:Phone Use 研究平台

03「AI+机器人」

3B模型打通机器人任督二脉!冲咖啡叠衣服都能干

只要一个3B参数的大模型,就能控制机器人,帮你搞定各种家务。叠衣服冲咖啡都能轻松拿捏,而且全都是由模型自主控制,不需要遥控。这些操作背后的大模型叫做π0,参数量只有3B,来自今年刚成立的初创公司Physical Intelligence(简称π)。有网友直言,π0控制的机器人,是他见过最接近真正的通用机器人的。π0不仅能控制机器人,还能控制不同的机器人,出色地完成这些任务。

附上报道原文:

3B模型打通机器人任督二脉!冲咖啡叠衣服都能干,7种形态适配,OpenAI也投了

04「AI+其他硬件形态」

AR眼镜将如何成为AI时代的新物种

XREAL创始人&CEO徐驰认为未来5到10年内,AR眼镜将逐步取代手机,成为新的主流终端设备。

AR眼镜与AI的结合:徐驰认为AR是AI最好的载体,AI需要数据,而眼镜作为用户采集数据的设备,能够了解用户的个性化数据,成为最大的、最佳的载体。同时,AI也是AR最好的交互方式,可以简化交互过程。

未来可以期待的:AR眼镜上面有一个很强大的AI智能助手,AI因为有了个性化数据,它可以给到你更精准的个人助手。

XREAL 作为全球 AR 眼镜市场领先者,主要面向欧美销售。学习苹果和大疆,重视自研核心高门槛技术,如显示模块和空间感知技术,投入大量研发资源,未来将通过技术创新带来体验升级,如芯片化创新,在芯片设计方面有一定优势且不断探索提升。


附上报道原文:

XREAL创始人CEO徐驰:未来5-10年,我们将见证眼镜取代手机


50万奖金池的AI+硬件创新大赛等你来战,详情请点击链接👇查看

https://modelscope.cn/brand/view/Mobile-Agent?branch=0&tree=3

相关文章
|
6天前
|
存储 人工智能 运维
面向AI的服务器计算软硬件架构实践和创新
阿里云在新一代通用计算服务器设计中,针对处理器核心数迅速增长(2024年超100核)、超多核心带来的业务和硬件挑战、网络IO与CPU性能增速不匹配、服务器物理机型复杂等问题,推出了磐久F系列通用计算服务器。该系列服务器采用单路设计减少爆炸半径,优化散热支持600瓦TDP,并实现CIPU节点比例灵活配比及部件模块化可插拔设计,提升运维效率和客户响应速度。此外,还介绍了面向AI的服务器架构挑战与软硬件结合创新,包括内存墙问题、板级工程能力挑战以及AI Infra 2.0服务器的开放架构特点。最后,探讨了大模型高效推理中的显存优化和量化压缩技术,旨在降低部署成本并提高系统效率。
|
6天前
|
人工智能 供应链 安全
面向高效大模型推理的软硬协同加速技术 多元化 AI 硬件引入评测体系
本文介绍了AI硬件评测体系的三大核心方面:统一评测标准、平台化与工具化、多维度数据消费链路。通过标准化评测流程,涵盖硬件性能、模型推理和训练性能,确保评测结果客观透明。平台化实现资源管理与任务调度,支持大规模周期性评测;工具化则应对紧急场景,快速适配并生成报告。最后,多维度数据消费链路将评测数据结构化保存,服务于综合通用、特定业务及专业性能分析等场景,帮助用户更好地理解和使用AI硬件。
|
1月前
|
人工智能 算法 搜索推荐
2024 “AI+硬件创新大赛”获奖名单出炉,浙大、上交与复旦联队等夺冠
2024年11月30日,由开放源子开源基金会主办,魔搭社区、英特尔与阿里云共同承办的“AI+硬件创新大赛”总决赛在杭州圆满落幕。
2024 “AI+硬件创新大赛”获奖名单出炉,浙大、上交与复旦联队等夺冠
|
2月前
|
人工智能 机器人 信息无障碍
11月30日“2024 AI+硬件创新大赛”决赛-杭州西湖体育馆见!
探索AI硬件创新,28强团队决战杭州西湖体育馆
11月30日“2024 AI+硬件创新大赛”决赛-杭州西湖体育馆见!
|
2月前
|
传感器 人工智能 机器人
|
2月前
|
人工智能 分布式计算 数据可视化
大模型私有化部署全攻略:硬件需求、数据隐私、可解释性与维护成本挑战及解决方案详解,附示例代码助你轻松实现企业内部AI应用
【10月更文挑战第23天】随着人工智能技术的发展,企业越来越关注大模型的私有化部署。本文详细探讨了硬件资源需求、数据隐私保护、模型可解释性、模型更新和维护等方面的挑战及解决方案,并提供了示例代码,帮助企业高效、安全地实现大模型的内部部署。
253 1
|
2月前
|
人工智能 分布式计算 数据可视化
大模型私有化部署全攻略:硬件需求、数据隐私、可解释性与维护成本挑战及解决方案详解,附示例代码助你轻松实现企业内部AI应用
【10月更文挑战第23天】随着人工智能技术的发展,大模型在各领域的应用日益广泛。然而,将其私有化部署到企业内部面临诸多挑战,如硬件资源需求高、数据隐私保护、模型可解释性差、更新维护成本高等。本文探讨了这些挑战,并提出了优化硬件配置、数据加密、可视化工具、自动化更新机制等解决方案,帮助企业顺利实现大模型的私有化部署。
146 1
|
3月前
|
人工智能 机器人 中间件
AI+硬件最新资讯合集(2024-10-28第1期)
AI与硬件的结合正逐步改变我们的生活方式,本期合集将带您了解AI+硬件的最新动态:
|
11天前
|
机器学习/深度学习 人工智能 自动驾驶
企业内训|AI大模型在汽车行业的前沿应用研修-某汽车集团
本课程是TsingtaoAI为某汽车集团高级项目经理设计研发,课程全面系统地解析AI的发展历程、技术基础及其在汽车行业的深度应用。通过深入浅出的理论讲解、丰富的行业案例分析以及实战项目训练,学员将全面掌握机器学习、深度学习、NLP与CV等核心技术,了解自动驾驶、智能制造、车联网与智能营销等关键应用场景,洞悉AI技术对企业战略布局的深远影响。
147 97
|
1天前
|
机器学习/深度学习 人工智能 算法
AI在体育分析与预测中的深度应用:变革体育界的智能力量
AI在体育分析与预测中的深度应用:变革体育界的智能力量
48 31