谷歌推出通用AI代理:能自动执行600多种动作,游玩复杂3D游戏

简介: 谷歌DeepMind的SIMA项目旨在创建一个通用AI代理,该代理能在多种3D环境中执行复杂任务,通过语言指令与环境交互。目标是让AI理解并执行600多种动作,包括导航和建造等。使用多样化的3D环境训练,结合零基础训练和预训练模型,如SPARC和Phenaki,以增强语言理解和行动执行。评估方法多角度,包括人类评估,但也面临效率和成本挑战。项目注重伦理安全,但AI在复杂环境中的性能仍有提升空间。DeepMind将继续优化代理的鲁棒性,扩大研究范围,以推动通用人工智能的发展。

eb5603e64a1f8e9b4f4071027b026875.jpg
在人工智能领域,谷歌DeepMind的研究团队再次引起了业界的广泛关注。他们最新推出的SIMA(Scalable, Instructable, Multiworld Agent)项目,旨在打造一个能够在多种虚拟3D环境中执行复杂任务的通用AI代理。这一项目的核心理念是让AI代理通过语言指令与环境互动,实现类似于人类的感知和行为能力。

SIMA项目的目标非常宏大,它不仅要求AI代理能够理解和执行人类的语言指令,还要求它能够在各种3D环境中灵活运用这些指令,完成包括导航、操作物体、战斗、建造等在内的600多种动作。这意味着,SIMA代理不仅要具备高度的语言理解能力,还要能够将这些抽象的指令转化为具体的行动。

为了实现这一目标,DeepMind团队选择了多种3D环境进行训练,包括研究环境和商业视频游戏。这些环境的多样性和复杂性为AI代理提供了丰富的学习材料。通过在这些环境中的实践,SIMA代理能够学习到如何将语言指令与视觉信息相结合,从而在没有明确指令的情况下也能自主完成任务。

SIMA代理的架构设计也是项目成功的关键。它结合了从零开始训练的组件和预训练模型,如SPARC和Phenaki,这些模型在细粒度图像文本对齐和视频预测方面有着出色的表现。通过行为克隆和视频预测的进一步微调,SIMA代理能够更好地理解和响应语言指令。

在评估方面,DeepMind团队采用了多种评估方法,包括基于行动日志概率的评估、静态视觉输入评估、基于地面真实性的评估、光学字符识别(OCR)评估和人类评估。这些方法各有优势,但也存在效率、成本、准确性和覆盖范围的权衡。例如,人类评估虽然最为全面,但也最耗时和昂贵。

SIMA项目在伦理和安全方面也进行了深思熟虑。DeepMind团队遵循结构化的方法来开发负责任的模型,以识别、衡量和管理可预见的伦理和安全挑战。他们确保SIMA项目的社会利益大于风险,并且适当的风险缓解措施得到纳入。

尽管SIMA项目取得了初步的成功,但DeepMind团队清楚地认识到,AI代理在复杂环境中的表现仍有待提高。在商业视频游戏等更复杂的环境中的应用中,代理的表现相对较低,而在相对简单的研究环境中表现更好。这表明,AI代理在理解和执行复杂任务方面还有很大的提升空间。

未来,DeepMind团队计划通过扩展游戏和环境组合、提高代理的鲁棒性和可控性、利用日益高质量的预训练模型,以及开发更全面和严格控制的评估来推进SIMA项目。他们相信,通过这些努力,SIMA将成为一个理想的平台,用于在复杂环境中安全地进行关于语言和预训练模型的前沿研究,从而帮助解决通用人工智能的一个基本挑战。同时,他们的研究也有可能丰富未来基础模型的学习体验和部署环境,将大型语言模型的抽象能力具体化到具现环境中。

技术报告:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/sima-generalist-ai-agent-for-3d-virtual-environments/Scaling%20Instructable%20Agents%20Across%20Many%20Simulated%20Worlds.pdf

目录
相关文章
|
16天前
|
机器学习/深度学习 人工智能 自然语言处理
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
谷歌最新推出的Gemini 2.0是一款原生多模态输入输出的AI模型,以Agent技术为核心,支持多种数据类型的输入与输出,具备强大的性能和多语言音频输出能力。本文将详细介绍Gemini 2.0的主要功能、技术原理及其在多个领域的应用场景。
121 20
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
|
16天前
|
人工智能 API 语音技术
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
TEN Agent 是一个开源的实时多模态 AI 代理框架,集成了 OpenAI Realtime API 和 RTC 技术,支持语音、文本和图像的多模态交互,具备实时通信、模块化设计和多语言支持等功能,适用于智能客服、实时语音助手等多种场景。
108 15
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
|
14天前
|
机器学习/深度学习 人工智能 算法
Meta Motivo:Meta 推出能够控制数字智能体动作的 AI 模型,提升元宇宙互动体验的真实性
Meta Motivo 是 Meta 公司推出的 AI 模型,旨在控制数字智能体的全身动作,提升元宇宙体验的真实性。该模型通过无监督强化学习算法,能够实现零样本学习、行为模仿与生成、多任务泛化等功能,适用于机器人控制、虚拟助手、游戏角色动画等多个应用场景。
45 4
Meta Motivo:Meta 推出能够控制数字智能体动作的 AI 模型,提升元宇宙互动体验的真实性
|
23天前
|
人工智能 编解码 网络架构
GenCast:谷歌DeepMind推出的AI气象预测模型
GenCast是由谷歌DeepMind推出的革命性AI气象预测模型,基于扩散模型技术,提供长达15天的全球天气预报。该模型在97.2%的预测任务中超越了全球顶尖的中期天气预报系统ENS,尤其在极端天气事件的预测上表现突出。GenCast能在8分钟内生成预报,显著提高预测效率,并且已经开源,包括代码和模型权重,支持更广泛的天气预报社区和研究。
137 14
GenCast:谷歌DeepMind推出的AI气象预测模型
|
15天前
|
人工智能 自然语言处理 API
Multimodal Live API:谷歌推出新的 AI 接口,支持多模态交互和低延迟实时互动
谷歌推出的Multimodal Live API是一个支持多模态交互、低延迟实时互动的AI接口,能够处理文本、音频和视频输入,提供自然流畅的对话体验,适用于多种应用场景。
64 3
Multimodal Live API:谷歌推出新的 AI 接口,支持多模态交互和低延迟实时互动
|
24天前
|
存储 人工智能 数据库
Codel:AI代理工具,支持在终端、浏览器、编辑器执行复杂任务和项目
Codel是一款全自主AI代理工具,支持在终端、浏览器和编辑器中执行复杂任务和项目。它运行在沙盒化的Docker环境中,具备自主操作能力,内置浏览器和文本编辑器,所有操作记录存储于PostgreSQL数据库。Codel能够自动完成复杂任务,如创建项目结构、进行网络搜索等,适用于自动化编程、研究与开发、教育与培训以及数据科学与分析等多个领域。
61 11
Codel:AI代理工具,支持在终端、浏览器、编辑器执行复杂任务和项目
|
24天前
|
人工智能 vr&ar
GeneMAN:上海AI Lab联合北大等高校推出的3D人体模型创建框架
GeneMAN是由上海AI实验室、北京大学、南洋理工大学和上海交通大学联合推出的3D人体模型创建框架。该框架能够从单张图片中生成高保真度的3D人体模型,适用于多种应用场景,如虚拟试衣、游戏和娱乐、增强现实和虚拟现实等。
53 7
GeneMAN:上海AI Lab联合北大等高校推出的3D人体模型创建框架
|
25天前
|
人工智能 自然语言处理 JavaScript
Agent-E:基于 AutoGen 代理框架构建的 AI 浏览器自动化系统
Agent-E 是一个基于 AutoGen 代理框架构建的智能自动化系统,专注于浏览器内的自动化操作。它能够执行多种复杂任务,如填写表单、搜索和排序电商产品、定位网页内容等,从而提高在线效率,减少重复劳动。本文将详细介绍 Agent-E 的功能、技术原理以及如何运行该系统。
80 5
Agent-E:基于 AutoGen 代理框架构建的 AI 浏览器自动化系统
|
11天前
|
人工智能 小程序 API
【一步步开发AI运动小程序】十七、如何识别用户上传视频中的人体、运动、动作、姿态?
【云智AI运动识别小程序插件】提供人体、运动、姿态检测的AI能力,支持本地原生识别,无需后台服务,具有速度快、体验好、易集成等优点。本文介绍如何使用该插件实现用户上传视频的运动识别,包括视频解码抽帧和人体识别的实现方法。
|
24天前
|
数据采集 人工智能 小程序
【一步步开发AI运动小程序】十、姿态动作相似度比较
本文介绍如何利用“云智AI运动识别小程序插件”开发AI运动小程序,重点讲解姿态动作相似度比较功能的运用,包括样本动作帧的采集和姿态相似度的计算方法,以及在组合运动中的应用实例。