谷歌推出通用AI代理:能自动执行600多种动作,游玩复杂3D游戏

简介: 谷歌DeepMind的SIMA项目旨在创建一个通用AI代理,该代理能在多种3D环境中执行复杂任务,通过语言指令与环境交互。目标是让AI理解并执行600多种动作,包括导航和建造等。使用多样化的3D环境训练,结合零基础训练和预训练模型,如SPARC和Phenaki,以增强语言理解和行动执行。评估方法多角度,包括人类评估,但也面临效率和成本挑战。项目注重伦理安全,但AI在复杂环境中的性能仍有提升空间。DeepMind将继续优化代理的鲁棒性,扩大研究范围,以推动通用人工智能的发展。

eb5603e64a1f8e9b4f4071027b026875.jpg
在人工智能领域,谷歌DeepMind的研究团队再次引起了业界的广泛关注。他们最新推出的SIMA(Scalable, Instructable, Multiworld Agent)项目,旨在打造一个能够在多种虚拟3D环境中执行复杂任务的通用AI代理。这一项目的核心理念是让AI代理通过语言指令与环境互动,实现类似于人类的感知和行为能力。

SIMA项目的目标非常宏大,它不仅要求AI代理能够理解和执行人类的语言指令,还要求它能够在各种3D环境中灵活运用这些指令,完成包括导航、操作物体、战斗、建造等在内的600多种动作。这意味着,SIMA代理不仅要具备高度的语言理解能力,还要能够将这些抽象的指令转化为具体的行动。

为了实现这一目标,DeepMind团队选择了多种3D环境进行训练,包括研究环境和商业视频游戏。这些环境的多样性和复杂性为AI代理提供了丰富的学习材料。通过在这些环境中的实践,SIMA代理能够学习到如何将语言指令与视觉信息相结合,从而在没有明确指令的情况下也能自主完成任务。

SIMA代理的架构设计也是项目成功的关键。它结合了从零开始训练的组件和预训练模型,如SPARC和Phenaki,这些模型在细粒度图像文本对齐和视频预测方面有着出色的表现。通过行为克隆和视频预测的进一步微调,SIMA代理能够更好地理解和响应语言指令。

在评估方面,DeepMind团队采用了多种评估方法,包括基于行动日志概率的评估、静态视觉输入评估、基于地面真实性的评估、光学字符识别(OCR)评估和人类评估。这些方法各有优势,但也存在效率、成本、准确性和覆盖范围的权衡。例如,人类评估虽然最为全面,但也最耗时和昂贵。

SIMA项目在伦理和安全方面也进行了深思熟虑。DeepMind团队遵循结构化的方法来开发负责任的模型,以识别、衡量和管理可预见的伦理和安全挑战。他们确保SIMA项目的社会利益大于风险,并且适当的风险缓解措施得到纳入。

尽管SIMA项目取得了初步的成功,但DeepMind团队清楚地认识到,AI代理在复杂环境中的表现仍有待提高。在商业视频游戏等更复杂的环境中的应用中,代理的表现相对较低,而在相对简单的研究环境中表现更好。这表明,AI代理在理解和执行复杂任务方面还有很大的提升空间。

未来,DeepMind团队计划通过扩展游戏和环境组合、提高代理的鲁棒性和可控性、利用日益高质量的预训练模型,以及开发更全面和严格控制的评估来推进SIMA项目。他们相信,通过这些努力,SIMA将成为一个理想的平台,用于在复杂环境中安全地进行关于语言和预训练模型的前沿研究,从而帮助解决通用人工智能的一个基本挑战。同时,他们的研究也有可能丰富未来基础模型的学习体验和部署环境,将大型语言模型的抽象能力具体化到具现环境中。

技术报告:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/sima-generalist-ai-agent-for-3d-virtual-environments/Scaling%20Instructable%20Agents%20Across%20Many%20Simulated%20Worlds.pdf

目录
相关文章
|
1月前
|
人工智能 vr&ar
AIGC领域又有大动作了!AI视频“黑马”Morph Studio 来袭,1080P高清画质视频免费生成!
AIGC领域又有大动作了!AI视频“黑马”Morph Studio 来袭,1080P高清画质视频免费生成!
|
1月前
|
人工智能 自然语言处理 IDE
被 AI 写的游戏代码砸中是什么感觉 | 10 分钟打造你的超级 AI 编码助手
被 AI 写的游戏代码砸中是什么感觉 | 10 分钟打造你的超级 AI 编码助手
|
4天前
|
人工智能 NoSQL 安全
MongoDB观点:让生成式AI成为业务增长的新动能,游戏公司可以这样做
生成式AI技术将深刻地改变人们的生活和企业运营方式
|
10天前
|
人工智能 前端开发 Java
Java语言开发的AI智慧导诊系统源码springboot+redis 3D互联网智导诊系统源码
智慧导诊解决盲目就诊问题,减轻分诊工作压力。降低挂错号比例,优化就诊流程,有效提高线上线下医疗机构接诊效率。可通过人体画像选择症状部位,了解对应病症信息和推荐就医科室。
151 10
|
30天前
|
人工智能 JavaScript 前端开发
中国象棋AI在线对弈游戏源码
植物大战僵尸Javascript版web游戏源码,非常强大,1比1还原电脑版植物大战僵尸游戏,带背景音乐,玩法和原版一模一样。
25 0
|
1月前
|
人工智能 移动开发 算法
中国象棋AI在线对弈游戏源码
这是一款html5小游戏,主要功能在于js,带一套皮肤、内置ai算法,有能力的可以自行修改。
71 0
中国象棋AI在线对弈游戏源码
|
1月前
|
人工智能 异构计算 Python
字节跳动最新研究AI项目:一张图片组合一组动作就可以生成毫无违和感的视频!
字节跳动最新研究AI项目:一张图片组合一组动作就可以生成毫无违和感的视频!
|
1月前
|
人工智能 API
谷歌SIMA:一种适用于 3D 虚拟环境的通用 AI 智能体
【2月更文挑战第24天】谷歌SIMA:一种适用于 3D 虚拟环境的通用 AI 智能体
44 1
谷歌SIMA:一种适用于 3D 虚拟环境的通用 AI 智能体
|
1月前
|
人工智能 信息无障碍 UED
网易AI Eyes获得iF设计奖,盲人也能“亲眼”玩游戏!
【2月更文挑战第17天】网易AI Eyes获得iF设计奖,盲人也能“亲眼”玩游戏!
34 2
网易AI Eyes获得iF设计奖,盲人也能“亲眼”玩游戏!
|
1月前
|
人工智能 安全 搜索推荐
OpenAI、谷歌、微软、Meta联名签署AI公开信
【2月更文挑战第16天】OpenAI、谷歌、微软、Meta联名签署AI公开信
22 2
OpenAI、谷歌、微软、Meta联名签署AI公开信