谷歌推出通用AI代理:能自动执行600多种动作,游玩复杂3D游戏

简介: 谷歌DeepMind的SIMA项目旨在创建一个通用AI代理,该代理能在多种3D环境中执行复杂任务,通过语言指令与环境交互。目标是让AI理解并执行600多种动作,包括导航和建造等。使用多样化的3D环境训练,结合零基础训练和预训练模型,如SPARC和Phenaki,以增强语言理解和行动执行。评估方法多角度,包括人类评估,但也面临效率和成本挑战。项目注重伦理安全,但AI在复杂环境中的性能仍有提升空间。DeepMind将继续优化代理的鲁棒性,扩大研究范围,以推动通用人工智能的发展。

eb5603e64a1f8e9b4f4071027b026875.jpg
在人工智能领域,谷歌DeepMind的研究团队再次引起了业界的广泛关注。他们最新推出的SIMA(Scalable, Instructable, Multiworld Agent)项目,旨在打造一个能够在多种虚拟3D环境中执行复杂任务的通用AI代理。这一项目的核心理念是让AI代理通过语言指令与环境互动,实现类似于人类的感知和行为能力。

SIMA项目的目标非常宏大,它不仅要求AI代理能够理解和执行人类的语言指令,还要求它能够在各种3D环境中灵活运用这些指令,完成包括导航、操作物体、战斗、建造等在内的600多种动作。这意味着,SIMA代理不仅要具备高度的语言理解能力,还要能够将这些抽象的指令转化为具体的行动。

为了实现这一目标,DeepMind团队选择了多种3D环境进行训练,包括研究环境和商业视频游戏。这些环境的多样性和复杂性为AI代理提供了丰富的学习材料。通过在这些环境中的实践,SIMA代理能够学习到如何将语言指令与视觉信息相结合,从而在没有明确指令的情况下也能自主完成任务。

SIMA代理的架构设计也是项目成功的关键。它结合了从零开始训练的组件和预训练模型,如SPARC和Phenaki,这些模型在细粒度图像文本对齐和视频预测方面有着出色的表现。通过行为克隆和视频预测的进一步微调,SIMA代理能够更好地理解和响应语言指令。

在评估方面,DeepMind团队采用了多种评估方法,包括基于行动日志概率的评估、静态视觉输入评估、基于地面真实性的评估、光学字符识别(OCR)评估和人类评估。这些方法各有优势,但也存在效率、成本、准确性和覆盖范围的权衡。例如,人类评估虽然最为全面,但也最耗时和昂贵。

SIMA项目在伦理和安全方面也进行了深思熟虑。DeepMind团队遵循结构化的方法来开发负责任的模型,以识别、衡量和管理可预见的伦理和安全挑战。他们确保SIMA项目的社会利益大于风险,并且适当的风险缓解措施得到纳入。

尽管SIMA项目取得了初步的成功,但DeepMind团队清楚地认识到,AI代理在复杂环境中的表现仍有待提高。在商业视频游戏等更复杂的环境中的应用中,代理的表现相对较低,而在相对简单的研究环境中表现更好。这表明,AI代理在理解和执行复杂任务方面还有很大的提升空间。

未来,DeepMind团队计划通过扩展游戏和环境组合、提高代理的鲁棒性和可控性、利用日益高质量的预训练模型,以及开发更全面和严格控制的评估来推进SIMA项目。他们相信,通过这些努力,SIMA将成为一个理想的平台,用于在复杂环境中安全地进行关于语言和预训练模型的前沿研究,从而帮助解决通用人工智能的一个基本挑战。同时,他们的研究也有可能丰富未来基础模型的学习体验和部署环境,将大型语言模型的抽象能力具体化到具现环境中。

技术报告:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/sima-generalist-ai-agent-for-3d-virtual-environments/Scaling%20Instructable%20Agents%20Across%20Many%20Simulated%20Worlds.pdf

目录
相关文章
|
20天前
|
存储 人工智能 编解码
Pippo:Meta放出AI大招!单张照片秒转3D人像多视角视频,AI自动补全身体细节
Pippo 是 Meta 推出的图像到视频生成模型,能够从单张照片生成 1K 分辨率的多视角高清人像视频,支持全身、面部或头部的生成。
119 9
|
18天前
|
人工智能 算法 API
重磅:谷歌AI Gemini 2.0 Pro/Flash已来,国内用户怎么使用?
当人工智能的浪潮席卷全球,谷歌再次站在了时代的潮头。Gemini 2.0,这个名字如今已成为 AI 领域最耀眼的明星。它不仅仅是一个模型的升级,更代表着一场技术革命的开端。2024 年末,Gemini 2.0 Flash 以其疾风骤雨般的速度震撼登场,紧接着,2025 年初,Gemini 2.0 Pro 系列的发布,则将这场革命推向了高潮。谷歌正式宣告,我们已步入 Gemini 2.0 时代!
93 15
|
9天前
|
人工智能 监控 安全
AI代理平台选型与实施:五大关键步骤助你成功落地
AI代理平台选型与实施:五大关键步骤助你成功落地
|
9天前
|
人工智能 芯片 内存技术
谷歌Deepmind的CEO称Deepseek的AI模型是中国“最好的作品”,但炒作“夸大其词”
谷歌Deepmind的CEO称Deepseek的AI模型是中国“最好的作品”,但炒作“夸大其词”
|
12天前
|
数据采集 机器学习/深度学习 人工智能
Sitcom-Crafter:动画师失业警告!AI黑科技自动生成3D角色动作,剧情脚本秒变动画
Sitcom-Crafter 是一款基于剧情驱动的 3D 动作生成系统,通过多模块协同工作,支持人类行走、场景交互和多人交互,适用于动画、游戏及虚拟现实等领域。
90 4
|
18天前
|
人工智能 算法 API
谷歌AI Gemini 2.0 pro国内使用教程, 2025最新版!
在 2025 年 2 月初,谷歌又推出了 Gemini 2.0 Pro 系列模型,进一步巩固了其在 AI 领域的领先地位,同时也正式向外界宣告,我们进入了 Gemini 2.0 时代
136 5
|
7天前
|
人工智能 5G 数据库
D1net阅闻|谷歌被曝正使用Anthropic的Claude模型来改进其Gemini AI
D1net阅闻|谷歌被曝正使用Anthropic的Claude模型来改进其Gemini AI
|
9天前
|
人工智能 监控 Java
谷歌放弃AI武器禁令——这对AI的未来意味着什么
谷歌放弃AI武器禁令——这对AI的未来意味着什么
|
9天前
|
人工智能 运维 监控
CIO对AI代理持乐观态度,IT员工则不然
CIO对AI代理持乐观态度,IT员工则不然
|
机器学习/深度学习 人工智能 Kubernetes
【热点】谷歌的AI协同平台
关注公众号“达摩院首座”,了解开发者最真实生活
664 0
【热点】谷歌的AI协同平台

热门文章

最新文章