谷歌推出通用AI代理:能自动执行600多种动作,游玩复杂3D游戏

简介: 谷歌DeepMind的SIMA项目旨在创建一个通用AI代理,该代理能在多种3D环境中执行复杂任务,通过语言指令与环境交互。目标是让AI理解并执行600多种动作,包括导航和建造等。使用多样化的3D环境训练,结合零基础训练和预训练模型,如SPARC和Phenaki,以增强语言理解和行动执行。评估方法多角度,包括人类评估,但也面临效率和成本挑战。项目注重伦理安全,但AI在复杂环境中的性能仍有提升空间。DeepMind将继续优化代理的鲁棒性,扩大研究范围,以推动通用人工智能的发展。

eb5603e64a1f8e9b4f4071027b026875.jpg
在人工智能领域,谷歌DeepMind的研究团队再次引起了业界的广泛关注。他们最新推出的SIMA(Scalable, Instructable, Multiworld Agent)项目,旨在打造一个能够在多种虚拟3D环境中执行复杂任务的通用AI代理。这一项目的核心理念是让AI代理通过语言指令与环境互动,实现类似于人类的感知和行为能力。

SIMA项目的目标非常宏大,它不仅要求AI代理能够理解和执行人类的语言指令,还要求它能够在各种3D环境中灵活运用这些指令,完成包括导航、操作物体、战斗、建造等在内的600多种动作。这意味着,SIMA代理不仅要具备高度的语言理解能力,还要能够将这些抽象的指令转化为具体的行动。

为了实现这一目标,DeepMind团队选择了多种3D环境进行训练,包括研究环境和商业视频游戏。这些环境的多样性和复杂性为AI代理提供了丰富的学习材料。通过在这些环境中的实践,SIMA代理能够学习到如何将语言指令与视觉信息相结合,从而在没有明确指令的情况下也能自主完成任务。

SIMA代理的架构设计也是项目成功的关键。它结合了从零开始训练的组件和预训练模型,如SPARC和Phenaki,这些模型在细粒度图像文本对齐和视频预测方面有着出色的表现。通过行为克隆和视频预测的进一步微调,SIMA代理能够更好地理解和响应语言指令。

在评估方面,DeepMind团队采用了多种评估方法,包括基于行动日志概率的评估、静态视觉输入评估、基于地面真实性的评估、光学字符识别(OCR)评估和人类评估。这些方法各有优势,但也存在效率、成本、准确性和覆盖范围的权衡。例如,人类评估虽然最为全面,但也最耗时和昂贵。

SIMA项目在伦理和安全方面也进行了深思熟虑。DeepMind团队遵循结构化的方法来开发负责任的模型,以识别、衡量和管理可预见的伦理和安全挑战。他们确保SIMA项目的社会利益大于风险,并且适当的风险缓解措施得到纳入。

尽管SIMA项目取得了初步的成功,但DeepMind团队清楚地认识到,AI代理在复杂环境中的表现仍有待提高。在商业视频游戏等更复杂的环境中的应用中,代理的表现相对较低,而在相对简单的研究环境中表现更好。这表明,AI代理在理解和执行复杂任务方面还有很大的提升空间。

未来,DeepMind团队计划通过扩展游戏和环境组合、提高代理的鲁棒性和可控性、利用日益高质量的预训练模型,以及开发更全面和严格控制的评估来推进SIMA项目。他们相信,通过这些努力,SIMA将成为一个理想的平台,用于在复杂环境中安全地进行关于语言和预训练模型的前沿研究,从而帮助解决通用人工智能的一个基本挑战。同时,他们的研究也有可能丰富未来基础模型的学习体验和部署环境,将大型语言模型的抽象能力具体化到具现环境中。

技术报告:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/sima-generalist-ai-agent-for-3d-virtual-environments/Scaling%20Instructable%20Agents%20Across%20Many%20Simulated%20Worlds.pdf

目录
相关文章
|
5月前
|
人工智能 自然语言处理 安全
从工具到伙伴:AI代理(Agent)是下一场革命
从工具到伙伴:AI代理(Agent)是下一场革命
566 117
|
6月前
|
存储 人工智能 搜索推荐
一种专为AI代理设计的内存层,能够在交互过程中记忆、学习和进化
Mem0 是专为 AI 代理设计的内存层,支持记忆、学习与进化。提供多种记忆类型,可快速集成,适用于开源与托管场景,助力 AI 代理高效交互与成长。
680 123
一种专为AI代理设计的内存层,能够在交互过程中记忆、学习和进化
|
6月前
|
存储 人工智能 运维
AI 网关代理 RAG 检索:Dify 轻松对接外部知识库的新实践
Higress AI 网关通过提供关键桥梁作用,支持 Dify 应用便捷对接业界成熟的 RAG 引擎。通过 AI 网关将 Dify 的高效编排能力与专业 RAG 引擎的检索效能结合,企业可在保留现有 Dify 应用资产的同时,有效规避其内置 RAG 的局限,显著提升知识驱动型 AI 应用的生产环境表现。
2901 116
|
5月前
|
人工智能 自然语言处理 供应链
超越聊天:AI代理——下一代人机交互的雏形
超越聊天:AI代理——下一代人机交互的雏形
365 22
|
6月前
|
人工智能 IDE 开发工具
CodeGPT AI代码狂潮来袭!个人完全免费使用谷歌Gemini大模型 超越DeepSeek几乎是地表最强
CodeGPT是一款基于AI的编程辅助插件,支持代码生成、优化、错误分析和单元测试,兼容多种大模型如Gemini 2.0和Qwen2.5 Coder。免费开放,适配PyCharm等IDE,助力开发者提升效率,新手友好,老手提效利器。(238字)
3112 1
CodeGPT AI代码狂潮来袭!个人完全免费使用谷歌Gemini大模型 超越DeepSeek几乎是地表最强
|
6月前
|
人工智能 算法 数据库
给AI装上一个'超级大脑':信息检索如何改变RAG系统的游戏规则
从传统检索方法到现代向量检索,通过一个购物助手的故事,直观展示了不同检索技术的原理与应用。学会这些技巧,让你的AI不再是「记忆只有金鱼长度」的大模型!
306 24
|
6月前
|
机器学习/深度学习 人工智能 算法
当AI提示词遇见精密算法:TimeGuessr如何用数学魔法打造文化游戏新体验
TimeGuessr融合AI与历史文化,首创时间与空间双维度评分体系,结合分段惩罚、Haversine距离计算与加权算法,辅以连击、速度与完美奖励机制,实现公平且富挑战性的游戏体验。
|
7月前
|
人工智能 JSON 程序员
别再和AI玩文字游戏:JSON提示工程让AI乖乖按表填空
厌倦了和AI玩猜谜游戏吗?JSON提示工程来拯救你!用咖啡订单的方式和AI对话,让每次交互都精准到位,告别模糊不清的回复,迎接可预测的AI输出时代。
399 9
|
8月前
|
存储 人工智能 自然语言处理
AI代理内存消耗过大?9种优化策略对比分析
在AI代理系统中,多代理协作虽能提升整体准确性,但真正决定性能的关键因素之一是**内存管理**。随着对话深度和长度的增加,内存消耗呈指数级增长,主要源于历史上下文、工具调用记录、数据库查询结果等组件的持续积累。本文深入探讨了从基础到高级的九种内存优化技术,涵盖顺序存储、滑动窗口、摘要型内存、基于检索的系统、内存增强变换器、分层优化、图形化记忆网络、压缩整合策略以及类操作系统内存管理。通过统一框架下的代码实现与性能评估,分析了每种技术的适用场景与局限性,为构建高效、可扩展的AI代理系统提供了系统性的优化路径和技术参考。
514 4
AI代理内存消耗过大?9种优化策略对比分析