谷歌推出通用AI代理:能自动执行600多种动作,游玩复杂3D游戏

简介: 谷歌DeepMind的SIMA项目旨在创建一个通用AI代理,该代理能在多种3D环境中执行复杂任务,通过语言指令与环境交互。目标是让AI理解并执行600多种动作,包括导航和建造等。使用多样化的3D环境训练,结合零基础训练和预训练模型,如SPARC和Phenaki,以增强语言理解和行动执行。评估方法多角度,包括人类评估,但也面临效率和成本挑战。项目注重伦理安全,但AI在复杂环境中的性能仍有提升空间。DeepMind将继续优化代理的鲁棒性,扩大研究范围,以推动通用人工智能的发展。

eb5603e64a1f8e9b4f4071027b026875.jpg
在人工智能领域,谷歌DeepMind的研究团队再次引起了业界的广泛关注。他们最新推出的SIMA(Scalable, Instructable, Multiworld Agent)项目,旨在打造一个能够在多种虚拟3D环境中执行复杂任务的通用AI代理。这一项目的核心理念是让AI代理通过语言指令与环境互动,实现类似于人类的感知和行为能力。

SIMA项目的目标非常宏大,它不仅要求AI代理能够理解和执行人类的语言指令,还要求它能够在各种3D环境中灵活运用这些指令,完成包括导航、操作物体、战斗、建造等在内的600多种动作。这意味着,SIMA代理不仅要具备高度的语言理解能力,还要能够将这些抽象的指令转化为具体的行动。

为了实现这一目标,DeepMind团队选择了多种3D环境进行训练,包括研究环境和商业视频游戏。这些环境的多样性和复杂性为AI代理提供了丰富的学习材料。通过在这些环境中的实践,SIMA代理能够学习到如何将语言指令与视觉信息相结合,从而在没有明确指令的情况下也能自主完成任务。

SIMA代理的架构设计也是项目成功的关键。它结合了从零开始训练的组件和预训练模型,如SPARC和Phenaki,这些模型在细粒度图像文本对齐和视频预测方面有着出色的表现。通过行为克隆和视频预测的进一步微调,SIMA代理能够更好地理解和响应语言指令。

在评估方面,DeepMind团队采用了多种评估方法,包括基于行动日志概率的评估、静态视觉输入评估、基于地面真实性的评估、光学字符识别(OCR)评估和人类评估。这些方法各有优势,但也存在效率、成本、准确性和覆盖范围的权衡。例如,人类评估虽然最为全面,但也最耗时和昂贵。

SIMA项目在伦理和安全方面也进行了深思熟虑。DeepMind团队遵循结构化的方法来开发负责任的模型,以识别、衡量和管理可预见的伦理和安全挑战。他们确保SIMA项目的社会利益大于风险,并且适当的风险缓解措施得到纳入。

尽管SIMA项目取得了初步的成功,但DeepMind团队清楚地认识到,AI代理在复杂环境中的表现仍有待提高。在商业视频游戏等更复杂的环境中的应用中,代理的表现相对较低,而在相对简单的研究环境中表现更好。这表明,AI代理在理解和执行复杂任务方面还有很大的提升空间。

未来,DeepMind团队计划通过扩展游戏和环境组合、提高代理的鲁棒性和可控性、利用日益高质量的预训练模型,以及开发更全面和严格控制的评估来推进SIMA项目。他们相信,通过这些努力,SIMA将成为一个理想的平台,用于在复杂环境中安全地进行关于语言和预训练模型的前沿研究,从而帮助解决通用人工智能的一个基本挑战。同时,他们的研究也有可能丰富未来基础模型的学习体验和部署环境,将大型语言模型的抽象能力具体化到具现环境中。

技术报告:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/sima-generalist-ai-agent-for-3d-virtual-environments/Scaling%20Instructable%20Agents%20Across%20Many%20Simulated%20Worlds.pdf

目录
相关文章
|
4天前
|
人工智能 机器人 API
【通义】AI视界|谷歌Q3财报:Gemini API六个月增长14倍,公司超25%的新代码由AI生成
本文内容由通义自动生成,涵盖谷歌Q3财报、马斯克xAI融资、九巨头联盟挑战英伟达、Meta加大AI投入及麻省理工研究LLM与人脑相似性等热点资讯。更多精彩内容,请访问通通知道。
|
3天前
|
人工智能 自然语言处理 算法
【通义】AI视界|OpenAI最新发布!ChatGPT搜索功能强势来了,挑战谷歌?
本文由【通义】自动生成,精选24小时内的重要资讯:OpenAI推出ChatGPT搜索功能挑战谷歌,微软披露130亿美元投资OpenAI,Reddit首次盈利股价暴涨20%,软银CEO孙正义看好英伟达及“超级AI”前景,谷歌云与沙特PIF共建全球AI中心。更多内容请访问通通知道。
|
11天前
|
人工智能 安全 芯片
【通义】AI视界|谷歌 Tensor G5 芯片揭秘:1+5+2 八核 CPU,支持光线追踪
本文由【通义】自动生成,涵盖黄仁勋宣布台积电协助修复Blackwell AI芯片设计缺陷、苹果分阶段推出Apple Intelligence、OpenAI保守派老将辞职、英伟达深化与印度合作推出印地语AI模型,以及谷歌Tensor G5芯片支持光线追踪等最新科技资讯。点击链接或扫描二维码,获取更多精彩内容。
|
13天前
|
人工智能 自然语言处理 搜索推荐
【通义】AI视界|微软Copilot Studio推出新功能,帮助企业更便捷地构建和部署AI代理
本文介绍了近期科技领域的五大重要动态:马斯克旗下xAI发布首个API,苹果内部研究显示ChatGPT比Siri准确率高25%,微软Copilot Studio推出新功能,霍尼韦尔与谷歌合作引入Gemini AI,浑水创始人建议买入科技七巨头股票。更多资讯请访问【通义】。
|
2月前
|
存储 人工智能 测试技术
Minstrel自动生成结构化提示,让AI为AI写提示词的多代理提示生成框架
在人工智能迅速发展的背景下,有效利用大型语言模型(LLMs)成为重要议题。9月发布的这篇论文提出了LangGPT结构化提示框架和Minstrel多代理提示生成系统,旨在帮助非AI专家更好地使用LLMs。LangGPT通过模块化设计提高提示的泛化能力和可重用性,Minstrel则通过多代理协作自动生成高质量提示。实验结果显示,这两种方法显著提升了LLMs的性能,特别是在大规模模型上效果显著。
69 2
Minstrel自动生成结构化提示,让AI为AI写提示词的多代理提示生成框架
|
20天前
|
机器学习/深度学习 人工智能 JSON
微信小程序原生AI运动(动作)检测识别解决方案
近年来,疫情限制了人们的出行,却推动了“AI运动”概念的兴起。AI运动已在运动锻炼、体育教学、线上主题活动等多个场景中广泛应用,受到互联网用户的欢迎。通过AI技术,用户可以在家中进行有效锻炼,学校也能远程监督学生的体育活动,同时,云上健身活动形式多样,适合单位组织。该方案成本低、易于集成和扩展,已成功应用于微信小程序。
|
23天前
|
人工智能 自然语言处理 安全
Gemini 人工智能:谷歌AI重磅来袭!好消息,国内可用
Gemini 是 Google 🧠 开发的革命性人工智能模型,旨在打造一个功能强大的多模态 AI 系统。
|
25天前
|
人工智能 搜索推荐 算法
【通义】AI视界|强制谷歌交出私有AI模型数据?美政府要对谷歌进行重大拆分
本文精选了24小时内的重要科技新闻,包括OpenAI董事会考虑采用PBC公司模式、o1推理模型贡献者Luke Metz离职、美国政府计划拆分谷歌、苹果AI功能遭质疑及股票评级下调、AI教父杰弗里·辛顿对其学生解雇OpenAI CEO感到自豪等内容。此外,文章还探讨了PBC模式对OpenAI的影响及其在法律和商业实践中的潜在挑战。点击[通义官网](https://tongyi.aliyun.com/qianwen?spm=a2c6h.13046898.publish-article.10.5ff66ffaj8oqp3&code=cykjlxy964)体验更多功能。
|
2月前
|
人工智能 搜索推荐 安全
【通义】AI视界|苹果和谷歌受罚,欧盟监管部门“连斩”美国科技巨头。
苹果前设计官乔尼·艾夫确认正与OpenAI合作开发AI硬件,结合其设计经验与OpenAI技术,预期将推出革新智能设备。同时,苹果和谷歌因税务与垄断问题遭欧盟处罚,显示欧盟加强监管科技巨头。此外,新版Siri将在AI加持下于明年推出,提供更流畅的交互体验。微软则与上海医疗机构合作,运用AI辅助阿尔茨海默症治疗。最后,三哩岛核电站重启以满足微软数据中心的电力需求。
|
3天前
|
机器学习/深度学习 人工智能 供应链
AI技术在医疗领域的应用与未来展望###
本文深入探讨了人工智能(AI)技术在医疗领域的多种应用及其带来的革命性变化,从疾病诊断、治疗方案优化到患者管理等方面进行了详细阐述。通过具体案例和数据分析,展示了AI如何提高医疗服务效率、降低成本并改善患者体验。同时,文章也讨论了AI技术在医疗领域面临的挑战和未来发展趋势,为行业从业者和研究人员提供参考。 ###

热门文章

最新文章