DeepMind新论文:3D环境中教AI学人话,还要用形式语言指挥它们

简介:
本文来自AI新媒体量子位(QbitAI)

最近,DeepMind发了两篇论文,一篇是关于教AI学语言的Grounded Language Learning in a Simulated 3D World,另一篇,是关于用形式语言指挥AI智能体行动的Programmable Agents

我们先说说AI学语言这件事。

想想我们每天的生活,AI帮我们做了越来越多的决定,小到看哪些新闻,大到该买什么股票。甚至有时候,还会让AI直接替我们采取行动。

不过,这也带来了一个越来越紧迫的需求:用人话和AI沟通,指挥和引导它们。

也就是说,得让AI真的懂人话。

什么是真的懂呢?简单来说,就是让agent能把语言和它的行为、所处的世界关联起来。

DeepMind在论文摘要中用两个词来形容他们想让agent学语言学到什么程度:

grounded,也就是有基础、接地气,能把语言中的词和agent在环境中直接遇到的物品、经历的行为联系起来;

embodied,也就是能具体表达出来的。

但是,让AI学会接地气的语言很难。

DeepMind这篇论文描述了一个新方法:把agent放在一个虚拟3D环境中,如果它成功地正确执行了用人类语言写成的指令,就给奖励。

他们就是这样,用强化学习和无监督学习相结合,对agent进行训练,让它学习理解人类语言。

640?wx_fmt=png&wxfrom=5&wx_lazy=1

上图是DeepMind论文中所举的例子:一开始agent处于位置1,收到“把绿色物体旁边的红色物体捡起来”的指令,于是它把两个“房间”逛了一遍,去查看房间里的物体及其相对位置,找到了需要捡起来的物体。

这种探索、选择的行为,并没有预先编程,完全是借助激励机制学会的。

这样的探索训练有数十万种变体,agent会遇到不同的房间布局、不同的物体摆放位置等等。

在训练过程中,agent几乎没有先验知识,只是通过将语言符号和它周围物理环境中出现的感知表征和行为序列关联起来,来学习语言。

也正因为agent理解语言不依赖先前的经验,如果研究人员把agent放到一个完全陌生的环境中,用它学过的语言向它发出新的指令,这个agent一样能完成。

DeepMind的研究人员还发现,随着语义知识的积累,agent学习新词的速度越来越快。

他们认为,这种泛化和自我扩展语义知识的能力,说明他们现在所用的方法有潜力让AI agent理解模糊的自然语言与复杂的实体世界之间的关联。

640?wx_fmt=png&wxfrom=5&wx_lazy=1

关于具体的训练过程和原理,请移步论文:

Grounded Language Learning in a Simulated 3D World
https://arxiv.org/pdf/1706.06551.pdf
作者:Karl Moritz Hermann, Felix Hill, Simon Green, Fumin Wang, Ryan Faulkner, Hubert Soyer, David Szepesvari, Wojtek Czarnecki, Max Jaderberg, Denis Teplyashin, Marcus Wainwright, Chris Apps, Demis Hassabis, Phil Blunsom

上文提到的训练方法,是在一个3D虚拟环境中,让agent执行人类语言写成的指令。

在DeepMind另一批研究员同日发到Axriv的另一篇论文中,agent执行的是用简单的形式语言写成的指令,不过,这项研究让agent遇到从未见过的物体,也能灵活应对。

这篇论文的题目是:Programmable Agents。经验告诉我们,无论是新闻还是论文,标题越短事儿越大……当然,在AI研究领域,这个规则最近越来越受到怀疑。

我们先来看看这篇论文想让AI做什么。

简单来说,是让agent执行用形式语言表达的描述性程序。

在这项研究中,研究人员所设定的环境是一张大桌子,中间有一支带有6个关节的机械臂,周围有特定数量的积木块,出现在随机位置。

他们所做的,是让虚拟环境中的“机械臂”去够特定颜色、形状的积木,也就是把手(机械臂前端的白色部分),伸到目标积木块的附近。

而前面提到的“形式语言描述性程序”,是这样执行的:NEAR(HAND, AND(RED, CUBE)),表示把手伸到红色立方体附近。

形式语言中指定的,是目标的颜色和形状。在具体的程序中,桌面的大小、目标的数量也可能发生变化。

640?wx_fmt=png&wxfrom=5&wx_lazy=1

在上图中,最左边一幅的“伸向蓝色球形”是训练环节,其他三幅展示了agent经过这种训练之后的泛化能力,包括目标性质的变化(左二:伸向红色积木)、环境中物体数量的变化(右二:伸向绿色球体,注意这里桌上多了好多积木)、以及新目标性质的出现(右一:伸向新的红色积木)。

DeepMind的这组研究人员称,他们训练的agent学会了根据这种语言的指令在所处环境中找到目标之后,在测试中可以对这种能力进行泛化,执行新的程序,找到在训练中从未提及的目标。他们的agent可以泛化到大范围的zero-shot语义任务。

640?wx_fmt=png&wxfrom=5&wx_lazy=1

具体的训练过程和原理,还是请移步论文:

Programmable Agents
https://arxiv.org/pdf/1706.06383.pdf
Misha Denil, Sergio Gómez Colmenarejo, Serkan Cabi, David Saxton, Nando de Freitas

【完】

本文作者:李林
原文发布时间:2017-06-23
相关文章
|
1月前
|
人工智能 自然语言处理 文字识别
阿里推出AnyText: 解决AI绘图不会写字的问题,可以任意指定文字位置,且支持多国语言!
【2月更文挑战第17天】阿里推出AnyText: 解决AI绘图不会写字的问题,可以任意指定文字位置,且支持多国语言!
124 2
阿里推出AnyText: 解决AI绘图不会写字的问题,可以任意指定文字位置,且支持多国语言!
|
6天前
|
人工智能 前端开发 Java
Java语言开发的AI智慧导诊系统源码springboot+redis 3D互联网智导诊系统源码
智慧导诊解决盲目就诊问题,减轻分诊工作压力。降低挂错号比例,优化就诊流程,有效提高线上线下医疗机构接诊效率。可通过人体画像选择症状部位,了解对应病症信息和推荐就医科室。
48 10
|
30天前
|
人工智能 文字识别 安全
谷歌推出通用AI代理:能自动执行600多种动作,游玩复杂3D游戏
谷歌DeepMind的SIMA项目旨在创建一个通用AI代理,该代理能在多种3D环境中执行复杂任务,通过语言指令与环境交互。目标是让AI理解并执行600多种动作,包括导航和建造等。使用多样化的3D环境训练,结合零基础训练和预训练模型,如SPARC和Phenaki,以增强语言理解和行动执行。评估方法多角度,包括人类评估,但也面临效率和成本挑战。项目注重伦理安全,但AI在复杂环境中的性能仍有提升空间。DeepMind将继续优化代理的鲁棒性,扩大研究范围,以推动通用人工智能的发展。
21 2
谷歌推出通用AI代理:能自动执行600多种动作,游玩复杂3D游戏
|
1月前
|
机器学习/深度学习 人工智能
ChatGPT检测器——以前所未有的准确性捕捉AI生成的论文
【2月更文挑战第25天】ChatGPT检测器——以前所未有的准确性捕捉AI生成的论文
24 7
ChatGPT检测器——以前所未有的准确性捕捉AI生成的论文
|
1月前
|
人工智能
【SCI论文】“学术丑闻揭露:当AI写作遭遇学术审稿,ChatGPT意外成为论文共作者!“
最近,一篇发表在《Surfaces and Interfaces》的论文引起了广泛关注,因为其中意外包含了ChatGPT的提示语,暴露出学术审稿过程中的疏忽。这篇论文讨论了铜基金属-有机框架-芳香族纤维素分隔器对锂金属阳极电池的影响,但却出现了不该出现的ChatGPT对话内容。这一事件不仅令人哭笑不得,还引发了对学术审核严谨性的质疑。它反映了当前学术界可能过度依赖AI写作工具,忽略了基本的检查和编辑步骤。这一事件提醒学术界必须加强审查机制和自律,确保论文质量,防止类似尴尬情况的再次发生。
106 4
【SCI论文】“学术丑闻揭露:当AI写作遭遇学术审稿,ChatGPT意外成为论文共作者!“
|
1月前
|
人工智能 自然语言处理 NoSQL
悦数图数据库推出 AI 知识图谱构建器及图语言生成助手
随着人工智能应用在全球范围的普及和风靡,大语言模型技术(Large Language Model,简称 LLM)受到了广泛的关注和应用。而图数据库作为一种处理复杂数据结构的工具,能够为企业构建行业大语言模型提供强大的支持,包括丰富亿万级别的上下文信息,提升模型的应答精度,从而实现企业级的应用效果。同时,Graph+LLM 可以助力快速构建知识图谱,帮助企业更深入地理解和挖掘数据价值。
|
1月前
|
人工智能 API
谷歌SIMA:一种适用于 3D 虚拟环境的通用 AI 智能体
【2月更文挑战第24天】谷歌SIMA:一种适用于 3D 虚拟环境的通用 AI 智能体
42 1
谷歌SIMA:一种适用于 3D 虚拟环境的通用 AI 智能体
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
构建高效智能对话系统:AI在语言理解中的创新应用
【2月更文挑战第16天】 随着人工智能技术的不断进步,智能对话系统已成为日常生活和商业活动中的一个不可或缺的组成部分。本文深入探讨了如何通过自然语言处理(NLP)技术,特别是深度学习模型,来构建一个能够准确理解用户意图并提供有效响应的智能对话系统。文中将重点介绍最新的技术进展,包括注意力机制、Transformer架构以及预训练语言模型等关键技术,并讨论这些技术是如何推动智能对话系统的边界,使其更加贴近人类的交流方式。
23 1
|
1月前
|
机器学习/深度学习 人工智能 安全
DeepMind前成员推出Haiper:AI视频生成赛道再添新势力
【2月更文挑战第16天】DeepMind前成员推出Haiper:AI视频生成赛道再添新势力
96 2
DeepMind前成员推出Haiper:AI视频生成赛道再添新势力
|
1月前
|
机器学习/深度学习 人工智能 知识图谱
LeCun视觉世界模型论文,揭示AI学习物理世界的关键
【2月更文挑战第16天】LeCun视觉世界模型论文,揭示AI学习物理世界的关键
18 2
LeCun视觉世界模型论文,揭示AI学习物理世界的关键