DeepMind两篇新论文研究用神经网络做关系推理，探索人类智慧核心

2018-01-16 872

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本文来自AI新媒体量子位（QbitAI）

关系推理是什么？DeepMind举了这么几个例子：

阿加莎·克里斯蒂小说的读者一点点地拼凑证据猜测犯人；小朋友追到球的前边防止它滚进河里；在市场上买东西的人做各方面的比较，挑选猕猴桃或者芒果。

最近，这家公司发表了两篇论文，探讨了神经网络如何用非结构化数据进行复杂关系推理，并在官方博客上对这个研究课题和两篇论文进行了介绍。

以下是DeepMind官方博客上的文章，量子位编译：

我们会将世界分割成事物之间的关系。通过对不同事物，例如实体对象、语句，甚至抽象概念之间的关系得出逻辑结论，我们就可以理解世界的运转方式。这种能力被称作关系推理，是人类智慧的核心。

通过每天获得的非结构化感官信息，我们建立起这样的关系。例如，我们的眼睛接受了大量光子，而大脑则将这些混乱的信息组成为我们需要关联在一起的特定实体。

如果希望人工智能系统具备类似人类认知能力的灵活性和效率，那么关键挑战在于，从非结构化数据中推断出实体及其之间的关系。这个问题的解决将使系统可以生成新的实体组合，基于有限的方法获得无限的用途。

当代深度学习方法已经在处理非结构化数据方面取得了巨大进展。然而，这些方法往往没有明确考虑对象之间的关系。

在两篇新论文中，DeepMind探讨了深度神经网络利用非结构化数据进行复杂关系推理的能力。在第一篇论文，《用于简单关系推理的神经网络模块》中，我们描述了一种关系网络（RN），并证明其可以在具有挑战性的任务中实现超人的水平。在第二篇论文，《视觉交互网络》中，我们描述了一种通用模型，可基于视觉观察来预测实体对象的未来状态。

用于简单关系推理的神经网络模块

为了更深入地探索关系推理的概念，并测试能否以简单的方式将其集成至现有系统中，我们创建了一个简单的、即插即用的RN模块，并将其添加到现有神经网络体系结构中。一个经过RN增强的网络可以接受非结构化的数据输入，例如图片或语句，并推断其中所包含对象的关系。

例如，一个带RN的网络可能会看到包含不同形状的场景，例如球体和立方体。为了研究它们之间的关系（例如球体比立方体更大），网络必须从图像中获取非结构化的像素流，并指出在场景中哪些像素构成了对象。神经网络并没有被告知对象的定义，必须自己得出结论。随后，这些对象的展示经过了分组（例如球体和立方体），并由RN模块进行处理。RN模块比较这些对象，建立“关系”（例如球体比立方体更大）。这些关系并不是硬编码的，必须由RN来学习，RN对所有可能的配对进行了比较。最终，RN将这些关系综合在一起，为场景中的所有图形对生成输出。

我们在几种任务中测试了这个模型，包括CLEVR，一个视觉问答任务。CLEVR设计用于研究模型完成不同类型推理，例如计数、比较和查询的能力。CLEVR由以下这样的图片构成：

每张图片都有其关联的问题，专注于场景中对象的关系。例如，关于上图的问题或许是：“这里有个小橡胶品，和大圆柱体的颜色一样，它是什么形状？”

基于标准视觉问答架构，CLEVR取得的最佳成绩是正确率68.5%，而人类的成绩为92.5%。然而，通过由RN增强的网络，我们取得了超人的水平：95.5%。

为了检查RN的普适性，我们还在不同的语言任务中测试了RN。具体来说，我们使用了bAbI套件，即一系列基于文字的问答任务。bAbI由许多故事组成，这些故事包含许多不同语句，最后引出一个问题。例如，句子可能是“桑德拉拿起足球”和“桑德拉去办公室”，问题可能是“足球在哪里？”答案当然是：办公室。

在20个bAbI任务中的18个中，经过RN增强的网络得分超过95%，类似于当前最强大的模型。值得注意的是，在某些特定任务，例如归纳方面，这种网络的得分更高。而这是那些成熟模型所无法做到的。

完整的测试结果和更多信息可以参阅这篇论文。

视觉交互网络

关系推理的另一个关键部分涉及到在现实场景中预测未来。简单来说，人类不仅可以推断出对象在哪里，还能判断接下来几秒钟、几分钟、甚至更长时间里会发生什么。举个例子，如果你对着墙踢足球，那么大脑会预测，当球撞到墙之后，将会有什么样的运动方式（球的反弹速度和你踢的力度成正比，而在大部分情况下，墙都会纹丝不动）。

这样的预测由复杂的认知系统来指导，可以实现对象及其互动过程的推理。

在这方面，我们开发了视觉交互网络（VIN），这种模型模仿了人类的这一能力。VIN能从几帧视频中推断出多个实体对象的状态，随后预测这些对象接下来的变化。这与生成模型不同，后者可以直观地“想象”视频接下来的几帧。相反，VIN关于对象的预测基于状态如何演化。

VIN包含两种机制：视觉模块和物理推理模块。它们可以将可视场景处理为一系列离散的对象，并学习其中的物理规则系统，从而预测这些对象未来会发生什么。

我们测试了VIN在各种系统上的能力，包括球的弹跳、连接至弹簧的重物，以及存在重力作用的行星系统。结果表明，VIN能准确预测，未来数百步之后对象将会发生什么。

与此前公开发表的模型，以及关系推理机制被移除的VIN相比，可以看到完整的VIN有明显更好的表现。

这两篇论文都展示了有前景的方式，来理解关系推理的挑战。它们展示了神经网络如何将世界分解成对象，判断其关系，从而获得强大的推理能力。这使得神经网络可以生成新的对象组合，对表面上看起来不同，但实际有着潜在共同关系的场景进行推理。

我们认为，这些方法是可扩展的，可应用于更多任务，有助于建立更复杂的推理模型，使我们更好地理解通用人类智力的关键组成部分，尽管我们认为这些能力是理所当然的。

DeepMind两篇新论文研究用神经网络做关系推理，探索人类智慧核心

用于简单关系推理的神经网络模块

视觉交互网络

相关链接

量子位

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

DeepMind两篇新论文研究用神经网络做关系推理，探索人类智慧核心

用于简单关系推理的神经网络模块

视觉交互网络

相关链接

量子位

热门文章

最新文章

相关课程

相关电子书

相关实验场景