DeepMind重磅:神经算术逻辑单元,Keras实现-阿里云开发者社区

开发者社区> 技术小能手> 正文

DeepMind重磅:神经算术逻辑单元,Keras实现

简介: DeepMind最新提出“神经算术逻辑单元”,旨在解决神经网络数值模拟能力不足的问题。与传统架构相比,NALU在训练期间的数值范围内和范围外都得到了更好的泛化。论文引起大量关注,本文附上大神的Keras实现。
+关注继续查看

【新智元导读】DeepMind最新提出“神经算术逻辑单元”,旨在解决神经网络数值模拟能力不足的问题。与传统架构相比,NALU在训练期间的数值范围内和范围外都得到了更好的泛化。论文引起大量关注,本文附上大神的Keras实现。

论文地址:
https://arxiv.org/pdf/1808.00508.pdf

在昆虫、哺乳动物和人类等许多物种的行为中,表示和操纵数值的能力都是显而易见的。这表明基本的定量推理是智能(intelligence)的一个基本组成部分。

虽然神经网络能够在给出适当的学习信号的情况下成功地表示和操纵数值量,但它们学习的行为通常不会表现出系统的泛化。具体来说,当在测试时遇到训练时使用的数值范围之外的数值时,即使目标函数很简单(例如目标函数仅取决于聚合计数或线性外推),也经常会出现失败。

这种失败表明,神经网络学习行为的特点是记忆,而不是系统的抽象。触发外推失败的输入分布变化是否具有实际意义,取决于训练过的模型将在何处运行。然而,有相当多的证据表明,像蜜蜂这样简单的动物都能够表现出系统的数值外推(numerical extrapolation)能力,这表明基于数值的系统化推理具有生态学上的优势。

DeepMind、牛津大学和伦敦大学学院的多名研究人员最新发表的论文“Neural Arithmetic Logic Units”,旨在解决这个问题。研究人员开发了一种新的模块,可以与标准的神经网络结构(如LSTM或convnet)结合使用,但偏向于学习系统的数值计算。他们的策略是将数值表示为没有非线性的单个神经元。对于这些single-value的神经元,研究人员应用能够表示简单函数的运算符(例如 +, - ,×等)。这些运算符由参数控制,这些参数决定用于创建每个输出的输入和操作。尽管有这样的组合特征,但它们是可微的,因此可以通过反向传播来学习。

image

摘要

神经网络可以学习表示和操作数值信息,但它们很少能很好地推广到训练中遇到的数值范围之外。为了支持更系统的数值外推(numerical extrapolation),我们提出一种新的架构,它将数值表示为线性激活函数,使用原始算术运算符进行操作,并由学习门(learned gates)控制。

我们将这个模块称为神经算术逻辑单元(neural arithmetic logic unit, NALU),参照自传统处理器中的算术逻辑单元。实验表明,NALU增强的神经网络可以学习跟踪时间,对数字图像执行算术运算,将数字语言转化为实值标量,执行计算机代码,以及对图像中的对象进行计数。与传统架构相比,我们在训练期间的数值范围内和范围外都得到了更好的泛化,外推经常超出训练数值范围几个数量级之外。

image

这篇论文一经发表即引起很多关注,有人认为这篇论文比一眼看上去要更重要,Reddit用户claytonkb表示:“结合最近的D2NN,我们可以构建超低功耗的芯片,可以在恒定时间计算超级复杂的函数,我们很快就会转向异构计算架构。”

很快有大神在Keras做出了NALU网络的实现,感受一下:
https://github.com/kgrm/NALU

神经累加器和神经算术逻辑单元

算术逻辑单元(Arithmetic Logic Unit, ALU)是中央处理器的执行单元,是所有中央处理器的核心组成部分,由与门和或门构成的算数逻辑单元,主要功能是进行二进制的算术运算,如加减乘。

在这篇论文中,研究者提出两种能够学习以系统的方式表示和操作数字的模型。第一种方法支持累加积累量(accumulate quantities additively)的能力,这是线性外推的理想归纳偏差。这个模型构成了第二个模型的基础,即支持乘法外推(multiplicative extrapolation)。该模型还说明了如何将任意算术函数的归纳偏差有效地合并到端到端模型中。

第一个模型是神经累加器(Neural Accumulator,NAC),它是线性层的一种特殊情况,其变换矩阵W仅由-1,0和1组成;也就是说,它的输出是输入向量中行的加法或减法。这可以防止层在将输入映射到输出时更改数字表示的比例,这意味着无论将多少个操作链接在一起,它们在整个模型中都是一致的。我们通过以下方式鼓励W内的0,1和-1来改善简单线性层的归纳偏差。

由于硬约束强制W的每个元素都是{-1,0,1}中的一个,这会使学习变得困难,我们提出W在无约束参数方面的连续和可微分参数化:。 这种形式便于用梯度下降进行学习,并产生矩阵,其元素保证在[-1,1]并且偏向接近-1,0或1。

image

图2:神经累加器(NAC)是其输入的线性变换。 变换矩阵是tanh(W)和σ(M)的元素乘积。 神经算术逻辑单元(NALU)使用两个带有绑定权重的NAC来启用加/减(较小的紫色cell)和乘法/除法(较大的紫色cell),由门(橙色的cell)控制

虽然加法和减法使得许多有用的系统泛化成为可能,但是可能需要学习更复杂的数学函数(例如乘法)的强健能力。 图2描述了这样一个单元:神经算术逻辑单元(NALU),它学习两个子单元之间的加权和,一个能够执行加法和减法,另一个能够执行乘法,除法和幂函数,如。 重要的是,NALU演示了NAC如何通过门控子操作进行扩展,从而促进了新类型数值函数的端到端学习。

NALU由两个NAC单元(紫色单元)组成,这两个单元由学习的S形门g(橙色单元)内插,这样如果加/减子单元的输出值应用权重为1(on),则乘法/除法子单元为0(off),反之亦然。 第一个NAC(较小的紫色子单元)计算累加向量a,存储NALU的加法/减法运算的结果; 它与原始NAC的计算方式相同(即a = Wx)。 第二个NAC(较大的紫色子单元)在对数空间中运行,因此能够学习乘法和除法,将结果存储在m:


image


总之,这个单元可以学习由乘法,加法,减法,除法和幂函数组成的算术函数,其推断方式是在训练期间观察到的范围之外的数字。

实验和结果

我们在多个任务领域(合成、图像、文本和代码)、学习信号(监督学习和强化学习)和结构(前馈和循环)进行实验。结果表明,我们提出的模型可以学习捕获数据潜在数值性质的表示函数,并将其推广到比训练中观察到的数值大几个数量级的数值。我们还观察到,即使不需要外推,我们的模块相对于线性层也显示出优越的计算偏差。在一种情况下,我们的模型在误差率上超过了最先进的图像计数网络54%。

任务1:简单的函数学习任务

image

表1:静态和循环任务的插值和外推误差率。

任务2;MNIST计数和算术任务

image

表2:长度为1,10,100和1000的序列的MNIST计数和加法任务的准确度。


结果显示,NAC和NALU都能很好地推断和插值。

任务3:语言到数字的翻译任务


image


表3:将数字串转换为标量的平均绝对误差(MAE)比较。


image

图3:对先前未见过的查询的中间NALU预测。

图3显示了随机选择的测试实例中NALU的中间状态。 在没有监督的情况下,模型学会跟踪当前token的未知数的合理估计,这允许网络预测它以前从未见过的token。

程序评估

image

图4:简单的程序评估,外推到更大的值。

我们比较了三种流行的RNN(UGRNN,LSTM和DNC),结果显示即使域增加了两个数量级,外推也是稳定的。

学习在网格世界环境中跟踪时间

image

图5 :(上)Grid-World环境中时间跟踪任务的帧。 智能体(灰色)必须在指定时间移动到目的地(红色)。 (下)NAC提高了A3C智能体所学到的外推能力。

MNIST奇偶校验预测任务和消融研究

image

表4:关于MNIST奇偶校验任务的affine层和NAC之间的消融研究。

表4总结了变体模型的性能。结果显示,去除偏差并对权重应用非线性显着提高了端到端模型的准确性,即使大多数参数不在NAC中,NAC将先前最佳结果的误差减少了54%。

结论

目前神经网络中数值模拟的方法还不够完善,因为数值表示方法不能推广到训练中观察到的范围之外。我们已经展示了NAC和NALU是如何在广泛的任务领域中纠正这两个缺点的,它促进了数字表示和在训练过程中观察到的范围之外的数值表示函数。然而,NAC或NALU不太可能是每个任务的完美解决方案。相反,它们举例说明了一种通用设计策略,用于创建具有针对目标函数类的偏差的模型。这种设计策略是通过我们提出的单神经元数值表示(single-neuron number representation)来实现的,它允许将任意(可微的)数值函数添加到模块中,并通过学习门控制,正如NALU在加法/减法和乘法/除法之间实现的那样。

原文发布时间为:2018-08-04
本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”。
原文链接:DeepMind重磅:神经算术逻辑单元,Keras实现

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
使用NAT网关轻松为单台云服务器设置多个公网IP
在应用中,有时会遇到用户询问如何使单台云服务器具备多个公网IP的问题。 具体如何操作呢,有了NAT网关这个也不是难题。
26739 0
阿里云服务器怎么设置密码?怎么停机?怎么重启服务器?
如果在创建实例时没有设置密码,或者密码丢失,您可以在控制台上重新设置实例的登录密码。本文仅描述如何在 ECS 管理控制台上修改实例登录密码。
9489 0
阿里云服务器如何登录?阿里云服务器的三种登录方法
购买阿里云ECS云服务器后如何登录?场景不同,阿里云优惠总结大概有三种登录方式: 登录到ECS云服务器控制台 在ECS云服务器控制台用户可以更改密码、更换系.
13168 0
windows server 2008阿里云ECS服务器安全设置
最近我们Sinesafe安全公司在为客户使用阿里云ecs服务器做安全的过程中,发现服务器基础安全性都没有做。为了为站长们提供更加有效的安全基础解决方案,我们Sinesafe将对阿里云服务器win2008 系统进行基础安全部署实战过程! 比较重要的几部分 1.
9049 0
腾讯云服务器 设置ngxin + fastdfs +tomcat 开机自启动
在tomcat中新建一个可以启动的 .sh 脚本文件 /usr/local/tomcat7/bin/ export JAVA_HOME=/usr/local/java/jdk7 export PATH=$JAVA_HOME/bin/:$PATH export CLASSPATH=.
4619 0
阿里云ECS云服务器初始化设置教程方法
阿里云ECS云服务器初始化是指将云服务器系统恢复到最初状态的过程,阿里云的服务器初始化是通过更换系统盘来实现的,是免费的,阿里云百科网分享服务器初始化教程: 服务器初始化教程方法 本文的服务器初始化是指将ECS云服务器系统恢复到最初状态,服务器中的数据也会被清空,所以初始化之前一定要先备份好。
6886 0
阿里云服务器ECS登录用户名是什么?系统不同默认账号也不同
阿里云服务器Windows系统默认用户名administrator,Linux镜像服务器用户名root
4008 0
+关注
技术小能手
云栖运营小编~
7208
文章
9
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载