看大牛如何复盘递归神经网络!-阿里云开发者社区

开发者社区> 【方向】> 正文

看大牛如何复盘递归神经网络!

简介: 复盘递归神经网络,通过复盘,反思,让递归神经网络更完美!
+关注继续查看

更多深度文章,请关注云计算频道:
https://yq.aliyun.com/cloud
在大牛的眼中,递归神经网络(RNNs)的运作就像孩子们玩的手机游戏(也叫做华人耳语(私下传话),其实就是暗指递归神经网络是一个封闭的形式运作的。)。在RNN的每个处理步骤,RNN必须对已收到的新信息进行编码并将信息通过一组反馈连接传递到下一个处理步骤。对于设计神经网络模型(RNN)来说,最大的挑战就是要保证通过反馈连接每次传递的信息量不会降低。同样重要的是要确保纠错信息可以通过反向传播通过模型。Hochreiter和Schmidhuber是第一个解决这些问题的人,他们将一个称为长期记忆模式(LSTM模式)装配到RNN上。其实,他们的方法就是引入网络门控机制,以此来控制信息存储、更新和抹去。LSTM模式其实还是在以孩子们玩手机游戏的方式运作,但可以使用复印机的精度进行操作。由于LSTM模型的出现,已经有几个RNN架构计划使用网络门控机制。
screenshot
任何机制都有它的局限性,下面我们来了解一下,具有门控机制的RNN模型的局限性,假设你有100000符号序列,第一个符号必须通过门控机制100000次。除了LSTM模型的门,其他的门都可能是不完全开放的,假设门是99.99%开的,信号从第一个符号将降低到0.9999¹⁰⁰⁰⁰⁰原始值的0.0000454。所以即使严格执行复印机模型精度,如果序列是从一开始就是非常长的信息序列,最后的结果是信息还是会遭受到很大的损失。
为了克服现有RNN架构的局限性,一个新的模型需要包括反馈连接到每个处理步骤,而不仅仅是前面的步骤。 一个解决方案是使用注意力机制,假设我们想对时间序列数据进行建模使用循环神经网络(RNN)并且使用注意力机制。 在每一个处理步骤,RNN的输出都要被注意力机制模型加权。 然后将每一个步骤加权输出聚合在一起加权平均。加权平均值的结果称为上下文向量。 上下文向量可以表示信息在数据中的任何时间点的聚合效果。
screenshot
注意力机制的主要约束是对整个时间序列数据只产生一个上下文向量。 在生成上下文向量之前,必须将整个数据序列读入模型。换句话说,注意力机制是静态的。为了克服这个限制,我们最近提出了一种新的方法来计算注意机制——使用移动平均值。因为注意力机制只不过是一个加权平均值,所以它的计算是一个正在运行的计算过程。这需要从每个处理步骤保存分子和分母,以在下一次迭代中使用。通过保持注意力机制的移动平均值,每个时间步长都能产生一个新的上下文向量。通过这种方法,注意力机制变得动态,可以在模型运行中计算。
我们决定让我们的方法更上一层楼。我们意识到,注意力机制的输出可以反馈到注意力机制在下一个处理步骤。由此产生的模型代表了一种新的递归神经网络(RNN)模型。考虑到加权平均是递归定义的,我们决定把这种方法称为递归加权平均(RWA)模型。
screenshot
我们开始用几个玩具问题来测试RWA模型,并将其性能与LSTM模型进行比较。在每一个任务中,只有一个除外,RWA模型使用更少的训练步骤获得了就更快的学习速度。此外,每一个训练步骤的RWA模型需要更少的时间,下面对比结果。
screenshot
screenshot
从图中可以看出,RWA模型能更好地扩展到更长的序列。 我们不期望RWA模型总是优于并且能够RNN模型,像LSTM那样。LSTM模型可能是更好的选择(在一些例子中),当最近的信息比旧信息更重要时。这就是说,我们可能想要一个拥有对过去有记忆的RNN模型,这也是我们除了RWA模型以外的替代方法。
作者介绍:Jared Ostmeyer
计算生物学博士后研究员。 目前在德州达拉斯生活和工作。
作者:Thomas Kipf
本文由北邮@爱可可-爱生活推荐,阿里云云栖社区翻译。
文章原标题《Rethinking Recurrent Neural Networks》,
作者:Jared Ostmeyer,译者:袁虎,审阅:我是主题曲哥哥,李烽老师
附件为原文的pdf。
文章为简译,更为详细的内容,请查看原文

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
基于传感器的人类行为识别DL方法难在哪?这篇综述列了11项挑战
传感器设备和物联网的广泛应用使得基于传感器的人类行为识别成为可能。然而,这个领域仍然存在一些重大挑战(challenge),可能会影响行为识别系统在实际应用场景中的性能。在这篇论文中,来自新南威尔士大学、西北工业大学、密歇根州立大学的研究人员综述了近期被用于解决具体行为识别挑战的深度学习方法,并提出了一种基于挑战的分类体系。
4 0
相信你的模型:初探机器学习可解释性研究进展
随着机器学习(ML)领域的深入发展,机器人在教育、引导、医疗方面都有巨大的应用。但如今人们不仅关注于机器人执行任务的准确和效率,更希望理解其决策的原因和行动,从而判断是否信任答案,而这正也是可解释人工智能(XAI)所要研究的问题。
4 0
NeurIPS 2019:两种视角带你了解网络可解释性的研究和进展
一直以来,深度网络在图像识别,检测,语言等领域都有强大的能力。研究者们的重点都在如何提升网络性能上,很少有人能说清楚深度神经网络为何能够得到较好的泛化能力,有的研究者习惯从原理上来说明这个问题,有的研究者则会从中间结果来解释,当然这些观点都各有千秋。在 NeurIPS 2019 上,有些学者在网络的可解释性上发表了自己的研究。
5 0
一文读懂云计算、大数据和AI间的关系和区别
相信大家都听说过云计算、大数据和人工智能,并且它们之间好像互相有关系:一般谈云计算的时候会提到大数据、大数据的时候会提人工智能、谈人工智能的时候会提云计算……三者之间相辅相成又不可分割,那么这三者之间到底是怎么一回事呢,今天小编就来讲讲。
35 0
2月10日返工潮即将到来,北京开始部署「快速AI体温检测仪」
AI 技术正在帮助大量即将返回工作岗位的人们,让接触新冠病毒的风险不断降低。
4 0
走过19年,每年千万下载量,科学计算开源库SciPy的前世今生
每年千万下载量,科学计算开源库 SciPy,你已经是个成熟的小伙伴了。
7 0
SAP S/4HANA: 一条代码线,许多种选择
SAP S/4HANA: 一条代码线,许多种选择
3 0
AAAI 2020 提前看 | 三篇论文解读问答系统最新研究进展
2020 年 2 月 7 日至 12 日,AAAI 2020 将于美国纽约举办。今年 AAAI 共接受了 8800 篇提交论文,其中评审了 7737 篇,接收 1591 篇,接收率为 20.6%。为了向读者们介绍更多 AAAI2020 的优质论文,机器之心组织策划了 AAAI 2020 论文分享,邀请国内外著名大学、研究机构以及工业界的研究人员详细介绍他们发布在 AAAI 2020 的文章,欢迎大家持续关注。
3 0
最新R0值3.11,疫情何时高峰难预测,这是你该知道的最新进展
也许对抗新型冠状病毒还需要更长的时间和更多的努力,但我们终将胜利。近日,在国内外多个团队的传播预测研究中,代表疫情传染速率及峰值等因素的 R0 值,也正在发生着变化。
3 0
2020,PyTorch真的赶上TensorFlow了吗?
几天前,OpenAI 通过官方博客宣布了「全面转向 PyTorch」的消息,计划将自家平台的所有框架统一为 PyPyTorch。这一消息再次引发了社区关于两个框架优劣的讨论。作为后起之秀,PyTorch 真的已经全面赶超 TensorFlow 了吗?为了研究这个问题,数据科学家 Jeff Hale 从在线职位数量、顶会论文中的出现次数、在线搜索结果、开发者使用情况四个方面对两个框架的现状进行了调研。
3 0
+关注
【方向】
欢迎各位对内容方向及质量提需求,我们尽量满足,将国外优质的内容呈现给大家!
696
文章
5
问答
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载