(转) 干货 | 图解LSTM神经网络架构及其11种变体（附论文）-阿里云开发者社区

(转) 干货 | 图解LSTM神经网络架构及其11种变体（附论文）

2017-03-26 2778

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 干货 | 图解LSTM神经网络架构及其11种变体（附论文） 2016-10-02 机器之心选自FastML 作者：Zygmunt Z. 机器之心编译参与：老红、李亚洲就像雨季后非洲大草原许多野生溪流分化成的湖泊和水洼，深度学习已经分化成了各种不同的专门架构。

干货 | 图解LSTM神经网络架构及其11种变体（附论文）

2016-10-02 机器之心

选自FastML

作者：Zygmunt Z.

机器之心编译

参与：老红、李亚洲

就像雨季后非洲大草原许多野生溪流分化成的湖泊和水洼，深度学习已经分化成了各种不同的专门架构。

并且，每个架构都会有一个图解，这里将详细介绍它们。

神经网络在概念上很简单，并且它们十分动人。在层级上，有着一堆同质化的元素和统一的单位，并且它们之间还存在在一系列的加权连接。这就是神经网络的所有，至少从理论上来说是这样。然而，时间证明的结果却有所不同。并非工程的特性，我们现在拥有的是建筑工程，而非工程的特性，正如 Stephen Merrity 描述的那样：

深度学习的浪漫主义描述通常预示着手工制作工程特性的日子一去不复返了，这个模型的本身是足以先进到能够解决问题的。正如大多数广告一样，它同时具备真实性和误导性。

虽然深度学习在很多情况下简化了工程特性，但它肯定还没有彻底地摆脱它。随着工程特性的减少，机器学习模型本身的结构变得越来越复杂。大多数时候，这些模型架构会特定于一个给定的任务，就像过去的工程特性那样。

需要澄清一下的是，这仍然是很重要的一步。结构工程要比工程特性更具一般性，并且提供了许多新的机会。正如我们提到的，我们不能无视这样一个事实：我们离我们想要达到的还很远。

LSTM 图解

怎样解释这些架构？自然地，我们可以通过图解，图解往往可以让阐述变得更清晰。

让我们先来看看如今最流行的两种网络，CNN 和 LSTM：