深度学习教程 | 深层神经网络

2022-04-21 255

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本节讨论深层神经网络，包括深层神经网络的结构、深层神经网络前向传播和反向传播过程、需要深层神经网络的原因、神经网络参与超参数、神经网络与人脑简单对比。

ShowMeAI研究中心

作者：韩信子@ShowMeAI
教程地址：http://www.showmeai.tech/tutorials/35
本文地址：http://www.showmeai.tech/article-detail/215
声明：版权所有，转载请联系平台与作者并注明出处
收藏ShowMeAI查看更多精彩内容

第1门课神经网络和深度学习，第4周：深层神经网络
本系列为吴恩达老师《深度学习专项课程(Deep Learning Specialization)》学习与总结整理所得，对应的课程视频可以在这里查看。

引言

在ShowMeAI前一篇文章 浅层神经网络 中我们对以下内容进行了介绍：

神经网络的基本结构(输入层，隐藏层和输出层)。
浅层神经网络前向传播和反向传播过程。
神经网络参数的梯度下降优化。
不同的激活函数的优缺点及非线性的原因。
神经网络参数随机初始化方式

本篇内容我们将讨论深层神经网络。

1.深层神经网络

深层神经网络 Deep Layer Neural Network

我们在前面提到了浅层神经网络，深层神经网络其实就是包含更多隐层的神经网络。下图分别列举了不同深度的神经网络模型结构：

深层神经网络

我们会参考「隐层个数」和「输出层」对齐命名。如上图逻辑回归可以叫做1 layer NN，单隐层神经网络可以叫做2 layer NN，2个隐层的神经网络叫做3 layer NN，以此类推。所以当我们提到L layer NN，指的是包含 equation?tex=L-1 个隐层的神经网络。

下面我们来了解一下神经网络的一些标记写法。以如下图的4层神经网络为例：

深层神经网络

① 总层数用 equation?tex=L 表示， equation?tex=L%3D4

输入层是第层，输出层是第层

② equation?tex=n%5E%7B%5Bl%5D%7D 表示第 equation?tex=l 层包含的单元个数， equation?tex=l%3D0%2C1%2C%5Ccdots%2CL

下图模型中，，表示三个输入特征、、
下图模型中，，，

③ 第 equation?tex=l 层的激活函数输出用 equation?tex=a%5E%7B%5Bl%5D%7D 表示，

④ equation?tex=W%5E%7B%5Bl%5D%7D 表示第 equation?tex=l 层的权重，用于计算 equation?tex=z%5E%7B%5Bl%5D%7D

⑤ 输入 equation?tex=x 记为 equation?tex=a%5E%7B%5B0%5D%7D

⑥ 输出层 equation?tex=%5Chat%20y 记为 equation?tex=a%5E%7B%5BL%5D%7D

注意，和中的上标都是从1开始的，。

2.深层神经网络前向运算

深层网络中的前向和反向传播 Forward Propagation in a Deep Network

下面我们来推导一下深层神经网络的前向传播计算过程。依旧是上面提到的4层神经网络，我们以其为例来做讲解。

2.1 单个样本的计算

对于单个样本，我们有：

深层神经网络前向运算

2.2 m个样本的批量计算

对于 equation?tex=m 个训练样本的情况，我们以向量化矩阵形式来并行计算：

深层神经网络前向运算

以此类推，对于第 equation?tex=l 层，其前向传播过程的 equation?tex=Z%5E%7B%5Bl%5D%7D 和 equation?tex=A%5E%7B%5Bl%5D%7D 可以表示为：

equation?tex=Z%5E%7B%5Bl%5D%7D%3DW%5E%7B%5Bl%5D%7DA%5E%7B%5Bl-1%5D%7D%2Bb%5E%7B%5Bl%5D%7D

equation?tex=A%5E%7B%5Bl%5D%7D%3Dg%5E%7B%5Bl%5D%7D%28Z%5E%7B%5Bl%5D%7D%29

其中 equation?tex=l%3D1%2C%5Ccdots%2CL

3.向量化形态下的矩阵维度

核对矩阵的维数 Getting Your Matrix Dimensions Right

在单个训练样本的场景下，输入 equation?tex=x 的维度是 equation?tex=%28n%5E%7B%5B0%5D%7D%2C1%29 神经网络的参数 equation?tex=W%5E%7B%5Bl%5D%7D 和 equation?tex=b%5E%7B%5Bl%5D%7D 的维度分别是：

其中，

和分别表示第层和层的所含单元个数
，表示输入层特征数目

对应的反向传播过程中的 equation?tex=dW%5E%7B%5Bl%5D%7D 和 equation?tex=db%5E%7B%5Bl%5D%7D 的维度分别是：

注意到，与维度相同，与维度相同。这很容易理解。

正向传播过程中的和的维度分别是：

和的维度是一样的，且和的维度均与和的维度一致。

深层神经网络前向运算

对于个训练样本，输入矩阵 equation?tex=X 的维度是 equation?tex=%28n%5E%7B%5B0%5D%7D%2Cm%29 。需要注意的是 equation?tex=W%5E%7B%5Bl%5D%7D 和 equation?tex=b%5E%7B%5Bl%5D%7D 的维度与只有单个样本是一致的：

只不过在运算 equation?tex=Z%5E%7B%5Bl%5D%7D%3DW%5E%7B%5Bl%5D%7DA%5E%7B%5Bl-1%5D%7D%2Bb%5E%7B%5Bl%5D%7D 中， equation?tex=b%5E%7B%5Bl%5D%7D 会被当成 equation?tex=%28n%5E%7B%5Bl%5D%7D%2Cm%29 矩阵进行运算，这是基于python numpy的广播特性，且每一列向量都是一样的。 equation?tex=dW%5E%7B%5Bl%5D%7D 和 equation?tex=db%5E%7B%5Bl%5D%7D 的维度分别与 equation?tex=W%5E%7B%5Bl%5D%7D 和 equation?tex=b%5E%7B%5Bl%5D%7D 的相同。

不过， equation?tex=Z%5E%7B%5Bl%5D%7D 和 equation?tex=A%5E%7B%5Bl%5D%7D 的维度发生了变化：

和的维度分别与和的相同。

4.为什么需要深度网络

为什么使用深层表示？ Why Deep Representations?

当今大家看到的很多AI智能场景背后都是巨大的神经网络在支撑，强大能力很大一部分来源于神经网络足够“深”，也就是说随着网络层数增多，神经网络就更加复杂参数更多，学习能力也更强。下面是一些典型的场景例子说明。

4.1 人脸识别例子

如下图所示的人脸识别场景，训练得到的神经网络，每一层的作用有差别：

第一层所做的事就是从原始图片中提取出人脸的轮廓与边缘，即边缘检测。这样每个神经元得到的是一些边缘信息。
第二层所做的事情就是将前一层的边缘进行组合，组合成人脸一些局部特征，比如眼睛、鼻子、嘴巴等。
后续层次逐层把这些局部特征组合起来，融合成人脸的模样。

为什么需要深度网络

可以看出，随着层数由浅到深，神经网络提取的特征也是从边缘到局部特征到整体，由简单到复杂。隐藏层越多，能够提取的特征就越丰富、越复杂，模型的准确率也可能会随之越高。（详细的人脸识别原理可以查看ShowMeAI的文章 CNN应用：人脸识别和神经风格转换 ）

4.2 语音识别例子

语音识别模型也是类似的道理：

浅层的神经元能够检测一些简单的音调
较深的神经元能够检测出基本的音素
更深的神经元就能够检测出单词信息
网络足够深的话，还能对短语、句子进行检测

为什么需要深度网络

神经网络从浅到深，提取的特征从简单到复杂。特征复杂度与神经网络层数成正相关。特征越来越复杂，表达能力和功能也越强。（详细的语音识别原理知识可以查看ShowMeAI的文章 Seq2seq序列模型和注意力机制 ）

4.3 深度网络其他优势

除学习能力与特征提取强度之外，深层网络还有另外一个优点，就是能够减少神经元个数，从而减少计算量。

下面有一个例子，使用电路理论，计算逻辑输出：

equation?tex=y%3Dx_1%5Coplus%20x_2%5Coplus%20x_3%5Coplus%5Ccdots%5Coplus%20x_n

上面的计算表达式中，表示「异或」操作。

对于这个逻辑运算，如果使用深度网络完成，每层将前一层的两两单元进行异或，最后到一个输出，如下图左边所示。

这样，整个深度网络的层数是 equation?tex=log_2%28n%29 (不包含输入层)。总共使用的神经元个数为：

$equation?tex=1%2B2%2B%5Ccdots%2B2%5E%7Blog_2%28n%29-1%7D%3D1%5Ccdot%5Cfrac%7B1-2%5E%7Blog_2%28n%29%7D%7D%7B1-2%7D%3D2%5E%7Blog_2%28n%29%7D-1%3Dn-1$

可见，输入个数是 equation?tex=n ，这种深层网络所需的神经元个数仅仅是 equation?tex=n-1 个。

为什么需要深度网络

如果不用深层网络，仅仅使用单个隐藏层，如上右图所示，由于包含了所有的逻辑位(0和1)，那么需要的神经元个数 equation?tex=O%282%5En%29 是指数级别的大小。

对于其他场景和问题也一样，处理同样的逻辑问题，深层网络所需的神经元个数比浅层网络要少很多。这也是深层神经网络的优点之一。

尽管深度学习有着非常显著的优势，吴恩达老师还是建议对实际问题进行建模时，尽量先选择层数少的神经网络模型，这也符合奥卡姆剃刀定律 (Occam’s Razor)。对于比较复杂的问题，再使用较深的神经网络模型。

5.构建深度网络单元块

搭建神经网络块 Building Blocks of Deep Neural Networks

下面用流程块图来解释神经网络前向传播和反向传播过程。

构建深度网络单元块

如图所示，对于第 equation?tex=l 层来说，前向传播过程中，我们有：

输入：
输出：
参数：、
缓存变量：

反向传播过程中：

输入：
输出：、、
参数：、

上面是第 equation?tex=l 层的流程块图，对于神经网络所有层，整体的流程块图前向传播过程和反向传播过程如下所示：

构建深度网络单元块

6.前向传播与反向传播

前向传播和反向传播 Forward and Backward Propagation

我们继续接着上一部分流程块图的内容，推导神经网络正向传播过程和反向传播过程的具体表达式。

6.1 前向传播过程

令层数为第 equation?tex=l 层，输入是 equation?tex=a%5E%7B%5Bl-1%5D%7D ，输出是 equation?tex=a%5E%7B%5Bl%5D%7D ，缓存变量是 equation?tex=z%5E%7B%5Bl%5D%7D 。其表达式如下：

equation?tex=z%5E%7B%5Bl%5D%7D%3DW%5E%7B%5Bl%5D%7Da%5E%7B%5Bl-1%5D%7D%2Bb%5E%7B%5Bl%5D%7D

equation?tex=a%5E%7B%5Bl%5D%7D%3Dg%5E%7B%5Bl%5D%7D%28z%5E%7B%5Bl%5D%7D%29

equation?tex=m 个训练样本的形态下，向量化形式为：

equation?tex=Z%5E%7B%5Bl%5D%7D%3DW%5E%7B%5Bl%5D%7DA%5E%7B%5Bl-1%5D%7D%2Bb%5E%7B%5Bl%5D%7D

equation?tex=A%5E%7B%5Bl%5D%7D%3Dg%5E%7B%5Bl%5D%7D%28Z%5E%7B%5Bl%5D%7D%29

6.2 反向传播过程

输入是 equation?tex=da%5E%7B%5Bl%5D%7D ，输出是 equation?tex=da%5E%7B%5Bl-1%5D%7D 、 equation?tex=dW%5E%7B%5Bl%5D%7D 、 equation?tex=db%5E%7B%5Bl%5D%7D 。其表达式如下：

equation?tex=dz%5E%7B%5Bl%5D%7D%3Dda%5E%7B%5Bl%5D%7D%5Cast%20g%5E%7B%5Bl%5D%5Cprime%7D%28z%5E%7B%5Bl%5D%7D%29

equation?tex=dW%5E%7B%5Bl%5D%7D%3Ddz%5E%7B%5Bl%5D%7D%5Ccdot%20a%5E%7B%5Bl-1%5D%7D

equation?tex=db%5E%7B%5Bl%5D%7D%3Ddz%5E%7B%5Bl%5D%7D

equation?tex=da%5E%7B%5Bl-1%5D%7D%3DW%5E%7B%5Bl%5DT%7D%5Ccdot%20dz%5E%7B%5Bl%5D%7D

由上述第四个表达式可得 equation?tex=da%5E%7B%5Bl%5D%7D%3DW%5E%7B%5Bl%2B1%5DT%7D%5Ccdot%20dz%5E%7B%5Bl%2B1%5D%7D ，将代入第一个表达式中可以得到：

equation?tex=dz%5E%7B%5Bl%5D%7D%3DW%5E%7B%5Bl%2B1%5DT%7D%5Ccdot%20dz%5E%7B%5Bl%2B1%5D%7D%5Cast%20g%5E%7B%5Bl%5D%5Cprime%7D%28z%5E%7B%5Bl%5D%7D%29

该式非常重要，反映了 equation?tex=dz%5E%7B%5Bl%2B1%5D%7D 与 equation?tex=dz%5E%7B%5Bl%5D%7D 的递推关系。

equation?tex=m 个训练样本的形态下，向量化形式为：

equation?tex=d%20Z%5E%7B%5Bl%5D%7D%3Dd%20A%5E%7B%5Bl%5D%7D%5Cast%20g%5E%7B%5Bl%5D%5Cprime%7D%20%28Z%5E%7B%5Bl%5D%7D%29

$equation?tex=dW%5E%7B%5Bl%5D%7D%3D%5Cfrac1mdZ%5E%7B%5Bl%5D%7D%5Ccdot%20A%5E%7B%5Bl-1%5DT%7D$

$equation?tex=db%5E%7B%5Bl%5D%7D%3D%5Cfrac1mnp.sum%28dZ%5E%7B%5Bl%5D%7D%2Caxis%3D1%2Ckeepdim%3DTrue%29$

equation?tex=dA%5E%7B%5Bl-1%5D%7D%3DW%5E%7B%5Bl%5DT%7D%5Ccdot%20dZ%5E%7B%5Bl%5D%7D

equation?tex=dZ%5E%7B%5Bl%5D%7D%3DW%5E%7B%5Bl%2B1%5DT%7D%5Ccdot%20dZ%5E%7B%5Bl%2B1%5D%7D%5Cast%20g%5E%7B%5Bl%5D%5Cprime%7D%28Z%5E%7B%5Bl%5D%7D%29

7.参数与超参数

参数 VS 超参数 Parameters vs Hyperparameters

神经网络中有两个大家要重点区分的概念：参数(parameters)和超参数(hyperparameters)。

神经网络中的参数就是我们熟悉的和。
神经网络的超参数是例如学习率，训练迭代次数，神经网络层数，各层神经元个数，激活函数等。
之所以叫做超参数，是因为它们需要提前敲定，而且它们会决定参数和的值。

参数与超参数

如何设置最优的超参数是一个比较困难的、需要经验知识的问题。通常的做法是选择超参数一定范围内的值，分别代入神经网络进行训练，测试cost function随着迭代次数增加的变化，根据结果选择cost function最小时对应的超参数值。这类似于机器学习中的实验验证的方法。(关于机器学习的模型评估详见 ShowMeAI文章图解机器学习 | 模型评估方法与准则)

8.神经网络vs人脑

深度学习和大脑的关联性 What Does this Have to Do with the Brain?

神经网络跟人脑机制到底有什么联系呢？究竟有多少的相似程度？

深度网络 VS 大脑

我们前面看到神经网络实际上可以分成两个部分：前向传播过程和反向传播过程。神经网络的每个神经元采用激活函数的方式，类似于感知机模型。这种模型与人脑神经元是类似的，但是一种非常简化的人脑神经元模型。

人脑神经元可分为树突、细胞体、轴突三部分。树突接收外界电刺激信号(类比神经网络中神经元输入)，传递给细胞体进行处理(类比神经网络中神经元激活函数运算)，最后由轴突传递给下一个神经元(类比神经网络中神经元输出)。

深度网络 VS 大脑

人脑神经元的结构和处理方式要复杂的多，神经网络模型只是非常简化的模型。

人脑如何进行学习？是否也是通过反向传播和梯度下降算法现在还不清楚，可能会更加复杂。这是值得生物学家探索的事情。

参考资料

图解机器学习 | 模型评估方法与准则

深度学习教程 | 深层神经网络

引言

1.深层神经网络

2.深层神经网络前向运算

2.1 单个样本的计算

2.2 m个样本的批量计算

3.向量化形态下的矩阵维度

4.为什么需要深度网络

4.1 人脸识别例子

4.2 语音识别例子

4.3 深度网络其他优势

5.构建深度网络单元块

6.前向传播与反向传播

6.1 前向传播过程

6.2 反向传播过程

7.参数与超参数

8.神经网络vs人脑

参考资料

ShowMeAI系列教程推荐

推荐文章

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

深度学习教程 | 深层神经网络

引言

1.深层神经网络

2.深层神经网络前向运算

2.1 单个样本的计算

2.2 m个样本的批量计算

3.向量化形态下的矩阵维度

4.为什么需要深度网络

4.1 人脸识别例子

4.2 语音识别例子

4.3 深度网络其他优势

5.构建深度网络单元块

6.前向传播与反向传播

6.1 前向传播过程

6.2 反向传播过程

7.参数与超参数

8.神经网络vs人脑

参考资料

ShowMeAI系列教程推荐

推荐文章

热门文章

最新文章

相关课程

相关电子书

相关实验场景