深度学习教程 | 浅层神经网络

简介: 本文从浅层神经网络入手,讲解神经网络的基本结构(输入层,隐藏层和输出层),浅层神经网络前向传播和反向传播过程,神经网络参数的梯度下降优化,不同的激活函数的优缺点及非线性的原因

ShowMeAI研究中心

作者:韩信子 @ShowMeAI
教程地址http://www.showmeai.tech/tutorials/35
本文地址http://www.showmeai.tech/article-detail/214
声明:版权所有,转载请联系平台与作者并注明出处

收藏ShowMeAI 查看更多精彩内容


第1门课 神经网络和深度学习,第3周:浅层神经网络
本系列为吴恩达老师《深度学习专项课程 (Deep Learning Specialization) 》学习与总结整理所得,对应的课程视频可以在这里 查看。


引言

ShowMeAI 前一篇文章 神经网络基础 中我们对以下内容进行了介绍:

  • 二分类问题、逻辑回归模型及损失函数。
  • 梯度下降算法。
  • 计算图与正向传播及反向传播。
  • 向量化方式并行计算与提效。

本篇内容我们将从浅层神经网络入手,逐步拓展到真正的神经网络模型知识学习。

1.神经网络表示

神经网络的表示 Neural Network Representation

图示为两层神经网络,也可以称作单隐层神经网络 (a single hidden layer neural network) 。这就是典型的浅层 (shallow) 神经网络,结构上,从左到右,可以分成三层:

  • 输入层 (input layer) :竖向堆叠起来的输入特征向量。
  • 隐藏层 (hidden layer) :抽象的非线性的中间层。
  • 输出层 (output layer) :输出预测值。

注意:当我们计算网络的层数时,通常不考虑输入层。因此图中隐藏层是第一层,输出层是第二层。

神经网络表示

有一些约定俗成的符号表示,如下:

  • 输入层的激活值为 equation?tex=a%5E%7B%5B0%5D%7D ,隐藏层产生的激活值,记作 equation?tex=a%5E%7B%5B1%5D%7D
  • 隐藏层的第一个单元 (或者说节点) 就记作 equation?tex=a%5E%7B%5B1%5D%7D_1 ,输出层同理。
  • 隐藏层和输出层都是带有参数 equation?tex=Wequation?tex=b 的,它们都使用上标[1]来表示是和第一个隐藏层有关,或者上标[2]来表示是和输出层有关。

2.计算神经网络的输出

2.1 两层神经网络

计算一个神经网络的输出 Computing a Neural Network's Output

接下来我们开始详细推导神经网络的计算过程

我们依旧来看看我们熟悉的逻辑回归,我们用其构建两层神经网络。逻辑回归的前向传播计算可以分解成计算 equation?tex=zequation?tex=a 的两部分。

如果我们基于逻辑回归构建两层神经网络,前向计算从前往后要做2次计算:

  • 从输入层到隐藏层,对应一次逻辑回归运算。
  • 从隐藏层到输出层,对应一次逻辑回归运算。

神经网络前向计算

在每层计算中,我们注意对应的上标和下标:

  • 我们记上标方括号 equation?tex=%5E%7B%5B%20%5D%7D 表示layer,记下标表示第几个神经元。例如, equation?tex=a_i%5E%7B%5Bl%5D%7D 表示第 equation?tex=l 层的第 equation?tex=i 个神经元。
  • 注意, equation?tex=iequation?tex=1 开始, equation?tex=lequation?tex=0 开始。

2.2 单个样本计算方式

我们将输入层到隐藏层的计算公式列出来:

神经网络前向计算

后续从隐藏层到输出层的计算公式为:

神经网络前向计算

上述每个节点的计算都对应着一次逻辑运算的过程,分别由计算 equation?tex=zequation?tex=a两部分组成

2.3 向量化计算

多样本向量化 Vectorizing across Multiple Examples

我们引入向量化思想提升计算效率,将上述表达式转换成矩阵运算的形式,如下所示:

神经网络前向计算

我们这里特别注意一下数据维度:

  • equation?tex=W%5E%7B%5B1%5D%7D 的维度是 equation?tex=%284%2C3%29
  • equation?tex=b%5E%7B%5B1%5D%7D 的维度是 equation?tex=%284%2C1%29
  • equation?tex=W%5E%7B%5B2%5D%7D 的维度是 equation?tex=%281%2C4%29
  • equation?tex=b%5E%7B%5B2%5D%7D 的维度是 equation?tex=%281%2C1%29

2.4 数据集向量化计算

向量化实现的解释 Justification for Vectorized Implementation

上面部分提到的是单个样本的神经网络正向传播矩阵运算过程。对于 equation?tex=m 个训练样本,我们也可以使用向量化矩阵运算的形式来提升计算效率。形式上,它和单个样本的矩阵运算十分相似,比较简单。我们记输入矩阵 equation?tex=X 的维度为 equation?tex=%28n_x%2Cm%29 ,则有:

神经网络前向计算

上述公式中, equation?tex=Z%5E%7B%5B1%5D%7D 的维度是 equation?tex=%284%2Cm%29 ,4是隐藏层神经元的个数; equation?tex=A%5E%7B%5B1%5D%7D 的维度与 equation?tex=Z%5E%7B%5B1%5D%7D 相同; equation?tex=Z%5E%7B%5B2%5D%7Dequation?tex=A%5E%7B%5B2%5D%7D 的维度均为 equation?tex=%281%2Cm%29

我们可以这样理解上述的矩阵:行表示神经元个数,列表示样本数目 equation?tex=m

3.激活函数

激活函数 Activation Functions

3.1 不同的激活函数与选择

在神经网络中,隐藏层和输出层都需要激活函数 (activation function) ,前面的例子中我们都默认使用 Sigmoid 函数 equation?tex=%5Csigma%28z%29 作为激活函数。实际我们有不同的激活函数可以选择,而且它们有各自的优点:

激活函数

(1) tanh 函数

the hyperbolic tangent function,双曲正切函数

equation?tex=a%20%3D%20%5Cfrac%7Be%5Ez%20-%20e%5E%7B-z%7D%7D%7Be%5Ez%20%2B%20e%5E%7B-z%7D%7D

优点:函数输出介于 equation?tex=%28-1%2C1%29 ,激活函数的平均值就更接近0,有类似数据中心化的效果。效果几乎总比 Sigmoid 函数好 (二元分类的输出层我们还是会用 Sigmoid ,因为我们希望输出的结果介于 equation?tex=%280%2C1%29 ) 。

缺点:当 equation?tex=z 趋紧无穷大 (或无穷小) ,导数的梯度 (即函数的斜率) 就趋紧于0,这使得梯度算法的速度大大减缓。这一点和 Sigmoid 一样。

(2) ReLU函数

the rectified linear unit,修正线性单元

equation?tex=a%3Dmax%280%2Cz%29

优点:当 equation?tex=z%20%3E%200 时,梯度始终为1,从而提高神经网络基于梯度算法的运算速度,收敛速度远大于 Sigmoid 和tanh。

缺点:当 equation?tex=z%20%3C%200 时,梯度一直为0,但是实际的运用中,该缺陷的影响不是很大。

(3) Leaky ReLU

带泄漏的ReLU

equation?tex=a%3Dmax%280.01z%2Cz%29

优点:Leaky ReLU保证在 equation?tex=z%20%3C%200 的时候,梯度仍然不为0。

理论上来说,Leaky ReLU有ReLU的所有优点,但在实际操作中没有证明总是好于ReLU,因此不常用。

总结

在选择激活函数的时候,如果在不知道该选什么的时候就选择ReLU。当然也没有固定答案,要依据实际问题在交叉验证集合中进行验证分析。注意,我们可以在不同层选用不同的激活函数。

3.2 使用非线性激活函数的原因

为什么需要非线性激活函数? Why Need a Nonlinear Activation Function?

使用线性激活函数和不使用激活函数、无论神经网络有多少层,输出都是输入的线性组合,与没有隐藏层效果相当,就成了最原始的感知器了。我们以2层神经网络做一个简单推导,如下:

假设所有的激活函数都是线性的,为了更简单一点,我们直接令激活函数 equation?tex=g%28z%29%3Dz ,即 equation?tex=a%3Dz 。那么,浅层神经网络的各层输出为:

equation?tex=z%5E%7B%5B1%5D%7D%3DW%5E%7B%5B1%5D%7Dx%2Bb%5E%7B%5B1%5D%7Dequation?tex=a%5E%7B%5B1%5D%7D%3Dz%5E%7B%5B1%5D%7Dequation?tex=z%5E%7B%5B2%5D%7D%3DW%5E%7B%5B2%5D%7Da%5E%7B%5B1%5D%7D%2Bb%5E%7B%5B2%5D%7Dequation?tex=a%5E%7B%5B2%5D%7D%3Dz%5E%7B%5B2%5D%7D

我们对上述公式中 equation?tex=a%5E%7B%5B2%5D%7D 展开计算,得:

equation?tex=%5Cbegin%7Baligned%7D%20a%5E%7B%5B2%5D%7D%3Dz%5E%7B%5B2%5D%7D%20%26%3DW%5E%7B%5B2%5D%7D%20a%5E%7B%5B1%5D%7D%2Bb%5E%7B%5B2%5D%7D%20%5C%5C%20%26%3DW%5E%7B%5B2%5D%7D%5Cleft%28W%5E%7B%5B1%5D%7D%20x%2Bb%5E%7B%5B1%5D%7D%5Cright%29%2Bb%5E%7B%5B2%5D%7D%20%5C%5C%20%26%3D%5Cleft%28W%5E%7B%5B2%5D%7D%20W%5E%7B%5B1%5D%7D%5Cright%29%20x%2B%5Cleft%28W%5E%7B%5B2%5D%7D%20b%5E%7B%5B1%5D%7D%2Bb%5E%7B%5B2%5D%7D%5Cright%29%20%5C%5C%20%26%3DW%5E%7B%5Cprime%7D%20x%2Bb%5E%7B%5Cprime%7D%20%5Cend%7Baligned%7D

上述推导后,我们可以发现 equation?tex=a%5E%7B%5B2%5D%7D 仍是输入变量 equation?tex=x 的线性组合!后续堆叠更多的层次,也可以依次类推,这表明,使用神经网络,如果不使用激活函数或使用线性激活函数,与直接使用线性模型的效果并没有什么两样!因此,隐藏层的激活函数必须要是非线性的。

不过,在部分场景下,比如是回归预测问题而不是分类问题,输出值 equation?tex=y 为连续值,输出层的激活函数可以使用线性函数。如果输出 equation?tex=y 恒为正值,则也可以使用ReLU激活函数,这些具体情况具体分析。

3.3 激活函数的导数

激活函数的导数 Derivatives of Activation Functions

我们来看一下不同激活函数的导数,这将在我们反向传播中频繁用到。

激活函数

4.神经网络的梯度下降法

神经网络的梯度下降 Gradient Descent for Neural Networks

下面我们来一起看看,神经网络中的梯度计算。

我们依旧以浅层神经网络为例,它包含的参数为 equation?tex=W%5E%7B%5B1%5D%7Dequation?tex=b%5E%7B%5B1%5D%7Dequation?tex=W%5E%7B%5B2%5D%7Dequation?tex=b%5E%7B%5B2%5D%7D

神经网络的梯度下降法

令输入层的特征向量个数 equation?tex=n_x%3Dn%5E%7B%5B0%5D%7D ,隐藏层神经元个数为 equation?tex=n%5E%7B%5B1%5D%7D ,输出层神经元个数为 equation?tex=n%5E%7B%5B2%5D%7D%3D1 。则:

  • equation?tex=W%5E%7B%5B1%5D%7D 的维度为 equation?tex=%28n%5E%7B%5B1%5D%7D%2Cn%5E%7B%5B0%5D%7D%29
  • equation?tex=b%5E%7B%5B1%5D%7D 的维度为 equation?tex=%28n%5E%7B%5B1%5D%7D%2C1%29
  • equation?tex=W%5E%7B%5B2%5D%7D 的维度为 equation?tex=%28n%5E%7B%5B2%5D%7D%2Cn%5E%7B%5B1%5D%7D%29
  • equation?tex=b%5E%7B%5B2%5D%7D 的维度为 equation?tex=%28n%5E%7B%5B2%5D%7D%2C1%29

4.1 神经网络中的梯度下降

上述神经网络的前向传播过程,对应的公式如下图左侧。反向传播过程,我们会进行梯度计算,我们先列出Cost Function对各个参数的梯度,如下图右侧公式。

神经网络的梯度下降法

其中,np.sum使用到python中的numpy工具库,想了解更多的同学可以查看ShowMeAI图解数据分析 系列中的numpy教程,也可以通过ShowMeAI 制作的numpy速查手册 快速了解其使用方法)

4.2 反向传播(拓展补充)

直观理解反向传播 Backpropagation Intuition

我们使用上篇内容 神经网络基础 中的计算图方式来推导神经网络反向传播。回忆我们前面提到的逻辑回归,推导前向传播和反向传播的计算图如下图所示:

神经网络的梯度下降法

因为多了隐藏层,神经网络的计算图要比逻辑回归的复杂一些,如下图所示。

神经网络的梯度下降法

综上,对于浅层神经网络(包含一个隐藏层)而言,「单个样本」和「m个训练样本」的反向传播过程分别对应如下的6个表达式(都是向量化矩阵形式):

神经网络的梯度下降法

5.随机初始化

随机初始化 Random + Initialization

5.1 全零初始化权重问题

我们在很多机器学习模型中,会初始化权重为0。但在神经网络模型中,参数权重 equation?tex=W 是不能全部初始化为零的,它会带来对称性问题 (symmetry breaking problem) ,下面是分析过程。

假设一个浅层神经网络包含两个输入,隐藏层包含两个神经元。

NN权重初始化

如果权重 equation?tex=W%5E%7B%5B1%5D%7Dequation?tex=W%5E%7B%5B2%5D%7D 都初始化为零,这样使得隐藏层第一个神经元的输出等于第二个神经元的输出,即 equation?tex=a_1%5E%7B%5B1%5D%7D%3Da_2%5E%7B%5B1%5D%7D 。容易得到 equation?tex=dz_1%5E%7B%5B1%5D%7D%3Ddz_2%5E%7B%5B1%5D%7D ,以及 equation?tex=dW_1%5E%7B%5B1%5D%7D%3DdW_2%5E%7B%5B1%5D%7D

我们发现:隐藏层两个神经元对应的权重行向量 equation?tex=W_1%5E%7B%5B1%5D%7Dequation?tex=W_2%5E%7B%5B1%5D%7D 每次迭代更新都会得到完全相同的结果, equation?tex=W_1%5E%7B%5B1%5D%7D 始终等于 equation?tex=W_2%5E%7B%5B1%5D%7D ,完全对称!这样隐藏层设置多个神经元就没有任何意义了。

当然,因为中间层每次只会有1个偏置项参数 equation?tex=b ,它可以全部初始化为零,并不会影响神经网络训练效果。

5.2 解决方法

上述提到的权重W全部初始化为零带来的问题就是symmetry breaking problem (对称性) 。解决方法也很简单:在初始化的时候, equation?tex=W 参数要进行随机初始化,不可以设置为0。而 equation?tex=b 因为不存在对称性的问题,可以设置为 0。

以 2 个输入,2 个隐藏神经元为例:

W = np.random.rand (2,2) * 0.01
b = np.zeros ( (2,1) ) 

这里将 equation?tex=W 的值乘以 0.01 (或者其他的常数值) 的原因是为了使得权重 equation?tex=W 初始化为较小的值,这是因为使用 Sigmoid 函数或者 tanh 函数作为激活函数时:

  • equation?tex=W 比较小,则 equation?tex=Z%3DWX%2Bb 所得的值趋近于 0,梯度较大,能够提高算法的更新速度。
  • equation?tex=W 设置的太大,得到的梯度较小,训练过程因此会变得很慢。

NN权重初始化

ReLU 和 Leaky ReLU 作为激活函数时不存在这种问题,因为在大于 0 的时候,梯度均为 1。如果输出层是 Sigmoid 函数,则对应的权重 equation?tex=W 最好初始化到比较小的值。

参考资料

ShowMeAI 系列教程推荐

推荐文章

ShowMeAI用知识加速每一次技术成长

目录
相关文章
|
11天前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法
眼疾识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了4种常见的眼疾图像数据集(白内障、糖尿病性视网膜病变、青光眼和正常眼睛) 再使用通过搭建的算法模型对数据集进行训练得到一个识别精度较高的模型,然后保存为为本地h5格式文件。最后使用Django框架搭建了一个Web网页平台可视化操作界面,实现用户上传一张眼疾图片识别其名称。
49 4
基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法
|
1月前
|
机器学习/深度学习 人工智能 算法
猫狗宠物识别系统Python+TensorFlow+人工智能+深度学习+卷积网络算法
宠物识别系统使用Python和TensorFlow搭建卷积神经网络,基于37种常见猫狗数据集训练高精度模型,并保存为h5格式。通过Django框架搭建Web平台,用户上传宠物图片即可识别其名称,提供便捷的宠物识别服务。
282 55
|
2天前
|
机器学习/深度学习 监控 算法
基于yolov4深度学习网络的排队人数统计系统matlab仿真,带GUI界面
本项目基于YOLOv4深度学习网络,利用MATLAB 2022a实现排队人数统计的算法仿真。通过先进的计算机视觉技术,系统能自动、准确地检测和统计监控画面中的人数,适用于银行、车站等场景,优化资源分配和服务管理。核心程序包含多个回调函数,用于处理用户输入及界面交互,确保系统的高效运行。仿真结果无水印,操作步骤详见配套视频。
37 18
|
1月前
|
机器学习/深度学习 人工智能 算法
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别
宠物识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了37种常见的猫狗宠物种类数据集【'阿比西尼亚猫(Abyssinian)', '孟加拉猫(Bengal)', '暹罗猫(Birman)', '孟买猫(Bombay)', '英国短毛猫(British Shorthair)', '埃及猫(Egyptian Mau)', '缅因猫(Maine Coon)', '波斯猫(Persian)', '布偶猫(Ragdoll)', '俄罗斯蓝猫(Russian Blue)', '暹罗猫(Siamese)', '斯芬克斯猫(Sphynx)', '美国斗牛犬
187 29
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别
|
30天前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于yolov4深度学习网络的公共场所人流密度检测系统matlab仿真,带GUI界面
本项目使用 MATLAB 2022a 进行 YOLOv4 算法仿真,实现公共场所人流密度检测。通过卷积神经网络提取图像特征,将图像划分为多个网格进行目标检测和识别,最终计算人流密度。核心程序包括图像和视频读取、处理和显示功能。仿真结果展示了算法的有效性和准确性。
65 31
|
1月前
|
机器学习/深度学习 算法 信息无障碍
基于GoogleNet深度学习网络的手语识别算法matlab仿真
本项目展示了基于GoogleNet的深度学习手语识别算法,使用Matlab2022a实现。通过卷积神经网络(CNN)识别手语手势,如"How are you"、"I am fine"、"I love you"等。核心在于Inception模块,通过多尺度处理和1x1卷积减少计算量,提高效率。项目附带完整代码及操作视频。
|
1月前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于深度学习网络的宝石类型识别算法matlab仿真
本项目利用GoogLeNet深度学习网络进行宝石类型识别,实验包括收集多类宝石图像数据集并按7:1:2比例划分。使用Matlab2022a实现算法,提供含中文注释的完整代码及操作视频。GoogLeNet通过其独特的Inception模块,结合数据增强、学习率调整和正则化等优化手段,有效提升了宝石识别的准确性和效率。
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
深入理解深度学习中的卷积神经网络(CNN)##
在当今的人工智能领域,深度学习已成为推动技术革新的核心力量之一。其中,卷积神经网络(CNN)作为深度学习的一个重要分支,因其在图像和视频处理方面的卓越性能而备受关注。本文旨在深入探讨CNN的基本原理、结构及其在实际应用中的表现,为读者提供一个全面了解CNN的窗口。 ##
|
1月前
|
机器学习/深度学习 人工智能 算法
深度学习入门:用Python构建你的第一个神经网络
在人工智能的海洋中,深度学习是那艘能够带你远航的船。本文将作为你的航标,引导你搭建第一个神经网络模型,让你领略深度学习的魅力。通过简单直观的语言和实例,我们将一起探索隐藏在数据背后的模式,体验从零开始创造智能系统的快感。准备好了吗?让我们启航吧!
88 3
|
1月前
|
机器学习/深度学习 传感器 数据采集
深度学习在故障检测中的应用:从理论到实践
深度学习在故障检测中的应用:从理论到实践
149 6