【动手学计算机视觉】第十三讲：批量归一化-阿里云开发者社区

【动手学计算机视觉】第十三讲：批量归一化

2022-03-09 488

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 当我们使用一些波动幅度较大的数据做预测分析时，我们需要对它进行标准化、归一化、滑动窗口等方式做预处理，这样不仅可以提高计算速度，还可以一定程度上提高结果的准确度。这一点在深度神经网络中同样适用，批量归一化(Batch Normalization, BN)就是其中用于数据归一化的一种非常常用的算法，在tensorflow、mxnet这些知名的机器学习框架中都对BN进行了实现，它不仅能够加快训练过程，同时还具备一些正则化功能，对防止过拟合具有一定作用。下面就来详细介绍一下这个算法。备注：在有些文章中Batch Normalization也有被译作批量标准化

前言

当我们用一些数据做一个预测系统时，我们首先需要对数据进行预处理，例如标准化、正则化、滑动窗口等，比如常用的Z-score、最大最小标准化，它能将数据转化为同一个量级，这样的话能够保证数据的稳定性、可比性。

这些标准化方法在浅层神经网络中已经足够使用，效果已经很不错。但是在深度学习中，网络越来越深，使用这些标准化方法就难以解决相应的问题。

为什么需要批量归一化？

在训练过程中，每层输入的分布不断的变化，这使得下一层需要不断的去适应新的数据分布，在深度神经网络中，这让训练变得非常复杂而且缓慢。对于这样，往往需要设置更小的学习率、更严格的参数初始化。通过使用批量归一化(Batch Normalization, BN)，在模型的训练过程中利用小批量的均值和方差调整神经网络中间的输出，从而使得各层之间的输出都符合均值、方差相同高斯分布，这样的话会使得数据更加稳定，无论隐藏层的参数如何变化，可以确定的是前一层网络输出数据的均值、方差是已知的、固定的，这样就解决了数据分布不断改变带来的训练缓慢、小学习率等问题。

在哪里使用批量归一化？

批量归一化是卷积神经网络中一个可选单元，如果使用BN能够保证训练速度更快，同时还可以具备一些正则化功能。

在卷积神经网络中卷积层和全连接层都可以使用批量归一化。

对于卷积层，它的位置是在卷积计算之后、激活函数之前。对于全连接层，它是在仿射变换之后，激活函数之前，如下所示：

conv_1 = tf.nn.conv2d()
norm_1 = tf.nn.batch_normalization(conv_1)
relu_1 = tf.nn.relu(norm_1)
pool_1 = tf.nn.max_pool(relu_1)

以卷积层为例，网络架构的流程为：

卷积运算
批量归一化
激活函数
池化

批量归一化

在讲批量归一化之前，首先讲一下数据标准化处理算法Z-score。Z-score标准化也成为标准差标准化，它是将数据处理成均值为0，方差为1的标准正态分布，它的转化公式为，

其实批量归一化在思想上和Z-score是有很多共通之处的。

在深度学习训练过程中会选取一个小批量，然后计算小批量数据的均值和方差，

然后对数据进行归一化处理，

下面看一下原文中批量归一化的算法步骤：

获取每次训练过程中的样本
就算小批量样本的均值、方差
归一化
拉伸和偏移

这里要着重介绍一下最后一步尺度变换(scale and shift)，前面3步已经对数据进行了归一化，为什么还需要拉伸和偏移呢？因为经过前三步的计算使得数据被严格的限制为均值为0、方差为1的正态分布之下，这样虽然一定程度上解决了训练困难的问题，但是这样的严格限制网络的表达能力，通过加入拉伸和偏移这两个参数可以使得数据分布的自由度更高，网络表达能力更强。另外，这两个参数和其他参数相同，通过不断的学习得出。

tensorflow中BN的使用

在tensorflow中可以直接调用批量归一化对数据进行处理，它的函数为，

tf.nn.batch_normalization(x, mean, variance, offset, scale, variance_epsilon, name=None)

来解释一下函数中参数的含义：

x：输入的数据，可以是卷积层的输出，也可以是全连接层的输出
mean：输出数据的均值
variance：输出数据的方差
offset：偏移，就是前面提到的beta
scale：缩放，前面提到的gamma
variance_epsilon：一个极小的值，避免分母为0

【动手学计算机视觉】第十三讲：批量归一化

前言

批量归一化

tensorflow中BN的使用

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

【动手学计算机视觉】第十三讲：批量归一化

前言

批量归一化

tensorflow中BN的使用

热门文章

最新文章

相关课程

相关电子书

相关实验场景