【动手学计算机视觉】第十三讲:批量归一化

简介: 当我们使用一些波动幅度较大的数据做预测分析时,我们需要对它进行标准化、归一化、滑动窗口等方式做预处理,这样不仅可以提高计算速度,还可以一定程度上提高结果的准确度。这一点在深度神经网络中同样适用,批量归一化(Batch Normalization, BN)就是其中用于数据归一化的一种非常常用的算法,在tensorflow、mxnet这些知名的机器学习框架中都对BN进行了实现,它不仅能够加快训练过程,同时还具备一些正则化功能,对防止过拟合具有一定作用。下面就来详细介绍一下这个算法。备注:在有些文章中Batch Normalization也有被译作批量标准化

前言

当我们用一些数据做一个预测系统时,我们首先需要对数据进行预处理,例如标准化、正则化、滑动窗口等,比如常用的Z-score、最大最小标准化,它能将数据转化为同一个量级,这样的话能够保证数据的稳定性、可比性。

这些标准化方法在浅层神经网络中已经足够使用,效果已经很不错。但是在深度学习中,网络越来越深,使用这些标准化方法就难以解决相应的问题。

为什么需要批量归一化?

在训练过程中,每层输入的分布不断的变化,这使得下一层需要不断的去适应新的数据分布,在深度神经网络中,这让训练变得非常复杂而且缓慢。对于这样,往往需要设置更小的学习率、更严格的参数初始化。通过使用批量归一化(Batch Normalization, BN),在模型的训练过程中利用小批量的均值和方差调整神经网络中间的输出,从而使得各层之间的输出都符合均值、方差相同高斯分布,这样的话会使得数据更加稳定,无论隐藏层的参数如何变化,可以确定的是前一层网络输出数据的均值、方差是已知的、固定的,这样就解决了数据分布不断改变带来的训练缓慢、小学习率等问题。

在哪里使用批量归一化?

批量归一化是卷积神经网络中一个可选单元,如果使用BN能够保证训练速度更快,同时还可以具备一些正则化功能。

在卷积神经网络中卷积层和全连接层都可以使用批量归一化。

对于卷积层,它的位置是在卷积计算之后、激活函数之前。对于全连接层,它是在仿射变换之后,激活函数之前,如下所示:

conv_1 = tf.nn.conv2d()
norm_1 = tf.nn.batch_normalization(conv_1)
relu_1 = tf.nn.relu(norm_1)
pool_1 = tf.nn.max_pool(relu_1)

以卷积层为例,网络架构的流程为:

  • 卷积运算
  • 批量归一化
  • 激活函数
  • 池化

批量归一化

65.png

在讲批量归一化之前,首先讲一下数据标准化处理算法Z-score。Z-score标准化也成为标准差标准化,它是将数据处理成均值为0,方差为1的标准正态分布,它的转化公式为,

66.png

67.png

其实批量归一化在思想上和Z-score是有很多共通之处的。

在深度学习训练过程中会选取一个小批量,然后计算小批量数据的均值和方差,

68.png

然后对数据进行归一化处理,


69.png

70.png

下面看一下原文中批量归一化的算法步骤:

71.png

  • 获取每次训练过程中的样本
  • 就算小批量样本的均值、方差
  • 归一化
  • 拉伸和偏移

这里要着重介绍一下最后一步尺度变换(scale and shift),前面3步已经对数据进行了归一化,为什么还需要拉伸和偏移呢?因为经过前三步的计算使得数据被严格的限制为均值为0、方差为1的正态分布之下,这样虽然一定程度上解决了训练困难的问题,但是这样的严格限制网络的表达能力,通过加入拉伸偏移这两个参数可以使得数据分布的自由度更高,网络表达能力更强。另外,这两个参数和其他参数相同,通过不断的学习得出。

tensorflow中BN的使用

在tensorflow中可以直接调用批量归一化对数据进行处理,它的函数为,

tf.nn.batch_normalization(x, mean, variance, offset, scale, variance_epsilon, name=None)

来解释一下函数中参数的含义:

  • x:输入的数据,可以是卷积层的输出,也可以是全连接层的输出
  • mean:输出数据的均值
  • variance:输出数据的方差
  • offset:偏移,就是前面提到的beta
  • scale:缩放,前面提到的gamma
  • variance_epsilon:一个极小的值,避免分母为0


相关文章
|
4月前
|
机器学习/深度学习 编解码
深度之眼(二十八)——神经网络基础知识(三)-卷积神经网络
深度之眼(二十八)——神经网络基础知识(三)-卷积神经网络
45 14
|
6月前
|
机器学习/深度学习 监控 自动驾驶
【传知代码】从零开始搭建图像去雾神经网络-论文复现
本文介绍了基于集成学习的双分支非均匀去雾神经网络的复现,该网络由迁移学习子网和数据拟合子网组成,分别处理全局表示和数据拟合。网络使用Res2Net作为编码器,并结合通道和像素注意力模块。代码可在提供的链接下载。网络在交通监控、自动驾驶、航海和目标跟踪等领域有广泛应用,通过提升图像质量来提高系统性能。实验在O-Haze、I-Haze和NH-Haze数据集上进行,展示了网络在去除雾霾方面的效果,尽管存在细节模糊和色彩饱和度低的问题。
158 1
|
机器学习/深度学习 算法 决策智能
计算机视觉实战(十六)光流估计 (附完整代码)
计算机视觉实战(十六)光流估计 (附完整代码)
178 0
|
机器学习/深度学习 算法 决策智能
计算机视觉实战(十五)背景建模 (附完整代码)
计算机视觉实战(十五)背景建模 (附完整代码)
259 0
|
机器学习/深度学习 存储 关系型数据库
【吴恩达课后编程作业】第三周作业 (附答案、代码)隐藏层神经网络 神经网络、深度学习、机器学习
【吴恩达课后编程作业】第三周作业 (附答案、代码)隐藏层神经网络 神经网络、深度学习、机器学习
438 0
【吴恩达课后编程作业】第三周作业 (附答案、代码)隐藏层神经网络 神经网络、深度学习、机器学习
|
机器学习/深度学习 存储 移动开发
【吴恩达课后编程作业】第二周作业 (附答案、代码) Logistic回归 神经网络、深度学习、机器学习
【吴恩达课后编程作业】第二周作业 (附答案、代码) Logistic回归 神经网络、深度学习、机器学习
385 0
【吴恩达课后编程作业】第二周作业 (附答案、代码) Logistic回归 神经网络、深度学习、机器学习
|
机器学习/深度学习 PyTorch 算法框架/工具
Pytorch基于迁移学习的Alexnet卷积神经网络-手撕(可直接运行)-部分地方不懂的可以参考我上一篇手撕Alexnet神经网络的注释 两个基本一样 只是这个网络是迁移过来的
Pytorch基于迁移学习的Alexnet卷积神经网络-手撕(可直接运行)-部分地方不懂的可以参考我上一篇手撕Alexnet神经网络的注释 两个基本一样 只是这个网络是迁移过来的
|
机器学习/深度学习 PyTorch 算法框架/工具
Pytorch基于迁移学习的VGG卷积神经网络-手撕(可直接运行)-部分地方不懂的可以参考我上一篇手撕VGG神经网络的注释 两个基本一样 只是这个网络是迁移过来的
Pytorch基于迁移学习的VGG卷积神经网络-手撕(可直接运行)-部分地方不懂的可以参考我上一篇手撕VGG神经网络的注释 两个基本一样 只是这个网络是迁移过来的
|
机器学习/深度学习 数据可视化 算法
【动手学计算机视觉】第十五讲:卷积神经网络之LeNet
LeNet是由2019年图灵奖获得者、深度学习三位顶级大牛之二的Yann LeCun、Yoshua Bengio于1998年提出,它也被认为被认为是最早的卷积神经网络模型。但是,由于算力和数据集的限制,卷积神经网络提出之后一直都被传统目标识别算法(特征提取+分类器)所压制。终于在沉寂了14年之后的2012年,AlexNet在ImageNet挑战赛上一骑绝尘,使得卷积神经网络又一次成为了研究的热点。尽管近几年深度卷积网络非常热门,LeNet基本处于被忽略的状态,但是它的思想依然对CNN的学习有着不可忽视的价值。本文就详细介绍一下LeNet的结构,同时会详细介绍网络模型的搭建方法。
【动手学计算机视觉】第十五讲:卷积神经网络之LeNet
|
机器学习/深度学习 搜索推荐 数据挖掘
无监督学习-线性方法|深度学习(李宏毅)(十七)
无监督学习-线性方法|深度学习(李宏毅)(十七)
222 0
无监督学习-线性方法|深度学习(李宏毅)(十七)
下一篇
无影云桌面