深度学习相关概念：批量归一化

2023-05-12 195

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 在训练过程中，每层输入的分布不断的变化，这使得下一层需要不断的去适应新的数据分布，这就会让训练变得非常复杂而且缓慢。为了解决这个问题，就需要设置更小的学习率、更严格的参数初始化。通过使用批量归一化(Batch Normalization, BN)，在模型的训练过程中利用小批量的均值和方差调整神经网络中间的输出

1.为什么需要批量归一化

在训练过程中，每层输入的分布不断的变化，这使得下一层需要不断的去适应新的数据分布，这就会让训练变得非常复杂而且缓慢。为了解决这个问题，就需要设置更小的学习率、更严格的参数初始化。通过使用批量归一化(Batch Normalization, BN)，在模型的训练过程中利用小批量的均值和方差调整神经网络中间的输出，从而使得各层之间的输出都符合均值、方差相同高斯分布，这样的话会使得数据更加稳定，无论隐藏层的参数如何变化，可以确定的是前一层网络输出数据的均值、方差是已知的、固定的，这样就解决了数据分布不断改变带来的训练缓慢、小学习率等问题。

2.批量归一化

2.1批量归一化和权重初始化

批量归一化是直接对神经元的输出进行批归一化，作用对象是每一层网络的输出。权重初始化是调整权值分布使得输出与输入具有相同的分布，作用对象是每一层网络的权重。

2.2 批量归一化与梯度消失

批量归一化经常插入到全连接层后，非线性激活前。这样可以优化全连接层的输出，避免其梯度消失。

2.3批量归一化算法

小批量梯度下降算法回顾:每次迭代时会读入一(批数据，比如32个样本；经过当前神经元后会有32个输出值.)

批归一化操作:对这32个输出进行减均值除方差操作;可保证当前神经元的输出值的分布符合0均值1方差。

2.4批量归一化算法改进

批量归一化其实就是前三步，最后加了一步，第四补平移缩放，是为了把数据按照一个新的均值、一个新的方差进行调整。

这就是批量归一化的一个改进，为什么要这么改进呢？它前三步输出的这个值还是不好呢？实际上我们是很难确定0均值，1方差一定是对的，0均值，1方差就一定对分类有帮助吗？未必！所以我们更希望算法对分类的贡献来自行决定（让算法自己去学习），到底应该把数据的均值和方差设为多少会对分类效果会更好一些。所以在第四步引入了两个可学习参数， γ 是我希望这个数据方差映射到了新的方差上去， β是我希望这个数据映射到新的均值上去，这样y_i输出的神经网络自己选择的一个均值和方差，这就是批量归一化最重要的一个步，通过这个改进，就可以让网络变得更加好。

γ、β这不是超参数， γ 、β是神经网络需要学习的，让神经网络自己去确定什么样的均值和方差合适这个分类任务。所以批量归一化做的时候先把数据归一化到0均值1方差，然后再以期望的方差和期望的均值去映射，这就是批量归一化的整个的操作流程。

2.5单样本测试

单张样本测试时，均值和方差怎么设置？

训练的时候是有批的，测试的时候怎么测试的时候我给你一个样本你计算出来的时候只有x ₁ ，要想得到一个样本的预测值，就必须得到，但在第三步中 ,γ、β是学好的参数，但是均值和方差怎么办？

这里告诉大家一个结论：

x ₁ 在预测的时候是没法算的，只能在累加学习的时候，把每一批的均值和方差加和求平均，得出来的值就作为预测的时候的均值和方差。所以就可以得到μ _B 、σ _B ，这样就可以计算x₁ ，最终通过得到预测值。

深度学习相关概念：批量归一化

1.为什么需要批量归一化

2.批量归一化

2.1批量归一化和权重初始化

2.2 批量归一化与梯度消失

2.3批量归一化算法

2.4批量归一化算法改进

2.5单样本测试

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

深度学习相关概念：批量归一化

1.为什么需要批量归一化

2.批量归一化

2.1批量归一化和权重初始化

2.2 批量归一化与梯度消失

2.3批量归一化算法

2.4批量归一化算法改进

2.5单样本测试

热门文章

最新文章

相关课程

相关电子书

相关实验场景