BN与神经网络调优（二）-阿里云开发者社区

BN与神经网络调优（二）

2022-05-18 127

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： BN与神经网络调优（二）

2.4.2.1 批标准化公式

所以假设对于上图第二个四个神经元隐层。记做Z^{[l]}Z[l]，那么这一层会涉及多个z,所以我们默认用z^{[l]}_{[i]}z[i][l],为了简单显示去掉了ll层这个标识,所以对于标准化中的平均值，以及方差

\mu = \frac{1}{m} \sum_i z^{(i)}μ=m1∑iz(i)
\sigma^2 = \frac{1}{m} \sum_i {(z_i - \mu)}^2σ2=m1∑i(zi−μ)2
z_{norm}^{(i)} = \frac{z^{(i)} - \mu}{\sqrt{\sigma^2 + \epsilon}}znorm(i)=√σ2+ϵz(i)−μ

其中\epsilonϵ是为了防止分母为0，取值10^{-8}10−8。这样使得所有的l层输入z^{[l]}_{[i]}z[i][l]为 0，方差为 1。但是原文的作者不想让隐藏层单元总是含有平均值 0 和方差 1，他认为也许隐藏层单元有了不同的分布会更有意义。因此，我们会增加这样的甲酸

\tilde z^{(i)} = \gamma z^{(i)}_{norm} + \betaz~(i)=γznorm(i)+β

其中，\gammaγ和\betaβ都是模型的学习参数（如同W和b一样），所以可以用各种梯度下降算法来更新 γ 和 β 的值，如同更新神经网络的权重一样。

为什么要使用这样两个参数

如果各隐藏层的输入均值在靠近0的区域，即处于激活函数的线性区域，不利于训练非线性神经网络，从而得到效果较差的模型。因此，需要用 γ 和 β 对标准化后的结果做进一步处理。

2.4.2.2 过程图

每一层中都会有两个参数\beta, \gammaβ,γ。

注：原论文的公式图

2.4.2.2 为什么批标准化能够是优化过程变得简单

我们之前在原文中标记了一个问题叫做叫做"internal covariate shift"。这个词翻译叫做协变量偏移，但是并不是很好理解。那么有一个解释叫做在网络当中数据的分布会随着不同数据集改变。这是网络中存在的问题。那我们一起来看一下数据本身分布是在这里会有什么问题。

也就是说如果我们在训练集中的数据分布如左图，那么网络当中学习到的分布状况也就是左图。那对于给定一个测试集中的数据，分布不一样。这个网络可能就不能准确去区分。这种情况下，一般要对模型进行重新训练。

Batch Normalization的作用就是减小Internal Covariate Shift 所带来的影响，让模型变得更加健壮，鲁棒性（Robustness）更强。即使输入的值改变了，由于 Batch Normalization 的作用，使得均值和方差保持固定（由每一层\gammaγ和\betaβ决定），限制了在前层的参数更新对数值分布的影响程度，因此后层的学习变得更容易一些。Batch Normalization 减少了各层 W 和 b 之间的耦合性，让各层更加独立，实现自我训练学习的效果

2.4.2.3 BN总结

Batch Normalization 也起到微弱的正则化效果，但是不要将 Batch Normalization 作为正则化的手段，而是当作加速学习的方式。Batch Normalization主要解决的还是反向传播过程中的梯度问题（梯度消失和爆炸）。

2.4.3 总结

掌握基本的超参数以及调参技巧

掌握BN的原理以及作用

BN与神经网络调优（二）

2.4.2.1 批标准化公式

2.4.2.2 过程图

2.4.2.2 为什么批标准化能够是优化过程变得简单

2.4.2.3 BN总结

2.4.3 总结

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

BN与神经网络调优（二）

2.4.2.1 批标准化公式

2.4.2.2 过程图

2.4.2.2 为什么批标准化能够是优化过程变得简单

2.4.2.3 BN总结

2.4.3 总结

热门文章

最新文章

相关课程

相关电子书

相关实验场景