Local Response Normalization作用——感觉LRN也是解决的梯度消失和爆炸问题，统计机器学习中的一个经典假设是“源空间（source domain）和目标空间（target domain）的数据分布（distribution）是一致的

2017-11-16 3625

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

AlexNet将LeNet的思想发扬光大，把CNN的基本原理应用到了很深很宽的网络中。AlexNet主要使用到的新技术点如下。

（1）成功使用ReLU作为CNN的激活函数，并验证其效果在较深的网络超过了Sigmoid，成功解决了Sigmoid在网络较深时的梯度弥散问题。虽然ReLU激活函数在很久之前就被提出了，但是直到AlexNet的出现才将其发扬光大。

（2）训练时使用Dropout随机忽略一部分神经元，以避免模型过拟合。Dropout虽有单独的论文论述，但是AlexNet将其实用化，通过实践证实了它的效果。在AlexNet中主要是最后几个全连接层使用了Dropout。

（3）在CNN中使用重叠的最大池化。此前CNN中普遍使用平均池化，AlexNet全部使用最大池化，避免平均池化的模糊化效果。并且AlexNet中提出让步长比池化核的尺寸小，这样池化层的输出之间会有重叠和覆盖，提升了特征的丰富性。

（4）提出了LRN层，对局部神经元的活动创建竞争机制，使得其中响应比较大的值变得相对更大，并抑制其他反馈较小的神经元，增强了模型的泛化能力。

LRN（Local Response Normalization）

ImageNet中的LRN层是按下述公式计算的：

但似乎，在后来的设计中，这一层已经被其它种的Regularization技术，如drop out, batch normalization取代了。知道了这些，似乎也可以不那么纠结这个LRN了。

转自：http://blog.csdn.net/searobbers_duck/article/details/51645941

感觉LRN也是解决的梯度消失和爆炸问题。

BN本质上解决的是反向传播过程中的梯度问题。

详细点说，反向传播时经过该层的梯度是要乘以该层的参数的，即前向有：

$h_l = w_l^Th_{l-1}$

那么反向传播时便有：

$\frac{\partial l}{\partial h_{l-1}} = \frac{\partial l}{\partial h_l} . \frac{\partial h_l}{\partial h_{l-1}} = \frac{\partial l}{\partial h_l} w_l$

那么考虑从l层传到k层的情况，有：

$\frac{\partial l}{\partial h_k} = \frac{\partial l}{\partial h_l} \prod _{i=k+1}^{l} w_i$

上面这个 $\prod_{i=k+1}^l w_i$ 便是问题所在。因为网络层很深，如果 w_i 大多小于1，那么传到这里的时候梯度会变得很小比如 $0.9^{100}$ ；而如果 w_i 又大多大于1，那么传到这里的时候又会有梯度爆炸问题比如 $1.1^{100}$ 。

BN所做的就是解决这个梯度传播的问题，因为BN作用抹去了w的scale影响。

具体有：

h_l= ( $w_lh_{l-1}$ ) = ( $\alpha w_lh_{l-1}$ )

那么反向求导时便有了：

$\frac{\partial h_l}{\partial h_{l-1}}=$ $\frac{\partial BN w_lh_{l-1}}{\partial h_{l-1}} =$ $\frac{\partial BN \alpha w_lh_{l-1}}{\partial h_{l-1}}$

可以看到此时反向传播乘以的数不再和的尺度相关，也就是说尽管我们在更新过程中改变了的值，但是反向传播的梯度却不受影响。更进一步：

$\frac{\partial h_l}{\partial w_l} = \frac{\partial BNw_lh_{l-1}}{\partial w_l} = \frac{1}{\alpha}.\frac{\partial BN \alpha w_l h_{l-1}}{\partial w_l}$

即尺度较大的将获得一个较小的梯度，在同等的学习速率下其获得的更新更少，这样使得整体的更新更加稳健起来。

总结起来就是BN解决了反向传播过程中的梯度问题（梯度消失和爆炸），同时使得不同scale的整体更新步调更一致。

链接：https://www.zhihu.com/question/38102762/answer/164790133

为什么要用BN？BN work的原因是什么？
说到底，BN的提出还是为了克服深度神经网络难以训练的弊病。其实BN背后的insight非常简单，只是在文章中被Google复杂化了。
首先来说说“Internal Covariate Shift”。文章的title除了BN这样一个关键词，还有一个便是“ICS”。大家都知道在 统计机器学习中的一个经典假设是“源空间（source domain）和目标空间（target domain）的数据分布（distribution）是一致的”。如果不一致，那么就出现了新的机器学习问题，如，transfer learning/domain adaptation等。而covariate shift就是分布不一致假设之下的一个分支问题，它是指源空间和目标空间的条件概率是一致的，但是其边缘概率不同，即：对所有 $x\in \mathcal{X}$ , P_s(Y|X=x)=P_t(Y|X=x)

，但是 $P_s(X)\ne P_t(X)$ . 大家细想便会发现，的确，对于神经网络的各层输出，由于它们经过了层内操作作用，其分布显然与各层对应的输入信号分布不同，而且差异会随着网络深度增大而增大，可是它们所能“指示”的样本标记（label）仍然是不变的，这便符合了covariate shift的定义。由于是对层间信号的分析，也即是“internal”的来由。
那么好，为什么前面我说Google将其复杂化了。其实如果严格按照解决covariate shift的路子来做的话，大概就是上“importance weight”（ ref）之类的机器学习方法。可是这里Google仅仅说“通过mini-batch来规范化某些层/所有层的输入，从而可以固定每层输入信号的均值与方差”就可以解决问题。如果covariate shift可以用这么简单的方法解决，那前人对其的研究也真真是白做了。此外，试想，均值方差一致的分布就是同样的分布吗？当然不是。显然，ICS只是这个问题的“包装纸”嘛，仅仅是一种high-level demonstration。
那BN到底是什么原理呢？说到底还是 为了防止“梯度弥散”。关于梯度弥散，大家都知道一个简单的栗子： $0.9^{30}\approx 0.04$ 。在BN中，是通过将activation规范为均值和方差一致的手段使得原本会减小的activation的scale变大。可以说是一种更有效的local response normalization方法（见4.2.1节）。

链接：https://www.zhihu.com/question/38102762/answer/85238569

本文转自张昺华-sky博客园博客，原文链接：http://www.cnblogs.com/bonelee/p/8268459.html ，如需转载请自行联系原作者

Local Response Normalization作用——感觉LRN也是解决的梯度消失和爆炸问题，统计机器学习中的一个经典假设是“源空间（source domain）和目标空间（target domain）的数据分布（distribution）是一致的

LRN（Local Response Normalization）

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Local Response Normalization作用——感觉LRN也是解决的梯度消失和爆炸问题，统计机器学习中的一个经典假设是“源空间（source domain）和目标空间（target domain）的数据分布（distribution）是一致的

LRN（Local Response Normalization）

热门文章

最新文章

相关课程

相关电子书

相关实验场景