深度学习最佳实践系列——权重w初始化-阿里云开发者社区

深度学习最佳实践系列——权重w初始化

2018-06-25 4208

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文是深度学习最佳实践系列博客之权重初始化，主要介绍权重初始化的相关问题及方法，文中提及的权重初始化方法均可以应用于普通的神经网络、卷积神经网络和递归神经网络之中。

作为深度学习的初学者，我有意识到的一件事情，即网络上没有太多的在线文档能够涵盖所有深层次的学习技巧。都是一些比较零碎的实践技巧，比如权重初始化、正则化及循环学习率等，这些可以使得训练和调试神经网络变得更容易和更高效。本系列博客内容将尽可能多地介绍一些实践细节，以便你更容易实现深度学习方法。
在撰写本文时，假定读者已经对如何训练神经网络有着一个基本的理解。理解权重（weight）、偏置（bias）、隐藏层（hidden layer）、激活函数（activation function）等内容将使你看本篇文章会更加清晰。如果你想建立一个深度学习的基础，推荐这门课程。
注明：本文提到神经网络的层时，表示的是一个简单的神经网络层，即全连接层。当然，本文所讲解的一些方法也适用于卷积和循环神经网络。在本文中，将讨论与权重矩阵初始化相关的问题以及如何减轻它们的方法。在此之前，先介绍一些将要使用的基本知识和符号。

基础和符号

考虑一个L层神经网络，它具有L-1个隐藏层和1个输出层。第l层的参数（权重和偏置）表示为

除了权重和偏置之外，在训练过程中，还会计算以下中间变量

一个神经网络的训练过程一般由以下4个步骤组成：

1.初始化权重和偏置。
2.前向传播（forward propagation）：使用输入X，权重W和偏置b，对于每一层计算Z和A。在最后一层中，计算f(A ^（L-1))，它可能会是S形函数softmax或线性函数的A ^(L-1)，并得到预测值y_hat。
3.计算损失函数（loss function）：该函数是理想标签y和预测标签y_hat二者的函数，它表明预测值离实际目标值有多大差距，训练神经网络模型的目的就是要尽量减少损失函数的值。
4.反向传播（back propagation）：在这一过程中，需要计算损失函数f(y，y_hat)相对于A、W和b的梯度，分别称为dA、dW和db。使用这些梯度值，将参数的值从最后一层反向更新到第一层。
5.对n次迭代重复步骤2-4，直到我们觉得已经最小化了损失函数，且没有过拟合训练数据时则表明训练结束。
下面快速浏览第2步、第3步和第4步。以一个2层网络为例，即只有一个隐藏层。（注意，为了简单起见，在这里没有添加偏置）：
前向传播

反向传播
权重W初始化
建立网络时首先需要注意的是要正确初始化权重矩阵。下面让我们考虑在训练模型时可能导致出现问题的两种初始化情况：
1.将所有权重初始化为0
这样的操作将使得模型等价于一个线性模型。将所有权重设为0时，对于W ^ l中的每个w而言，损失函数的导数都是相同的，因此在随后的迭代中所有权重具有相同的值，这会使得隐藏单元变得对称，并继续运行设置的n次迭代。因此，将权重设置为零会使得网络的性能并不比线性模型更好。值得注意的是，将偏置设置为0不会产生任何麻烦，因为非零权重可以打破对称性，即使偏置为0，每个神经元的值仍然不同。
2.随机初始化权重
按照标准正态分布（Python中可以用np.random.randn(size_l，size_l-1)实现）随机初始化权重可能会导致2个问题——梯度消失（vanishing gradient）或梯度爆炸（exploding gradient）：
a)梯度消失——对于深度网络，任何激活函数abs(dW)值将随着反向传播过程中每一层向后移动而变得越来越小。在这种情况下，较早的层次变化是最慢的。
权重更新较小，进而导致收敛速度变慢，这使会使得损失函数的优化变得缓慢。在最坏的情况下，可能会完全停止神经网络的进一步训练。
更具体地说，在sigmoid(z)和tanh(z)的情况下，如果权重值很大，那么梯度将会很小，从而有效地防止权重改变它们的值，这是因为abs(dW)每次迭代后会稍微增加或者变得越来越小。使用RELU(z)作为激活函数时，梯度消失通常不会成为问题，因为负（和零）输入的梯度值总为0，其正输入时梯度的值总为1。
b)梯度爆炸——这与梯度消失完全相反。假设你有非负的、大的权重值和小的激活值A（可能是sigmoid(z)的情况）。当这些权重沿着层次相乘时，会导致损失函数发生较大变化。因此，梯度值也会很大，这意味着W的变化将大幅增加W-⍺* dW。
这可能导致模型在最小值附近一直振荡，一次又一次错过了最佳值，模型将永远不会得到最好的学习！梯度爆炸的另一个影响是梯度的超大值可能会导致数字溢出，从而导致不正确的计算或引入NaN，这也可能导致出现损失值为NaN的情况。
最佳实践
1.使用RELU/leaky RELU作为激活函数，因为它对梯度消失/爆炸问题（特别是对于不太深的网络而言）相对健壮。在 leaky RELU作为激活函数的情况下，从来不会有梯度为0的时候，因此模型参数更新将永远不会停止，训练仍会继续训练。
2.对于深度网络，可以使用启发式来根据非线性激活函数初始化权重。在这里，并不是从标准正态分布绘图，而是用方差为k /n的正态分布初始化W，其中k的值取决于激活函数。尽管这些启发式方法不能完全解决梯度消失/爆炸问题，但它们在很大程度上有助于缓解这一问题。最常见的启发式方法是：
a)对于RELU(z)——将随机生成的W值乘以：

b)对于tanh(z) ——也被称为Xavier初始化。与前一个方法类似，但k的值设置为1而不是设置为2。

在TensorFlow中可以用W = tf.get_variable（'W'，[dims]，initializer）实现，其中initializer = tf.contrib.layers.xavier_initializer( )。
c)另一个常用的启发式方法：

这些方法都可以作为权重w初始化方法，都有缓解爆炸或消失梯度的可能性。这样设置的权重w既不会太大，也不会太小于1。因此，梯度不会消失或爆炸，有助于避免收敛缓慢，同时确保模型不会一直在最小值附近摇晃。当然，还存在上述方法的其它变体，大致的思想都是使参数的方差最小化。
3.梯度剪枝——这是处理梯度爆炸问题的另一种方法。我们可以设置一个阈值，如果一个梯度的选择函数大于这个设定的阈值，那么我们就将它设置为另一个值。例如，如果l2_norm(W)>阈值，则将L2范数超过特定阈值时的梯度值归一化为-W = W threshold / l2_norm(W)。
需要注意的一点是，就是上述内容都是谈的权重W的各种初始化方法，并没有介绍任何偏置b的初始化方法。这是因为每层偏置的梯度仅取决于该层的线性激活值，而不取决于较深层的梯度值。因此，*对于偏置项不会存在梯度消失和梯度爆炸问题。如前所述，可以安全地将偏置b初始化为0。
结论
在本文中，着重介绍了权重初始化方法以及一些缓解技术。如果本文漏掉了一些与此主题相关的任何其他有用的见解，希望读者在留言出指出。在接下来的博客中，将进一步讨论正则化方法，以减少过拟合和梯度检查——这是一种使调试更简单的技巧。
参考
1.深层神经权重初始化；
2.神经网络：bp训练算法；
3.神经网络梯度爆炸简介；
4.梯度消失问题；
5.为什么梯度爆炸对于RNN模型是一个大问题；
数十款阿里云产品限时折扣中，赶紧点击领劵开始云上实践吧！

作者信息
Neerja Doshi，数据科学，计算机视觉专业
本文由阿里云云栖社区组织翻译。
文章原标题《Deep Learning Best Practices – Weight Initialization》，译者：海棠，审校：Uncle_LLD。

深度学习最佳实践系列——权重w初始化

基础和符号

权重W初始化

1.将所有权重初始化为0

2.随机初始化权重

最佳实践

结论

参考

数十款阿里云产品限时折扣中，赶紧点击领劵开始云上实践吧！

作者信息

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

深度学习最佳实践系列——权重w初始化

基础和符号

权重W初始化

1.将所有权重初始化为0

2.随机初始化权重

最佳实践

结论

参考

数十款阿里云产品限时折扣中，赶紧点击领劵开始云上实践吧！

作者信息

热门文章

最新文章

相关课程

相关电子书