Pytorch教程[06]权值初始化

2022-12-01 189 发布于辽宁

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Pytorch教程[06]权值初始化

背景知识

神经网络的训练过程中的参数学习是基于梯度下降法进行优化的。梯度下降法需要在开始训练时给每一个参数赋一个初始值，因此权重初始化的选取十分的关键，设定什么样的初始化方法关系到模型能否成功学习。那么如果我们把权重初始值全部设置为0，会怎样？？？通常来说，把权值初始值设置成0，不是一个理性的选择，因为实际上如果初始化为0的话，模型将无法学习。因为如果参数都为0，在第一遍前向计算时，所有的隐层神经元的激活值都相同。这样会导致深层神经元没有区分性。这种现象也称为对称权重现象。因此为了打破这个现象，比较好的方式就是给每个参数随机初始化一个值。

但是初始化的值太小，那么导致神经元的输入过小，经过多层之后信号就消失了，设置的过大导致数据状态过大，对于sigmoid类型的激活函数来说，激活值就一下子饱和了，梯度接近于0，也是不好训练的。

因此，参数初始化的区间应该根据神经元的性质进行差异化的设置。

一.梯度消失与梯度爆炸

1.1梯度爆炸

在反向传播过程中需要对激活函数进行求导，如果导数大于1，那么随着网络层数的增加，梯度更新将会朝着指数爆炸的方式增加。

1.2梯度消失

如果导数小于1，那么随着网络层数的增加，梯度更新信息会朝着指数衰减的方式减少这就是梯度消失。

因此，梯度消失、梯度爆炸，其根本原因在于反向传播训练法则，属于先天不足。

二.Xavier方法与Kaiming方法

2.1Xavier均匀分布初始化

torch.nn.init.xavier_uniform_(tensor, gain=1.0)

公式：

eg.

w = torch.empty(3, 5)
nn.init.xavier_uniform_(w, gain=nn.init.calculate_gain('relu'))

2.2 Xavier正态分布初始化

torch.nn.init.xavier_normal_(tensor, gain=1.0)

w = torch.empty(3, 5)
nn.init.xavier_normal_(w)

2.3 kaiming正态分布

torch.nn.init.kaiming_normal_(tensor, a=0, mode=‘fan_in’, nonlinearity=‘leaky_relu’)

w = torch.empty(3, 5)
nn.init.xavier_normal_(w)

2.4 kaiming均匀分布

torch.nn.init.kaiming_uniform_(tensor, a=0, mode=‘fan_in’, nonlinearity=‘leaky_relu’)

w = torch.empty(3, 5)
nn.init.kaiming_uniform_(w, mode='fan_in', nonlinearity='relu')

三.常用初始化方法

Xavier均匀分布
Xavier正态分布
Kaiming均匀分布
Kaiming正态分布
均匀分布
正态分布
常数分布
正交矩阵初始化
单位矩阵初始化
稀疏矩阵初始化

Pytorch教程[06]权值初始化

背景知识

一.梯度消失与梯度爆炸

1.1梯度爆炸

1.2梯度消失

二.Xavier方法与Kaiming方法

2.1Xavier均匀分布初始化

2.2 Xavier正态分布初始化

2.3 kaiming正态分布

2.4 kaiming均匀分布

三.常用初始化方法

热门文章

最新文章

相关电子书

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Pytorch教程[06]权值初始化

背景知识

一.梯度消失与梯度爆炸

1.1梯度爆炸

1.2梯度消失

二.Xavier方法与Kaiming方法

2.1Xavier均匀分布初始化

2.2 Xavier正态分布初始化

2.3 kaiming正态分布

2.4 kaiming均匀分布

三.常用初始化方法

热门文章

最新文章

相关电子书

推荐镜像