Pytorch学习笔记-06 Normalization layers-阿里云开发者社区

Pytorch学习笔记-06 Normalization layers

2023-02-22 143

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Pytorch学习笔记-06 Normalization layers

Why Normalization

Internal Covariate Shift (ICS)：数据尺度分布异常，导致训练困难

Batch Normalization

Batch Normalization ：批标准化

批：一批数据，通常为 mini batch

《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift 》

优点：

可以用更大学习率，加速模型收敛

可以不用精心设计权值初始化

可以不用 dropout 或较小的 dropout

可以不用 L2 或者较小的 weight decay

可以不用 LRN(local response normalization)

BatchNorm

nn.BatchNorm1d

nn.BatchNorm2d

nn.BatchNorm3d

参数：

num_features ：一个样本特征数量（最重要

e p s ：分母修正项

momentum ：指数加权平均估计当前 mean/ var

affine ：是否需要 affine transform

track_running_stats ：是训练状态，还是测试状态

Layer Normalization

起因：

BN 不适用于变长的网络，如 RNN

思路：

逐层计算均值和方差

注意事项：

不再有 running_mean 和 running_var

gamma 和 beta 为逐元素的

主要参数：

normalized_shape ：该层特征形状

eps ：分母修正项

elementwise_affine ：是否需要 affine

transform

Instance Normalization

起因：

BN 在图像生成（ Image Generation ）中不适用

思路：

逐 Instance channel 计算均值和方差

主要参数：

num_features ：一个样本特征数量（最重要

eps ：分母修正项

momentum ：指数加权平均估计当前 mean/ var

affine ：是否需要 affine transform

track_running_stats ：是训练状态，还是测试状态

Group Normalization

起因：小batch 样本中， BN 估计的值不准

思路：数据不够，通道来凑

注意事项：

不再有 running_mean 和 running_var

gamma 和 beta 为逐通道（ channel ）的

应用场景：大模型（小batch size ）任务

小结

BN 、 LN 、 IN 和 GN 都是为了克服 Internal Covariate Shift (ICS)

Pytorch学习笔记-06 Normalization layers

Why Normalization

Batch Normalization

Layer Normalization

Instance Normalization

Group Normalization

小结

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Pytorch学习笔记-06 Normalization layers

Why Normalization

Batch Normalization

Layer Normalization

Instance Normalization

Group Normalization

小结

热门文章

最新文章

相关课程

相关电子书

推荐镜像