详解Batch Normalization并基于PyTorch实操（附代码）-阿里云开发者社区

详解Batch Normalization并基于PyTorch实操（附代码）

2024-03-25 209 发布于新疆

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 详解Batch Normalization并基于PyTorch实操（附代码）

0. 前言

按照国际惯例，首先声明：本文只是我自己学习的理解，虽然参考了他人的宝贵见解，但是内容可能存在不准确的地方。如果发现文中错误，希望批评指正，共同进步。

本文初创于2022-02-27，由于存在纰漏，以及这一年多的持续学习有一丢丢积累，于2023-09-10进行大修。

本文将从Batch Normalization的数学定义入手，讲解Batch Normalization的计算过程，然后说明Batch Normalization在深度学习中的作用。

1. Batch Normalization的数学定义

1.1 Normalization的表达式

首先需要讲解Normalization的定义。Normalization是对矩阵（张量）的一种操作：这种操作会使原来的张量变成一个均值为0，方差为1的新的张量，其数学表达式为：

其中 x 为Normalization操作前的数据（原始数据），E [ x ] 为 x的平均值，Var [ x ]为 x 的平方差， y 为Normalization操作后的数据。

在工程上，为了避免Var [ x ] =0导致分母为0，还会在分母上加一个很小的值 ϵ（例如 10^{-5} ）：

1.2 Batch Normalization的表达式

Batch Normalization在Normalization的基础上增加了缩放因子 γ 和偏移量 β，这样其数学表达式就变成了：

这里就出现了一个难点：缩放因子 γ 和偏移量 β如何计算？

其实缩放因子 γ 和偏移量 β都是可以学习的参数，其默认值为 γ = 1 ， β = 0 ，即不进行缩放和偏移。

Pytorch源码注释 :math:\gamma and :math:\beta are learnable parameter vectors of size C (where C is the input size). By default, the elements of :math:\gamma are set to 1 and the elements

这样 γ和 β 可以看作是关于 x的变量，在反向传播时也要计算损失函数 L对 γ 和 β的偏导，并对其进行优化：

特殊地，如果，那就等于是原始数据什么都没处理过，还是原来模样。

2. Batch Normalization的作用

Batch Normalization应用于深度学习模型中，它的作用大体可以包括以下几个方面：

改善梯度消失/爆炸问题：在深层神经网络中，前面层的梯度经过多次传递后会变得非常小或非常大，从而导致网络收敛速度慢或者不收敛。通过Batch Normalization，可以将每个特征值归一化到均值为0，方差为1的标准正态分布，从而避免梯度消失/爆炸问题。
加速网络收敛：Batch Normalization可以加速网络的收敛速度，因为它可以使得每个神经元的输入分布更加稳定，从而使得网络更容易学习有效的特征。
提高模型泛化能力：Batch Normalization可以减少由于数据分布的变化导致的模型性能下降，从而提高模型的泛化能力。
减少过拟合：Batch Normalization可以提高网络的鲁棒性，使得模型对输入的微小变化更加稳定，从而减少过拟合的风险。

3. PyTorch实战

我们可以计算如下简单矩阵的Batch Normalization操作后的数据。

在PyTorch中使用nn.BatchNorm2d方法完成矩阵的Batch Normalization操作，它的常用参数如下：

num_features: 输入特征的数量，通常为输入数据的通道数。
eps: 防止除以0的小值，缺省值为1e-5。
momentum: 动量，通常取较小的值（如0.1），用于计算滑动平均值。
affine: 是否对输出进行仿射变换，默认为True表示进行仿射变换。
track_running_stats: 是否在训练时计算并跟踪运行时统计量，缺省值为True。

一般在使用nn.BatchNorm2d时，通常只需要设置num_features参数即可，其他参数可以使用默认值。

import torch
a = torch.tensor([[[[1,1],
                  [-1,1]]]],dtype=torch.float32)
bn = torch.nn.BatchNorm2d(1) 
b = bn(a)
print(b)

输出为：

tensor([[[[ 0.5773,  0.5773],
          [-1.7320,  0.5773]]]], grad_fn=<NativeBatchNormBackward>)

与笔算结果一致：

这样，关于Batch Normalization就说明完了~

详解Batch Normalization并基于PyTorch实操（附代码）

0. 前言

1. Batch Normalization的数学定义

1.1 Normalization的表达式

1.2 Batch Normalization的表达式

2. Batch Normalization的作用

3. PyTorch实战

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

详解Batch Normalization并基于PyTorch实操（附代码）

0. 前言

1. Batch Normalization的数学定义

1.1 Normalization的表达式

1.2 Batch Normalization的表达式

2. Batch Normalization的作用

3. PyTorch实战

热门文章

最新文章

相关课程

相关电子书

推荐镜像