0. 前言
按照国际惯例,首先声明:本文只是我自己学习的理解,虽然参考了他人的宝贵见解,但是内容可能存在不准确的地方。如果发现文中错误,希望批评指正,共同进步。
本文初创于2022-02-27,由于存在纰漏,以及这一年多的持续学习有一丢丢积累,于2023-09-10进行大修。
本文将从Batch Normalization的数学定义入手,讲解Batch Normalization的计算过程,然后说明Batch Normalization在深度学习中的作用。
1. Batch Normalization的数学定义
1.1 Normalization的表达式
首先需要讲解Normalization的定义。Normalization是对矩阵(张量)的一种操作:这种操作会使原来的张量变成一个均值为0,方差为1的新的张量
,其数学表达式为:
其中 x 为Normalization操作前的数据(原始数据),E [ x ] 为 x的平均值,Var [ x ]为 x 的平方差, y 为Normalization操作后的数据。
在工程上,为了避免Var [ x ] =0导致分母为0,还会在分母上加一个很小的值 ϵ(例如 10^{-5} ):
1.2 Batch Normalization的表达式
Batch Normalization在Normalization的基础上增加了缩放因子 γ 和偏移量 β,这样其数学表达式就变成了:
这里就出现了一个难点:缩放因子 γ 和偏移量 β如何计算?
其实缩放因子 γ 和偏移量 β都是可以学习的参数
,其默认值为 γ = 1 , β = 0 ,即不进行缩放和偏移。
Pytorch源码注释 :math:
\gamma
and :math:\beta
are learnable parameter vectors of sizeC
(whereC
is the input size). By default, the elements of :math:\gamma
are set to 1 and the elements
这样 γ和 β 可以看作是关于 x的变量,在反向传播时也要计算损失函数 L对 γ 和 β的偏导,并对其进行优化:
特殊地,如果 ,那就等于是原始数据什么都没处理过,还是原来模样。
2. Batch Normalization的作用
Batch Normalization应用于深度学习模型中,它的作用大体可以包括以下几个方面:
- 改善梯度消失/爆炸问题:在深层神经网络中,前面层的梯度经过多次传递后会变得非常小或非常大,从而导致网络收敛速度慢或者不收敛。通过Batch Normalization,可以将每个特征值归一化到均值为0,方差为1的标准正态分布,从而避免梯度消失/爆炸问题。
- 加速网络收敛:Batch Normalization可以加速网络的收敛速度,因为它可以使得每个神经元的输入分布更加稳定,从而使得网络更容易学习有效的特征。
- 提高模型泛化能力:Batch Normalization可以减少由于数据分布的变化导致的模型性能下降,从而提高模型的泛化能力。
- 减少过拟合:Batch Normalization可以提高网络的鲁棒性,使得模型对输入的微小变化更加稳定,从而减少过拟合的风险。
3. PyTorch实战
我们可以计算如下简单矩阵的Batch Normalization操作后的数据。
在PyTorch中使用nn.BatchNorm2d方法完成矩阵的Batch Normalization操作,它的常用参数如下:
- num_features: 输入特征的数量,通常为输入数据的通道数。
- eps: 防止除以0的小值,缺省值为1e-5。
- momentum: 动量,通常取较小的值(如0.1),用于计算滑动平均值。
- affine: 是否对输出进行仿射变换,默认为True表示进行仿射变换。
- track_running_stats: 是否在训练时计算并跟踪运行时统计量,缺省值为True。
一般在使用nn.BatchNorm2d时,通常只需要设置num_features参数即可,其他参数可以使用默认值。
import torch a = torch.tensor([[[[1,1], [-1,1]]]],dtype=torch.float32) bn = torch.nn.BatchNorm2d(1) b = bn(a) print(b)
输出为:
tensor([[[[ 0.5773, 0.5773], [-1.7320, 0.5773]]]], grad_fn=<NativeBatchNormBackward>)
与笔算结果一致:
这样,关于Batch Normalization就说明完了~