详解Batch Normalization并基于PyTorch实操(附代码)

简介: 详解Batch Normalization并基于PyTorch实操(附代码)

0. 前言

按照国际惯例,首先声明:本文只是我自己学习的理解,虽然参考了他人的宝贵见解,但是内容可能存在不准确的地方。如果发现文中错误,希望批评指正,共同进步。

本文初创于2022-02-27,由于存在纰漏,以及这一年多的持续学习有一丢丢积累,于2023-09-10进行大修。

本文将从Batch Normalization的数学定义入手,讲解Batch Normalization的计算过程,然后说明Batch Normalization在深度学习中的作用。

1. Batch Normalization的数学定义

1.1 Normalization的表达式

首先需要讲解Normalization的定义。Normalization是对矩阵(张量)的一种操作:这种操作会使原来的张量变成一个均值为0,方差为1的新的张量,其数学表达式为:

image.png

其中 x 为Normalization操作前的数据(原始数据),E [ x ] 为 x的平均值,Var [ x ]为 x 的平方差, y 为Normalization操作后的数据。

在工程上,为了避免Var [ x ] =0导致分母为0,还会在分母上加一个很小的值 ϵ(例如 10^{-5} ):

image.png

1.2 Batch Normalization的表达式

Batch Normalization在Normalization的基础上增加了缩放因子 γ 和偏移量 β,这样其数学表达式就变成了:

image.png

这里就出现了一个难点:缩放因子 γ 和偏移量 β如何计算?

其实缩放因子 γ 和偏移量 β都是可以学习的参数,其默认值为 γ = 1 , β = 0 ,即不进行缩放和偏移。

Pytorch源码注释 :math:\gamma and :math:\beta are learnable parameter vectors of size C (where C is the input size). By default, the elements of :math:\gamma are set to 1 and the elements

这样 γ和 β 可以看作是关于  x的变量,在反向传播时也要计算损失函数 L对 γ 和 β的偏导,并对其进行优化:

image.png

特殊地,如果 image.png ,那就等于是原始数据什么都没处理过,还是原来模样。

2. Batch Normalization的作用

Batch Normalization应用于深度学习模型中,它的作用大体可以包括以下几个方面:

  1. 改善梯度消失/爆炸问题:在深层神经网络中,前面层的梯度经过多次传递后会变得非常小或非常大,从而导致网络收敛速度慢或者不收敛。通过Batch Normalization,可以将每个特征值归一化到均值为0,方差为1的标准正态分布,从而避免梯度消失/爆炸问题。
  2. 加速网络收敛:Batch Normalization可以加速网络的收敛速度,因为它可以使得每个神经元的输入分布更加稳定,从而使得网络更容易学习有效的特征。
  3. 提高模型泛化能力:Batch Normalization可以减少由于数据分布的变化导致的模型性能下降,从而提高模型的泛化能力。
  4. 减少过拟合:Batch Normalization可以提高网络的鲁棒性,使得模型对输入的微小变化更加稳定,从而减少过拟合的风险。

3. PyTorch实战

我们可以计算如下简单矩阵的Batch Normalization操作后的数据。

image.png

在PyTorch中使用nn.BatchNorm2d方法完成矩阵的Batch Normalization操作,它的常用参数如下:

  • num_features: 输入特征的数量,通常为输入数据的通道数。
  • eps: 防止除以0的小值,缺省值为1e-5。
  • momentum: 动量,通常取较小的值(如0.1),用于计算滑动平均值。
  • affine: 是否对输出进行仿射变换,默认为True表示进行仿射变换。
  • track_running_stats: 是否在训练时计算并跟踪运行时统计量,缺省值为True。

一般在使用nn.BatchNorm2d时,通常只需要设置num_features参数即可,其他参数可以使用默认值。

import torch
a = torch.tensor([[[[1,1],
                  [-1,1]]]],dtype=torch.float32)
bn = torch.nn.BatchNorm2d(1) 
b = bn(a)
print(b)

输出为:

tensor([[[[ 0.5773,  0.5773],
          [-1.7320,  0.5773]]]], grad_fn=<NativeBatchNormBackward>)

与笔算结果一致:

image.png

这样,关于Batch Normalization就说明完了~


相关文章
|
6月前
|
机器学习/深度学习 PyTorch 算法框架/工具
【从零开始学习深度学习】30. 神经网络中批量归一化层(batch normalization)的作用及其Pytorch实现
【从零开始学习深度学习】30. 神经网络中批量归一化层(batch normalization)的作用及其Pytorch实现
|
并行计算 PyTorch 编译器
PyTorch 2.0 实操:为 HuggingFace 和 TIMM 模型提速!
PyTorch 2.0 实操:为 HuggingFace 和 TIMM 模型提速!
654 0
|
2月前
|
算法 PyTorch 算法框架/工具
Pytorch学习笔记(九):Pytorch模型的FLOPs、模型参数量等信息输出(torchstat、thop、ptflops、torchsummary)
本文介绍了如何使用torchstat、thop、ptflops和torchsummary等工具来计算Pytorch模型的FLOPs、模型参数量等信息。
364 2
|
20天前
|
机器学习/深度学习 人工智能 PyTorch
Transformer模型变长序列优化:解析PyTorch上的FlashAttention2与xFormers
本文探讨了Transformer模型中变长输入序列的优化策略,旨在解决深度学习中常见的计算效率问题。文章首先介绍了批处理变长输入的技术挑战,特别是填充方法导致的资源浪费。随后,提出了多种优化技术,包括动态填充、PyTorch NestedTensors、FlashAttention2和XFormers的memory_efficient_attention。这些技术通过减少冗余计算、优化内存管理和改进计算模式,显著提升了模型的性能。实验结果显示,使用FlashAttention2和无填充策略的组合可以将步骤时间减少至323毫秒,相比未优化版本提升了约2.5倍。
35 3
Transformer模型变长序列优化:解析PyTorch上的FlashAttention2与xFormers
|
2月前
|
机器学习/深度学习 自然语言处理 监控
利用 PyTorch Lightning 搭建一个文本分类模型
利用 PyTorch Lightning 搭建一个文本分类模型
69 8
利用 PyTorch Lightning 搭建一个文本分类模型
|
2月前
|
机器学习/深度学习 自然语言处理 数据建模
三种Transformer模型中的注意力机制介绍及Pytorch实现:从自注意力到因果自注意力
本文深入探讨了Transformer模型中的三种关键注意力机制:自注意力、交叉注意力和因果自注意力,这些机制是GPT-4、Llama等大型语言模型的核心。文章不仅讲解了理论概念,还通过Python和PyTorch从零开始实现这些机制,帮助读者深入理解其内部工作原理。自注意力机制通过整合上下文信息增强了输入嵌入,多头注意力则通过多个并行的注意力头捕捉不同类型的依赖关系。交叉注意力则允许模型在两个不同输入序列间传递信息,适用于机器翻译和图像描述等任务。因果自注意力确保模型在生成文本时仅考虑先前的上下文,适用于解码器风格的模型。通过本文的详细解析和代码实现,读者可以全面掌握这些机制的应用潜力。
121 3
三种Transformer模型中的注意力机制介绍及Pytorch实现:从自注意力到因果自注意力
|
3月前
|
机器学习/深度学习 PyTorch 调度
在Pytorch中为不同层设置不同学习率来提升性能,优化深度学习模型
在深度学习中,学习率作为关键超参数对模型收敛速度和性能至关重要。传统方法采用统一学习率,但研究表明为不同层设置差异化学习率能显著提升性能。本文探讨了这一策略的理论基础及PyTorch实现方法,包括模型定义、参数分组、优化器配置及训练流程。通过示例展示了如何为ResNet18设置不同层的学习率,并介绍了渐进式解冻和层适应学习率等高级技巧,帮助研究者更好地优化模型训练。
204 4
在Pytorch中为不同层设置不同学习率来提升性能,优化深度学习模型
|
3月前
|
机器学习/深度学习 监控 PyTorch
PyTorch 模型调试与故障排除指南
在深度学习领域,PyTorch 成为开发和训练神经网络的主要框架之一。本文为 PyTorch 开发者提供全面的调试指南,涵盖从基础概念到高级技术的内容。目标读者包括初学者、中级开发者和高级工程师。本文探讨常见问题及解决方案,帮助读者理解 PyTorch 的核心概念、掌握调试策略、识别性能瓶颈,并通过实际案例获得实践经验。无论是在构建简单神经网络还是复杂模型,本文都将提供宝贵的洞察和实用技巧,帮助开发者更高效地开发和优化 PyTorch 模型。
54 3
PyTorch 模型调试与故障排除指南
|
2月前
|
存储 并行计算 PyTorch
探索PyTorch:模型的定义和保存方法
探索PyTorch:模型的定义和保存方法
|
4月前
|
机器学习/深度学习 PyTorch 编译器
PyTorch 与 TorchScript:模型的序列化与加速
【8月更文第27天】PyTorch 是一个非常流行的深度学习框架,它以其灵活性和易用性而著称。然而,当涉及到模型的部署和性能优化时,PyTorch 的动态计算图可能会带来一些挑战。为了解决这些问题,PyTorch 引入了 TorchScript,这是一个用于序列化和优化 PyTorch 模型的工具。本文将详细介绍如何使用 TorchScript 来序列化 PyTorch 模型以及如何加速模型的执行。
169 4