降龙十八掌:这套优化transformer内存占用的组合技值得收藏(1)

简介: 降龙十八掌:这套优化transformer内存占用的组合技值得收藏


很多时候,内存限制会阻碍 ViT 以及 LLM 的训练,这篇文章介绍了 9 种减少内存消耗峰值的方法。难能可贵的是,这几种方法可以同时使用,就好像降龙十八掌中最后一掌,正是将前几张组合起来就能打出最强大的效果。


峰值内存消耗是训练深度学习模型(如视觉 Transformer 和 LLM)时的常见瓶颈。本文提供了一系列可以在不牺牲建模性能和预测精度的情况下,将 PyTorch 中的内存消耗降低到约 1/20 的技术。

以 PyTorch 的 Torchvision 库中的视觉 transformer 为基础,本文作者编写了大约 100 行代码的训练脚本,并且所有代码示例都可以在 GitHub 上找到。

以下是本文将要介绍的技术名称:

  • 微调 vision transformer
  • 自动混合精度训练
  • 低精度训练
  • Reduced Batch Size 训练
  • 梯度积累与 Microbatches
  • 选择更精简的优化器
  • 在目标设备上实例化模型
  • 分布式训练与张量共享
  • 参数卸载
  • 以上九种方法结合起来,就形成了一种可以用于 llm 的综合方法,也可以称之为第十种方法。


这些方法是互相解耦的,可以将它们叠加在一起使用。

本文在实验中使用的 ViT 为 ViT-L-16 模型。在依次将上述方法添加后,研究者将训练 BigBird-Roberta LLM 来执行文本分类任务。这些技术使得在消费类硬件上训练这样的模型成为可能。

微调 vision transformer

为了简化实验中的 PyTorch 代码,本文使用了开源库 ——Fabric,十几行代码就能应用各种先进的 PyTorc 技术(自动混合精度训练、多 GPU 训练、张量分片等)。

原生 PyTorch 代码和修改后的使用 Fabric 的代码之间的区别很微妙,只有较小的修改,如下面的代码所示:


如上所述,改动虽然不大,但是可以方便的使用 PyTorch 中的高级功能,而无需重新构造任何现有代码。

总结上图,将普通 PyTorch 代码转换为 PyTorch+Fabric 的主要 3 个步骤可以归纳如下:


  1. 导入 Fabric 并实例化 Fabric 对象。
  2. 使用 Fabric 设置模型、优化器和数据加载程序。
  3. 调用 fabric.backward () 构造损失函数,而不是通常使用的 loss.backward ()


使用普通 PyTorch 和 PyTorch with Fabric 的性能和内存消耗几乎完全相同:

Plain PyTorch (01_pytorch-vit.py):




Time elapsed 17.94 minMemory used: 26.79 GBTest accuracy 95.85%


PyTorch with Fabric (01-2_pytorch-fabric.py)





Time elapsed 17.88 minMemory used: 26.84 GBTest accuracy 96.06%


也可以将下面的代码


model = vit_l_16(weights=ViT_L_16_Weights.IMAGENET1K_V1)


替换为


model = vit_l_16(weights=None)


替换后,将不再是微调,而是从头开始训练相同的 ViT 架构,预测准确率会从 96% 以上下降到约 60%:


自动混合精度

上一节使用 Fabric 修改了 PyTorch 代码,在此基础上,使用混合精度和分布式训练,也只需更改一行代码。

应用混合精度训练

应用混合精度训练,只需一个小的修改,将下面这行代码


fabric = Fabric(accelerator="cuda", devices=1)


替换为


fabric = Fabric(accelerator="cuda", devices=1, precision="16-mixed")


之后,在不牺牲预测精度的情况下,内存消耗从 26.84GB 减少到 18.21GB,如下所示:

01-2_pytoch-fabric.py 和 02_mixed-precision.py 的结果对比

此外,混合精确训练不仅减少了内存使用,还将运行时间减少了 6 倍(从 17.88 分钟减少到 3.45 分钟),这可以说是意外收获。

什么是混合精度训练?

混合精度训练同时使用 16 位和 32 位精度,以确保不损失精度。16 位表示的梯度计算比 32 位格式快得多,并且节省了大量的内存。这种策略是有益的,尤其是当受到内存或计算限制时。

之所以被称为「混合」而不是「低」精度训练的原因是,并不会将所有参数和操作都转移成 16 位浮点数。实际上,在训练期间会在 32 位和 16 位运算之间切换。

如下图所示,混合精度训练可以分解为:将权重转换为较低精度(如 FP16)以实现更快的计算、计算梯度、将梯度转换回较高精度(FP32)以实现数值稳定性,以及用缩放的梯度更新原始权重等几个步骤。


这种方法在保证训练有效的前提下,还能保持神经网络的准确性和稳定性。

感兴趣的读者还可以在本文作者的另一篇文章:《使用混合精度技术加速大型语言模型》中获得更多底层概念。

文章地址:https://lightning.ai/pages/community/tutorial/accelerating-large-language-models-with-mixed-precision-techniques/

低精度训练

还可以更进一步,尝试以「完全」较低的 16 位精度运行,而不是混合精度。

将下面这行代码


fabric = Fabric(accelerator="cuda", precision="16-mixed")


替换为


fabric = Fabric(accelerator="cuda", precision="16-true")


但需要注意的是,这样会在训练中产生 NaN 值:





Epoch: 0001/0001 | Batch 0000/0703 | Loss: 2.4105Epoch: 0001/0001 | Batch 0300/0703 | Loss: nanEpoch: 0001/0001 | Batch 0600/0703 | Loss: nan...


这是因为常规的 16 位浮点只能表示 - 65504 和 65504 之间的数字:





In [1]: import torch
In [2]: torch.finfo(torch.float16)Out[2]: finfo(resolution=0.001, min=-65504, max=65504, eps=0.000976562, smallest_normal=6.10352e-05, tiny=6.10352e-05, dtype=float16)


因此,为了避免 NaN 问题,可以将参数修改为「bf16 true」:


fabric = Fabric(accelerator="cuda", precision="bf16-true")


可以将内存消耗进一步降低到 13.82 GB(同样,在不牺牲准确性的情况下):

将 03_bfloat16.py 与之前的代码的结果进行比较

什么是 Bfloat16?

「bf16 mixed」中的「bf16」代表 Brain Floating Point(bfloat16)。谷歌为机器学习和深度学习应用程序开发了这种格式,特别是在其张量处理单元(TPU)中。与传统 float16 格式相比,Bfloat16 以降低精度为代价扩展了动态范围。


扩展的动态范围有助于 bfloat16 表示非常大和非常小的数字,使其更适合可能遇到广泛值的深度学习应用。然而,较低的精度可能会影响某些计算的准确性,或在某些情况下导致舍入误差。但在大多数深度学习应用中,这种精度的降低对建模性能的影响微乎其微。

虽然 bfloat16 最初是为 TPU 开发的,但这种格式从 A100 Tensor Core GPU 开始,也得到了其之后的 NVIDIA GPU 的支持。

以下代码可以检查 GPU 是否支持 bfloat16:




>>> import torch>>> torch.cuda.is_bf16_supported()True


减少批大小

减少批大小通常是减少内存消耗的一个有效方法。然而,它有时会导致较差的预测性能,因为这样要改变训练动态。

无论哪种方式,需要探讨减少批量大小对结果有何影响。事实证明,可以在不牺牲性能的情况下将批大小降低到 16,从而将内存消耗降至 5.69 GB:

将 04_lower-batchsize.py 与以前的代码进行比较。

相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
相关文章
|
1天前
|
存储 Java 数据库连接
Java堆栈内存管理与优化技巧的实践指南
Java堆栈内存管理与优化技巧的实践指南
|
2天前
|
存储 监控 算法
Java堆栈内存管理与优化技巧的实践指南
Java堆栈内存管理与优化技巧的实践指南
|
2天前
|
传感器 缓存 监控
移动应用性能调优:内存管理与电量优化
【6月更文挑战第30天】移动应用性能调优聚焦内存管理和电量优化:关键在于适时释放对象、使用缓存、优化图片加载、减少CPU占用、精简网络请求及合理使用传感器。利用专用工具分析内存与电量使用,以提升性能和用户体验。
|
3天前
|
Java 程序员 编译器
Java内存模型深度解析与实践优化策略
在多线程编程领域,Java内存模型(Java Memory Model, JMM)是确保并发程序正确性的基石。本文深入探讨JMM的工作原理,结合最新研究成果和实际案例,揭示高效同步策略和避免常见并发缺陷的方法。文章不仅阐述理论,更注重实践,旨在为Java开发者提供全面的内存模型应用指南。
|
5天前
|
Java UED 开发者
JVM逃逸分析原理解析:优化Java程序性能和内存利用效率
JVM逃逸分析原理解析:优化Java程序性能和内存利用效率
|
5天前
|
存储 缓存 监控
深入解析JVM内存分配优化技术:TLAB
深入解析JVM内存分配优化技术:TLAB
|
11天前
|
算法 调度 内存技术
操作系统中的内存管理优化策略
在数字时代的浪潮中,操作系统的高效运行成为了技术发展的关键。本文深入探讨了操作系统中内存管理的优化策略,旨在通过先进的技术和方法提高系统性能。文章首先概述了内存管理的基本概念和重要性,随后详细介绍了几种主要的内存优化技术,包括分页机制、虚拟内存以及内存泄漏检测等。最后,文章分析了这些优化措施对提升系统性能的实际影响,并展望了内存管理技术的未来发展方向。
22 0
|
1天前
|
存储
|
7天前
|
存储 C语言
【C语言进阶篇】整数在内存的存储——原码、反码、补码
【C语言进阶篇】整数在内存的存储——原码、反码、补码
|
8天前
|
存储 Java C++
Java虚拟机(JVM)管理内存划分为多个区域:程序计数器记录线程执行位置;虚拟机栈存储线程私有数据
Java虚拟机(JVM)管理内存划分为多个区域:程序计数器记录线程执行位置;虚拟机栈存储线程私有数据,如局部变量和操作数;本地方法栈支持native方法;堆存放所有线程的对象实例,由垃圾回收管理;方法区(在Java 8后变为元空间)存储类信息和常量;运行时常量池是方法区一部分,保存符号引用和常量;直接内存非JVM规范定义,手动管理,通过Buffer类使用。Java 8后,永久代被元空间取代,G1成为默认GC。
21 2