目标检测的Tricks | 【Trick2】自动混合精度(Automatic mixed precision)

简介: 目标检测的Tricks | 【Trick2】自动混合精度(Automatic mixed precision)

1. 自动混合精度理论概要


一句话概括的是,自动混合精度的实现使用的autocast + GradScaler。以下是对自动混合精度的介绍:


  1. amp:Automatic mixed precision,自动混合精度,可以在神经网络推理过程中,针对不同的层,采用不同的数据精度进行计算,从而实现节省显存和加快速度的目的。自动混合精度的关键词有两个:自动、混合精度。这是由PyTorch 1.6的torch.cuda.amp模块带来的:from torch.cuda import amp
  2. 混合精度:预示着有不止一种精度的Tensor,那在PyTorch的AMP模块里是几种呢?2种:torch.FloatTensor(浮点型 32位)和torch.HalfTensor(半精度浮点型 16位);
  3. 自动:预示着Tensor的dtype类型会自动变化,也就是框架按需自动调整tensor的dtype(其实不是完全自动,有些地方还是需要手工干预);


补充说明:

  • torch.cuda.amp 的名字意味着这个功能只能在cuda上使用;
  • torch默认的tensor精度类型是torch.FloatTensor


问题:为什么需要自动混合精度,也就是torch.FloatTensor和torch.HalfTensor的混合,而不全是torch.FloatTensor?或者全是torch.HalfTensor?


原因: 在某些上下文中torch.FloatTensor有优势,在某些上下文中torch.HalfTensor有优势。什么是torch.HalfTensor?


torch.HalfTensor:

  • torch.HalfTensor的优势就是存储小、计算快、更好的利用CUDA设备的Tensor Core。因此训练的时候可以减少显存的占用(可以增加batchsize了),同时训练速度更快;
  • torch.HalfTensor的劣势就是:数值范围小(更容易Overflow / Underflow)、舍入误差(Rounding Error,导致一些微小的梯度信息达不到16bit精度的最低分辨率,

     从而丢失)。


可见,当有优势的时候就用torch.HalfTensor,而为了消除torch.HalfTensor的劣势,有两种解决方案:


  • 方案一:

梯度scale,这正是上一小节中提到的torch.cuda.amp.GradScaler,通过放大loss的值来防止梯度消失underflow(这只是BP的时候传递梯度信息使用,真正更新权重的时候还是要把放大的梯度再unscale回去);

  • 方案二:

回落到torch.FloatTensor,这就是混合一词的由来。那怎么知道什么时候用torch.FloatTensor,什么时候用半精度浮点型呢?这是PyTorch框架决定的,AMP上下文中,一些常用的操作中tensor会被自动转化为半精度浮点型的torch.HalfTensor(如:conv1d、conv2d、conv3d、linear、prelu等)。实际上,在训练过程中,内存中占据大部分的基本都是 activations 的值。特别是在batchsize 很大的情况下, activations 更是特别占据空间。 保存 activiations 主要是为了在 back-propogation 的时候进行计算。因此,只要 activation 的值基本都是使用 fp16 来进行存储的话,则最终模型与 fp32 相比起来, 内存占用也基本能够减半。


总结:

即使了混合精度训练,还是存在无法收敛的情况,原因是激活梯度的值太小,造成了溢出。可以通过使用torch.cuda.amp.GradScaler,通过放大loss的值来防止梯度的underflow(只在BP时传递梯度信息使用,真正更新权重时还是要把放大的梯度再unscale回去);


Loss Scale 主要是为了解决 fp16 underflow 的问题。刚才提到,训练到了后期,梯度(特别是激活函数平滑段的梯度)会特别小,fp16 表示容易产生 underflow 现象。 在SSD 模型在训练过程中,激活函数梯度的分布情况:有67%的梯度小于 -65504 ,如果用 fp16 来表示,则这些梯度都会变成0。


为了解决梯度过小的问题,论文中对计算出来的loss值进行scale,由于链式法则的存在,loss上的scale会作用也会作用在梯度上。这样比起对每个梯度进行scale更加划算。 scaled 过后的梯度,就会平移到 fp16 有效的展示范围内。这样,scaled-gradient 就可以一直使用 fp16 进行存储了。只有在进行更新的时候,才会将 scaled-gradient 转化为 fp32,同时将scale抹去。论文指出, scale 并非对于所有网络而言都是必须的。而scale的取值为也会特别大,论文给出在 8 - 32k 之间皆可。


自动混合精度的实现使用的autocast + GradScaler,下面分别对autocast和GradScaler进行介绍。


2. Autocast使用介绍


使用torch.cuda.amp模块中的autocast 类


Autocast使用的参考代码:


from torch.cuda import amp
# 创建model,默认是torch.FloatTensor
model = Net().cuda()
optimizer = optim.SGD(model.parameters(), ...)
# 判断能否使用自动混合精度
enable_amp = True if "cuda" in device.type else False
for input, target in data:
    optimizer.zero_grad()
    # 前向过程(model + loss)开启 autocast
    with amp.autocast(enabled=enable_amp):
        output = model(input)
        loss = loss_fn(output, target)
    # 反向传播在autocast上下文之外
    loss.backward()
    optimizer.step()


需要注意:

  • 当进入autocast,自动将torch.FloatTensor类型转化为torch.HalfTensor,而不需要手动设置model.half()/input.half,框架会自动做,这也是自动混合精度中“自动”一词的由来。
  • autocast上下文应该只包含网络的前向过程(包括loss的计算),而不要包含反向传播。


3. GradScaler使用介绍


这里GradScaler就是第二小节中提到的梯度scaler模块,需要在训练最开始之前使用amp.GradScaler实例化一个GradScaler对象


GradScaler使用的参考代码:


from torch.cuda import amp
# 创建model,默认是torch.FloatTensor
model = Net().cuda()
optimizer = optim.SGD(model.parameters(), ...)
# 判断能否使用自动混合精度
enable_amp = True if "cuda" in device.type else False
# 在训练最开始之前实例化一个GradScaler对象
scaler = amp.GradScaler(enabled=enable_amp)
for epoch in epochs:
    for input, target in data:
        optimizer.zero_grad()
        # 前向过程(model + loss)开启 autocast
        with amp.autocast(enabled=enable_amp):
            output = model(input)
            loss = loss_fn(output, target)
        # 1、Scales loss.  先将梯度放大 防止梯度消失
        scaler.scale(loss).backward()
        # 2、scaler.step()   再把梯度的值unscale回来.
        # 如果梯度的值不是 infs 或者 NaNs, 那么调用optimizer.step()来更新权重,
        # 否则,忽略step调用,从而保证权重不更新(不被破坏)
        scaler.step(optimizer)
        # 3、准备着,看是否要增大scaler
        scaler.update()
        # 正常更新权重
        optimizer.zero_grad()


需要注意:


scaler的大小在每次迭代中动态的估计,为了尽可能的减少梯度underflow,scaler应该更大;但是如果太大的话,半精度浮点型的tensor又容易overflow(变成inf或者NaN)。所以动态估计的原理就是在不出现inf或者NaN梯度值的情况下尽可能的增大scaler的值——在每次scaler.step(optimizer)中,都会检查是否又inf或NaN的梯度出现:


  • 如果出现了inf或者NaN,scaler.step(optimizer)会忽略此次的权重更新(optimizer.step() ),并且将scaler的大小缩小(乘上backoff_factor);
  • 如果没有出现inf或者NaN,那么权重正常更新,并且当连续多次(growth_interval指定)没有出现inf或者NaN,则scaler.update()会将scaler的大小增加(乘上growth_factor)。


4. 自动混合精度实现代码


YOLOv3-SPP中的代码:


scaler = torch.cuda.amp.GradScaler() if opt.amp else None
def train_one_epoch(model, optimizer, data_loader, device, epoch,
                    print_freq, accumulate, img_size,
                    grid_min, grid_max, gs,
                    multi_scale=False, warmup=False, scaler=None):
    ...
    # 使用自动混合精度
    with amp.autocast(enabled=scaler is not None):
        pred = model(imgs)
        # loss计算
        loss_dict = compute_loss(pred, targets, model)
        losses = sum(loss for loss in loss_dict.values())
    # backward
    # 通过放大loss的值来防止梯度的underflow,只在BP时传递梯度信息使用
    if scaler is not None:
        scaler.scale(losses).backward()     # 先将梯度放大 防止梯度消失
    else:
        losses.backward()
    # optimize
    # 每训练64张图片更新一次权重
    if ni % accumulate == 0:
        if scaler is not None:
            scaler.step(optimizer)  # 把梯度的值unscale回来
            scaler.update()
        else:
            optimizer.step()      
        # 正常更新权重
        optimizer.zero_grad()
    ...


主要原理:

Loss Scale 主要是为了解决 fp16 underflow 的问题。刚才提到,训练到了后期,梯度(特别是激活函数平滑段的梯度)会特别小,fp16 表示容易产生 underflow 现象。


  • 反向传播前,将损失变化手动增大2^k倍,因此反向传播时得到的中间变量(激活函数梯度)则不会溢出;
  • 反向传播后,将权重梯度缩小2^k倍,恢复正常值


多GPU训练:

单卡训练的话上面的代码已经够了。要是想多卡跑的话仅仅这样还不够,会发现在forward里面的每个结果都还是float32的。


解决办法:只要把model中的forward里面的代码用autocast代码块方式运行就好了

class Model(nn.Module):
    def __init__(self):
        super(Model, self).__init__()
    def forward(self, input):
        with autocast():
            .....
        return


参考资料:

1. torch.cuda.amp自动混合精度训练 —— 节省显存并加快推理速度

2. 混合精度训练amp,torch.cuda.amp.autocast()


目录
相关文章
|
机器学习/深度学习 人工智能 自然语言处理
Genesis:卡内基梅隆大学联合 20 多所研究机构开源生成式物理引擎,能够模拟各种材料、物体和物理运动现象
Genesis是由卡内基梅隆大学联合20多所研究机构开源的生成式物理引擎,能够模拟世界万物,具有高度的物理准确性和快速的模拟速度,适用于机器人仿真、游戏开发、电影特效制作等多个领域。
616 21
Genesis:卡内基梅隆大学联合 20 多所研究机构开源生成式物理引擎,能够模拟各种材料、物体和物理运动现象
|
机器学习/深度学习 存储 并行计算
Pytorch自动混合精度(AMP)介绍与使用 - autocast和Gradscaler
Pytorch自动混合精度(AMP)介绍与使用 - autocast和Gradscaler
Pytorch自动混合精度(AMP)介绍与使用 - autocast和Gradscaler
|
8月前
|
人工智能 自然语言处理 程序员
通义灵码 2.5 版发布上线,支持 Qwen3
示例中展示了通义灵码创建贪食蛇游戏的过程,包括代码优化、Bug修复和功能改进(如游戏结束后提示重新开始)。并通过AI总结了工具的核心能力,如实时续写、自然语言生码、单元测试生成等,帮助开发者高效编码并提升代码质量。
335 10
|
存储 算法 NoSQL
[Eigen中文文档] 稀疏矩阵操作
在许多应用中(例如,有限元方法),通常要处理非常大的矩阵,其中只有少数系数不为零。在这种情况下,可以通过使用仅存储非零系数的特殊表示来减少内存消耗并提高性能。这样的矩阵称为稀疏矩阵。
880 0
|
9月前
|
人工智能 自动驾驶 物联网
5G到底有多牛?一文看懂它的原理与优势!
5G到底有多牛?一文看懂它的原理与优势!
592 19
|
9月前
|
数据采集 JavaScript 前端开发
浏览器自动化检测对抗:修改navigator.webdriver属性的底层实现
本文介绍了如何构建一个反检测爬虫以爬取Amazon商品信息。通过使用`undetected-chromedriver`规避自动化检测,修改`navigator.webdriver`属性隐藏痕迹,并结合代理、Cookie和User-Agent技术,实现稳定的数据采集。代码包含浏览器配置、无痕设置、关键词搜索及数据提取等功能,同时提供常见问题解决方法,助你高效应对反爬策略。
770 1
|
10月前
|
Oracle 关系型数据库 数据库
【赵渝强老师】Oracle数据库的闪回表
本文介绍了Oracle数据库中的闪回表(Flashback Table)功能,它能够将表的数据快速恢复到特定时间点或系统改变号(SCN),无需备份。文章通过实战示例详细演示了如何使用闪回表恢复数据,包括授权、创建测试表、记录时间与SCN号、删除数据、启用行移动功能、执行闪回操作以及验证恢复结果等步骤。同时,还展示了如何通过触发器禁止插入操作,并在闪回过程中处理触发器的启用问题。文末附有视频讲解,帮助读者更好地理解闪回表的使用方法。
395 10
|
传感器 自动驾驶 安全
深入解析SOME/IP协议在汽车行业的应用案例
深入解析SOME/IP协议在汽车行业的应用案例
664 0
|
机器学习/深度学习 人工智能 自然语言处理
【AI 生成式】强化学习如何应用于生成式 AI?
【5月更文挑战第4天】【AI 生成式】强化学习如何应用于生成式 AI?
|
安全 芯片
bluez5.50+pulseaudio实现蓝牙音响音频播放
bluez5.50+pulseaudio实现蓝牙音响音频播放
1520 0
bluez5.50+pulseaudio实现蓝牙音响音频播放