【AMP实操】解放你的GPU运行内存!在pytorch中使用自动混合精度训练

简介: 【AMP实操】解放你的GPU运行内存!在pytorch中使用自动混合精度训练

前言

  自动混合精度(Automatic Mixed Precision,简称AMP)是一种深度学习加速技术,它通过在训练过程中自动选择合适的数值类型(如半精度浮点数和单精度浮点数)来加速计算,并减少内存占用,从而提高训练速度和模型性能。

精度

半精度

  半精度浮点数(Half-Precision Floating Point)是一种浮点数数据类型,也被称为16位浮点数,它可以表示的范围和精度都比单精度浮点数(32位)低。半精度浮点数使用1个符号位、5个指数位和10个尾数位来表示一个实数。它可以表示的最大正数是2^16-2^10 ≈ 6.55×10^4,最小正数是2^-14 ≈ 6.10×10^-5,可以表示的精度为2^-10 ≈ 9.77×10^-4。

  半精度浮点数在深度学习中被广泛使用,因为它可以显著地降低模型的计算和存储成本,同时仍能保持较高的训练精度。在卷积神经网络(Convolutional Neural Network,CNN)等深度学习模型中,半精度浮点数通常被用来存储权重和梯度,而输入和中间特征映射通常使用单精度浮点数或者更高精度的浮点数来存储。

全精度

  全精度浮点数是一种浮点数数据类型,也被称为双精度浮点数,它可以表示的范围和精度都比半精度浮点数和单精度浮点数更高。全精度浮点数使用1个符号位、11个指数位和52个尾数位来表示一个实数,它可以表示的最大正数是2^1023-2^970 ≈ 1.80×10^308,最小正数是2^-1022 ≈ 2.23×10^-308,可以表示的精度为2^-52 ≈ 2.22×10^-16。

  全精度浮点数在深度学习中也被广泛使用,特别是在需要高精度计算的场景下,例如语音识别、自然语言处理等任务。在深度学习模型中,全精度浮点数通常被用来存储梯度和模型参数,因为它能够提供较高的计算精度和稳定性,避免出现数值溢出或下溢的问题。

混合精度

  全精度浮点数的缺点是它的计算和存储成本较高,需要更多的计算资源和内存空间。在一些场景下,例如大规模的模型训练和部署,全精度浮点数可能会成为性能瓶颈。因此,为了提高计算和存储效率,半精度浮点数和混合精度计算等技术被广泛应用于深度学习中。

综合比较

  1. 表示范围和精度:全精度浮点数比半精度浮点数能够表示更大范围和更高精度的实数,因为它使用更多的位来表示指数和尾数。全精度浮点数可以表示的最大正数和最小正数分别是半精度浮点数的10^4和10^-4倍左右,可以表示的精度是半精度浮点数的10^-7倍左右。
  2. 计算速度:半精度浮点数在计算速度上比全精度浮点数更快,因为它的位数更少,可以使用更简单和更快的运算方式。在一些计算密集型的深度学习任务中,使用半精度浮点数可以提高计算速度和效率。
  3. 存储空间:半精度浮点数比全精度浮点数使用更少的存储空间,因为它的位数更少。在大规模的深度学习任务中,使用半精度浮点数可以节省存储空间,从而减少模型训练和部署的成本和复杂度。
  4. 数值稳定性:半精度浮点数在表示范围和精度上的限制可能会导致数值溢出或下溢的问题,从而降低模型的计算精度和稳定性。全精度浮点数则更能够保证计算精度和稳定性,在一些需要高精度计算的任务中表现更好。

实操

  在PyTorch中,可以使用torch.cuda.amp模块来实现自动混合精度运算。以下是一个使用自动混合精度运算训练一个神经网络的例子:

ini

复制代码

import torch
from torch import nn, optim
from torch.cuda.amp import GradScaler, autocast
# 定义神经网络模型
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.fc1 = nn.Linear(784, 256)
        self.fc2 = nn.Linear(256, 128)
        self.fc3 = nn.Linear(128, 10)
        self.relu = nn.ReLU()
        self.softmax = nn.Softmax(dim=1)
    def forward(self, x):
        x = x.view(-1, 784)
        x = self.relu(self.fc1(x))
        x = self.relu(self.fc2(x))
        x = self.softmax(self.fc3(x))
        return x
# 加载数据
train_loader = torch.utils.data.DataLoader(
    torchvision.datasets.MNIST('data', train=True, download=True,
                               transform=torchvision.transforms.Compose([
                                   torchvision.transforms.ToTensor(),
                                   torchvision.transforms.Normalize((0.1307,), (0.3081,))
                               ])),
    batch_size=64, shuffle=True)
# 创建模型和优化器
model = Net().cuda()
optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.5)
# 创建GradScaler对象
scaler = GradScaler()
# 训练模型
for epoch in range(10):
    for batch_idx, (data, target) in enumerate(train_loader):
        data, target = data.cuda(), target.cuda()
        
        # 自动混合精度计算
        with autocast():
            output = model(data)
            loss = nn.functional.cross_entropy(output, target)
        
        optimizer.zero_grad()
        scaler.scale(loss).backward()
        scaler.step(optimizer)
        scaler.update()
        if batch_idx % 100 == 0:
            print('Train Epoch: {} [{}/{} ({:.0f}%)]\tLoss: {:.6f}'.format(
                epoch, batch_idx * len(data), len(train_loader.dataset),
                100. * batch_idx / len(train_loader), loss.item()))


相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
相关文章
|
16天前
|
存储 人工智能 PyTorch
基于PyTorch/XLA的高效分布式训练框架
基于PyTorch/XLA的高效分布式训练框架
26 2
|
1月前
|
机器学习/深度学习 数据采集 PyTorch
使用PyTorch解决多分类问题:构建、训练和评估深度学习模型
使用PyTorch解决多分类问题:构建、训练和评估深度学习模型
使用PyTorch解决多分类问题:构建、训练和评估深度学习模型
|
1月前
|
机器学习/深度学习 PyTorch 算法框架/工具
【PyTorch实战演练】AlexNet网络模型构建并使用Cifar10数据集进行批量训练(附代码)
【PyTorch实战演练】AlexNet网络模型构建并使用Cifar10数据集进行批量训练(附代码)
61 0
|
1月前
|
机器学习/深度学习 PyTorch 算法框架/工具
【PyTorch实战演练】使用Cifar10数据集训练LeNet5网络并实现图像分类(附代码)
【PyTorch实战演练】使用Cifar10数据集训练LeNet5网络并实现图像分类(附代码)
60 0
|
3月前
|
PyTorch 算法框架/工具
Automatic mixed precision for Pytorch 自动混合精度训练
Automatic mixed precision for Pytorch 自动混合精度训练
24 0
|
25天前
|
存储 监控 异构计算
【Python】GPU内存监控脚本
【Python】GPU内存监控脚本
|
1月前
|
机器学习/深度学习 自然语言处理 算法
PyTorch实例:简单线性回归的训练和反向传播解析
PyTorch实例:简单线性回归的训练和反向传播解析
PyTorch实例:简单线性回归的训练和反向传播解析
|
3月前
|
机器学习/深度学习 PyTorch 语音技术
Pytorch迁移学习使用Resnet50进行模型训练预测猫狗二分类
深度学习在图像分类、目标检测、语音识别等领域取得了重大突破,但是随着网络层数的增加,梯度消失和梯度爆炸问题逐渐凸显。随着层数的增加,梯度信息在反向传播过程中逐渐变小,导致网络难以收敛。同时,梯度爆炸问题也会导致网络的参数更新过大,无法正常收敛。 为了解决这些问题,ResNet提出了一个创新的思路:引入残差块(Residual Block)。残差块的设计允许网络学习残差映射,从而减轻了梯度消失问题,使得网络更容易训练。
|
1月前
|
存储 JSON 监控
Higress Controller**不是将配置信息推送到Istio的内存存储里面的**。
【2月更文挑战第30天】Higress Controller**不是将配置信息推送到Istio的内存存储里面的**。
14 1
|
1天前
|
存储 算法
【三种方法】求一个整数存储在内存中二进制中的1的个数附两道课外练习题
【三种方法】求一个整数存储在内存中二进制中的1的个数附两道课外练习题
6 0