三分钟教你如何PyTorch自定义反向传播

简介: 三分钟教你如何PyTorch自定义反向传播

在前面两篇教程中,我们详细讲解了如何编写cuda算子,并用PyTorch进行调用,并且详细讲述了三种编译cuda算子的方式,具体可以看前面两篇:

PyTorch自定义CUDA算子教程与运行时间分析

详解PyTorch编译并调用自定义CUDA算子的三种方式

本文我们将讲解如何用自定义cuda算子搭建一个简单的神经网络,并实现反向传播,进行模型训练。

完整的代码还是放在了github仓库,欢迎大家star并fork:

https://github.com/godweiyang/torch-cuda-example

本文主要涉及到的是train.py这个代码,功能是搭建了一个PyTorch模型,并且调用了自定义的cuda算子,实现了自定义的反向传播函数,最终完成训练。

模型描述


之前我们实现了一个的tensor求和cuda算子,于是我们可以利用它来实现。

最终训练收敛后和都会趋近于0,模型没有输入,只有两个可训练的参数和。

搭建模型


首先我们还是像正常写PyTorch模型那样搭建一个模型,代码如下:

class AddModel(nn.Module):
    def __init__(self, n):
        super(AddModel, self).__init__()
        # tensor长度
        self.n = n
        # 定义可训练参数a和b
        self.a = nn.Parameter(torch.Tensor(self.n))
        self.b = nn.Parameter(torch.Tensor(self.n))
        # 正态分布初始化参数a和b
        self.a.data.normal_(mean=0.0, std=1.0)
        self.b.data.normal_(mean=0.0, std=1.0)
    def forward(self):
        # 求a^2与b^2
        a2 = torch.square(self.a)
        b2 = torch.square(self.b)
        # 调用自定义cuda算子对两个平方数求和
        c = AddModelFunction.apply(a2, b2, self.n)
        return c

重点就在调用自定义cuda算子那一行AddModelFunction.apply(),你也可以写成c = a2 + b2。不过这里我们为了演示如何使用自定义cuda算子,所以不这么干了。

实现自定义cuda算子前向和反向传播


下面就是如何实现AddModelFunction.apply()函数了,我们先来看一下具体代码:

class AddModelFunction(Function):
    @staticmethod
    def forward(ctx, a, b, n):
        c = torch.empty(n).to(device="cuda:0")
        if args.compiler == 'jit':
            cuda_module.torch_launch_add2(c, a, b, n)
        elif args.compiler == 'setup':
            add2.torch_launch_add2(c, a, b, n)
        elif args.compiler == 'cmake':
            torch.ops.add2.torch_launch_add2(c, a, b, n)
        else:
            raise Exception("Type of cuda compiler must be one of jit/setup/cmake.")
        return c
    @staticmethod
    def backward(ctx, grad_output):
        return (grad_output, grad_output, None)

这个类继承的是torch.autograd.Function类,我们可以用它来实现一下无法自动求导的操作,比如arxmax这种不可导的函数。

我们需要实现两个函数,forwardbackward,分别用来前向和反向传播,注意都得声明成静态函数。

前向传播接收多个参数,第一个固定为ctx,用来存储反向传播中可能会用到的一些上下文,比如input和一些前向过程中的中间变量等等,其他参数随你定。然后我们根据上一教程中调用cuda算子的方法计算得到求和结果,进行返回。

反向传播接收两个参数,第一个同样是ctx,里面存着前向过程中保存的一些上下文变量信息。第二个是grad_output,也就是最终的损失函数对前向传播的返回值求导的结果。在我们这里的模型中,令

那么自定义cuda算子实现的就是这一步,而grad_output就是。我们自定义的cuda算子反向传播的导数就是和,然后根据链式求导法则就可以得到损失函数对每个参数的导数了。

反向传播返回值表示损失函数对前向传播每一个参数的梯度,所以个数必须等于前向传播除了ctx以外的其他参数个数,并且顺序也要一一对应。因为,所以返回值就是grad_outputgrad_outputNone,因为对常数不需要求导,所以直接返回空即可。

训练流程


最终训练流程和平常一样:

# 定义模型
model = AddModel(n)
# 将模型中所有参数拷贝到GPU端
model.to(device="cuda:0")
# 定义优化器
opt = torch.optim.SGD(model.parameters(), lr=0.01)
for epoch in range(500):
    # 清空优化器缓存
    opt.zero_grad()
    # 前向传播
    output = model()
    # 求loss
    loss = output.sum()
    # 反向传播
    loss.backward()
    # 更新参数
    opt.step()
    if epoch % 25 == 0:
        print("epoch {:>3d}: loss = {:>8.3f}".format(epoch, loss))

最终损失函数降到了0,log信息如下:

Loading extension module add2...
Initializing model...
Initializing optimizer...
Begin training...
epoch   0: loss = 1996.658
epoch  25: loss =  727.122
epoch  50: loss =  264.796
epoch  75: loss =   96.431
epoch 100: loss =   35.117
epoch 125: loss =   12.789
epoch 150: loss =    4.657
epoch 175: loss =    1.696
epoch 200: loss =    0.618
epoch 225: loss =    0.225
epoch 250: loss =    0.082
epoch 275: loss =    0.030
epoch 300: loss =    0.011
epoch 325: loss =    0.004
epoch 350: loss =    0.001
epoch 375: loss =    0.001
epoch 400: loss =    0.000
epoch 425: loss =    0.000
epoch 450: loss =    0.000
epoch 475: loss =    0.000

小结


这三个教程暂时告一段落了,通过这些简单的例子,应该大致能学会如何自己写cuda算子,并且用PyTorch调用,完成模型训练了。

更复杂的模型其实基本的原理都是类似的,我不喜欢上来就讲解很复杂的大项目源码,我喜欢抽象出一个最简的example,这样更容易理解底层的原理,而不会被很多冗余的代码干扰。

相关文章
|
Prometheus 监控 Cloud Native
搭建部署Grafana
搭建部署grafana
715 1
|
消息中间件 关系型数据库 Kafka
Flink CDC产品常见问题之 Oraclecdc JdbcIncrementalSource 捕获不到数据如何解决
Flink CDC(Change Data Capture)是一个基于Apache Flink的实时数据变更捕获库,用于实现数据库的实时同步和变更流的处理;在本汇总中,我们组织了关于Flink CDC产品在实践中用户经常提出的问题及其解答,目的是辅助用户更好地理解和应用这一技术,优化实时数据处理流程。
|
机器学习/深度学习 PyTorch 算法框架/工具
PyTorch基础之网络模块torch.nn中函数和模板类的使用详解(附源码)
PyTorch基础之网络模块torch.nn中函数和模板类的使用详解(附源码)
1300 0
|
Java Python
Python中线程池的使用及内存泄漏问题
Python中线程池的使用及内存泄漏问题
423 0
|
机器学习/深度学习 算法 PyTorch
深入理解PyTorch自动微分:反向传播原理与实现
【4月更文挑战第17天】本文深入解析PyTorch的自动微分机制,重点讨论反向传播的原理和实现。反向传播利用链式法则计算神经网络的梯度,包括前向传播、梯度计算、反向传播及参数更新。PyTorch通过`autograd`模块实现自动微分,使用`Tensor`和计算图记录操作历史以自动计算梯度。通过示例展示了如何在PyTorch中创建张量、定义计算过程及求梯度。掌握这些有助于提升深度学习模型的训练效率。
|
机器学习/深度学习 自然语言处理 PyTorch
PyTorch 中的动态图与静态图:理解它们的区别及其应用场景
【8月更文第29天】深度学习框架中的计算图是构建和训练神经网络的基础。PyTorch 支持两种类型的计算图:动态图和静态图。本文旨在阐述这两种计算图的区别、各自的优缺点以及它们在不同场景下的应用。
3045 0
|
8月前
|
机器学习/深度学习 人工智能 并行计算
一文了解火爆的DeepSeek R1 | AIGC
DeepSeek R1是由DeepSeek公司推出的一款基于强化学习的开源推理模型,无需依赖监督微调或人工标注数据。它在数学、代码和自然语言推理任务上表现出色,具备低成本、高效率和多语言支持等优势,广泛应用于教育辅导、金融分析等领域。DeepSeek R1通过长链推理、多语言支持和高效部署等功能,显著提升了复杂任务的推理准确性,并且其创新的群体相对策略优化(GRPO)算法进一步提高了训练效率和稳定性。此外,DeepSeek R1的成本低至OpenAI同类产品的3%左右,为用户提供了更高的性价比。
2539 11
|
机器学习/深度学习 存储 数据可视化
以pytorch的forward hook为例探究hook机制
【10月更文挑战第10天】PyTorch 的 Hook 机制允许用户在不修改模型代码的情况下介入前向和反向传播过程,适用于模型可视化、特征提取及梯度分析等任务。通过注册 `forward hook`,可以在模型前向传播过程中插入自定义操作,如记录中间层输出。使用时需注意输入输出格式及计算资源占用。
334 1
|
8月前
|
机器学习/深度学习 存储
DeepSeek进阶开发与应用4:DeepSeek中的分布式训练技术
随着深度学习模型和数据集规模的扩大,单机训练已无法满足需求,分布式训练技术应运而生。DeepSeek框架支持数据并行和模型并行两种模式,通过将计算任务分配到多个节点上并行执行,显著提高训练效率。本文介绍DeepSeek中的分布式训练技术,包括配置与启动方法,帮助用户轻松实现大规模模型训练。数据并行通过`MirroredStrategy`同步梯度,适用于大多数模型;模型并行则通过`ParameterServerStrategy`异步处理大模型。DeepSeek简化了分布式环境配置,支持单机多卡和多机多卡等场景。
|
机器学习/深度学习 编解码 算法框架/工具
经典神经网络论文超详细解读(二)——VGGNet学习笔记(翻译+精读)
经典神经网络论文超详细解读(二)——VGGNet学习笔记(翻译+精读)
627 1
经典神经网络论文超详细解读(二)——VGGNet学习笔记(翻译+精读)