探索PyTorch:自动微分模块

简介: 探索PyTorch:自动微分模块

学习目标

🍀 掌握梯度计算


自动微分(Autograd)模块对张量做了进一步的封装,具有自动求导功能。自动微分模块是构成神经网络训练的必要模块,在神经网络的反向传播过程中,Autograd 模块基于正向计算的结果对当前的参数进行微分计算,从而实现网络权重参数的更新。

🍔 梯度基本计算

我们使用 backward 方法、grad 属性来实现梯度的计算和访问.

import torch

1.1 单标量梯度的计算

 

# y = x**2 + 20
    def test01():
 
     # 定义需要求导的张量
     # 张量的值类型必须是浮点类型
     x = torch.tensor(10, requires_grad=True, dtype=torch.float64)
     # 变量经过中间运算
     f = x ** 2 + 20
     # 自动微分
     f.backward()
     # 打印 x 变量的梯度
     # backward 函数计算的梯度值会存储在张量的 grad 变量中
     print(x.grad)

1.2 单向量梯度的计算

 # y = x**2 + 20
 def test02():
 
     # 定义需要求导张量
     x = torch.tensor([10, 20, 30, 40], requires_grad=True, dtype=torch.float64)
     # 变量经过中间计算
     f1 = x ** 2 + 20
 
     # 注意:
     # 由于求导的结果必须是标量
     # 而 f 的结果是: tensor([120., 420.])
     # 所以, 不能直接自动微分
     # 需要将结果计算为标量才能进行计算
     f2 = f1.mean()  # f2 = 1/2 * x
     
     # 自动微分
     f2.backward()

     # 打印 x 变量的梯度
     print(x.grad)

1.3 多标量梯度计算

 # y = x1 ** 2 + x2 ** 2 + x1*x2
 def test03():
 
     # 定义需要计算梯度的张量
     x1 = torch.tensor(10, requires_grad=True, dtype=torch.float64)
     x2 = torch.tensor(20, requires_grad=True, dtype=torch.float64)
 
     # 经过中间的计算
     y = x1**2 + x2**2 + x1*x2
 
     # 将输出结果变为标量
     y = y.sum()
 
     # 自动微分
     y.backward()
 
     # 打印两个变量的梯度
     print(x1.grad, x2.grad)

1.4 多向量梯度计算

 def test04():
 
     # 定义需要计算梯度的张量
     x1 = torch.tensor([10, 20], requires_grad=True, dtype=torch.float64)
     x2 = torch.tensor([30, 40], requires_grad=True, dtype=torch.float64)
 
     # 经过中间的计算
     y = x1 ** 2 + x2 ** 2 + x1 * x2
     print(y)
 
     # 将输出结果变为标量
     y = y.sum()
 
     # 自动微分
     y.backward()

     # 打印两个变量的梯度
     print(x1.grad, x2.grad)
 
 
 if __name__ == '__main__':
     test04()

1.5 运行结果💯

 tensor(20., dtype=torch.float64)
 tensor([ 5., 10., 15., 20.], dtype=torch.float64)
 tensor(40., dtype=torch.float64) tensor(50., dtype=torch.float64)
 tensor([1300., 2800.], dtype=torch.float64, grad_fn=<AddBackward0>)
 tensor([50., 80.], dtype=torch.float64) tensor([ 70., 100.], dtype=torch.float64)

🍔 控制梯度计算

我们可以通过一些方法使得在 requires_grad=True 的张量在某些时候计算不进行梯度计算。

import torch

2.1 控制不计算梯度

 def test01():
 
     x = torch.tensor(10, requires_grad=True, dtype=torch.float64)
     print(x.requires_grad)
 
     # 第一种方式: 对代码进行装饰
     with torch.no_grad():
         y = x ** 2
     print(y.requires_grad)
 
     # 第二种方式: 对函数进行装饰
     @torch.no_grad()
     def my_func(x):
         return x ** 2
     print(my_func(x).requires_grad)
 
 
     # 第三种方式
     torch.set_grad_enabled(False)
     y = x ** 2
     print(y.requires_grad)

2.2 注意: 累计梯度

 def test02():
 
     # 定义需要求导张量
     x = torch.tensor([10, 20, 30, 40], requires_grad=True, dtype=torch.float64)
 
     for _ in range(3):
 
         f1 = x ** 2 + 20
         f2 = f1.mean()
 
         # 默认张量的 grad 属性会累计历史梯度值
         # 所以, 需要我们每次手动清理上次的梯度
         # 注意: 一开始梯度不存在, 需要做判断
         if x.grad is not None:
            x.grad.data.zero_()
 
         f2.backward()
         print(x.grad)

2.3 梯度下降优化最优解

def test03():
 
    # y = x**2
    x = torch.tensor(10, requires_grad=True, dtype=torch.float64)
 
    for _ in range(5000):
 
        # 正向计算
        f = x ** 2
 
        # 梯度清零
        if x.grad is not None:
            x.grad.data.zero_()
 
        # 反向传播计算梯度
        f.backward()
 
        # 更新参数
        x.data = x.data - 0.001 * x.grad
 
        print('%.10f' % x.data)
 
 
if __name__ == '__main__':
    test01()
    test02()
    test03()

2.4 运行结果💯

True
False
False
False
tensor([ 5., 10., 15., 20.], dtype=torch.float64)
tensor([ 5., 10., 15., 20.], dtype=torch.float64)
tensor([ 5., 10., 15., 20.], dtype=torch.float64)

🍔 梯度计算注意

当对设置 requires_grad=True 的张量使用 numpy 函数进行转换时, 会出现如下报错:

Can't call numpy() on Tensor that requires grad. Use tensor.detach().numpy() instead.

此时, 需要先使用 detach 函数将张量进行分离, 再使用 numpy 函数.

注意: detach 之后会产生一个新的张量, 新的张量作为叶子结点,并且该张量和原来的张量共享数据, 但是分离后的张量不需要计算梯度。

import torch

3.1 detach 函数用法

def test01():
 
    x = torch.tensor([10, 20], requires_grad=True, dtype=torch.float64)
 
    # Can't call numpy() on Tensor that requires grad. Use tensor.detach().numpy() instead.
    # print(x.numpy())  # 错误
    print(x.detach().numpy())  # 正确

3.2 detach 前后张量共享内存

def test02():
 
    x1 = torch.tensor([10, 20], requires_grad=True, dtype=torch.float64)
 
    # x2 作为叶子结点
    x2 = x1.detach()
 
    # 两个张量的值一样: 140421811165776 140421811165776
    print(id(x1.data), id(x2.data))
    x2.data = torch.tensor([100, 200])
    print(x1)
    print(x2)
 
    # x2 不会自动计算梯度: False
    print(x2.requires_grad)
 
 
if __name__ == '__main__':
    test01()
    test02()

3.3 运行结果💯

10. 20.]
140495634222288 140495634222288
tensor([10., 20.], dtype=torch.float64, requires_grad=True)
tensor([100, 200])
False

🍔 小节

本小节主要讲解了 PyTorch 中非常重要的自动微分模块的使用和理解。我们对需要计算梯度的张量需要设置 requires_grad=True 属性,并且需要注意的是梯度是累计的,在每次计算梯度前需要先进行梯度清零。

😀 小言在此感谢大家的支持😀

顺便问一下大佬们,最擅长使用的编程语言是什么呢~

欢迎评论区讨论哦~

相关文章
|
24天前
|
弹性计算 人工智能 架构师
阿里云携手Altair共拓云上工业仿真新机遇
2024年9月12日,「2024 Altair 技术大会杭州站」成功召开,阿里云弹性计算产品运营与生态负责人何川,与Altair中国技术总监赵阳在会上联合发布了最新的“云上CAE一体机”。
阿里云携手Altair共拓云上工业仿真新机遇
|
16天前
|
存储 关系型数据库 分布式数据库
GraphRAG:基于PolarDB+通义千问+LangChain的知识图谱+大模型最佳实践
本文介绍了如何使用PolarDB、通义千问和LangChain搭建GraphRAG系统,结合知识图谱和向量检索提升问答质量。通过实例展示了单独使用向量检索和图检索的局限性,并通过图+向量联合搜索增强了问答准确性。PolarDB支持AGE图引擎和pgvector插件,实现图数据和向量数据的统一存储与检索,提升了RAG系统的性能和效果。
|
20天前
|
机器学习/深度学习 算法 大数据
【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析
2024“华为杯”数学建模竞赛,对ABCDEF每个题进行详细的分析,涵盖风电场功率优化、WLAN网络吞吐量、磁性元件损耗建模、地理环境问题、高速公路应急车道启用和X射线脉冲星建模等多领域问题,解析了问题类型、专业和技能的需要。
2577 22
【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析
|
18天前
|
人工智能 IDE 程序员
期盼已久!通义灵码 AI 程序员开启邀测,全流程开发仅用几分钟
在云栖大会上,阿里云云原生应用平台负责人丁宇宣布,「通义灵码」完成全面升级,并正式发布 AI 程序员。
|
3天前
|
JSON 自然语言处理 数据管理
阿里云百炼产品月刊【2024年9月】
阿里云百炼产品月刊【2024年9月】,涵盖本月产品和功能发布、活动,应用实践等内容,帮助您快速了解阿里云百炼产品的最新动态。
阿里云百炼产品月刊【2024年9月】
|
2天前
|
存储 人工智能 搜索推荐
数据治理,是时候打破刻板印象了
瓴羊智能数据建设与治理产品Datapin全面升级,可演进扩展的数据架构体系为企业数据治理预留发展空间,推出敏捷版用以解决企业数据量不大但需构建数据的场景问题,基于大模型打造的DataAgent更是为企业用好数据资产提供了便利。
163 2
|
20天前
|
机器学习/深度学习 算法 数据可视化
【BetterBench博士】2024年中国研究生数学建模竞赛 C题:数据驱动下磁性元件的磁芯损耗建模 问题分析、数学模型、python 代码
2024年中国研究生数学建模竞赛C题聚焦磁性元件磁芯损耗建模。题目背景介绍了电能变换技术的发展与应用,强调磁性元件在功率变换器中的重要性。磁芯损耗受多种因素影响,现有模型难以精确预测。题目要求通过数据分析建立高精度磁芯损耗模型。具体任务包括励磁波形分类、修正斯坦麦茨方程、分析影响因素、构建预测模型及优化设计条件。涉及数据预处理、特征提取、机器学习及优化算法等技术。适合电气、材料、计算机等多个专业学生参与。
1576 16
【BetterBench博士】2024年中国研究生数学建模竞赛 C题:数据驱动下磁性元件的磁芯损耗建模 问题分析、数学模型、python 代码
|
22天前
|
编解码 JSON 自然语言处理
通义千问重磅开源Qwen2.5,性能超越Llama
击败Meta,阿里Qwen2.5再登全球开源大模型王座
973 14
|
3天前
|
Linux 虚拟化 开发者
一键将CentOs的yum源更换为国内阿里yum源
一键将CentOs的yum源更换为国内阿里yum源
219 2
|
17天前
|
人工智能 开发框架 Java
重磅发布!AI 驱动的 Java 开发框架:Spring AI Alibaba
随着生成式 AI 的快速发展,基于 AI 开发框架构建 AI 应用的诉求迅速增长,涌现出了包括 LangChain、LlamaIndex 等开发框架,但大部分框架只提供了 Python 语言的实现。但这些开发框架对于国内习惯了 Spring 开发范式的 Java 开发者而言,并非十分友好和丝滑。因此,我们基于 Spring AI 发布并快速演进 Spring AI Alibaba,通过提供一种方便的 API 抽象,帮助 Java 开发者简化 AI 应用的开发。同时,提供了完整的开源配套,包括可观测、网关、消息队列、配置中心等。
734 9