【深度学习】(问题记录)<对一个变量求梯度得到什么>-线性回归-小批量随机梯度下降

简介: 【深度学习】(问题记录)<对一个变量求梯度得到什么>-线性回归-小批量随机梯度下降

1. 问题和代码


对于代码里sgd函数中的param[:] = param - lr * param.grad / batch_size这一行我一直十分困惑。


例如代码中设置了一个小批量是10个样本,于是我觉得对参数集params求梯度时,得到每个参数的梯度应该是向量(可以理解为一个数组)类型的数据。因为对于每个参数,通过10个样本求梯度就会得到10个相应的值。


于是我就产生了疑问,/ batch_size的目的是得到梯度的平均值,但它左边的被除数并不是一个标量(普通的单个的值),那这行代码怎么会得到我们想要的一个平均值呢?


注:代码参考自《动手学深度学习》

代码:


# 代码目标:训练一个线性回归模型,用小批量随机梯度下降法
%matplotlib inline
from IPython import display
from matplotlib import pyplot as plt
from mxnet import autograd, nd
import random
# 制作训练集
num_inputs = 2
num_examples = 1000
true_w = [2, -3.4]
true_b = 4.2
features = nd.random.normal(scale=1, shape=(num_examples, num_inputs))
labels = true_w[0] * features[:, 0] + true_w[1] * features[:, 1] + true_b
labels += nd.random.normal(scale=0.01, shape=labels.shape)
features[0], labels[0]
def use_svg_display():
    # 用矢量图显示
    display.set_matplotlib_formats('svg')
def set_figsize(figsize=(3.5, 2.5)):
    use_svg_display()
    # 设置图的尺寸
    plt.rcParams['figure.figsize'] = figsize
set_figsize()
plt.scatter(features[:, 1].asnumpy(), labels.asnumpy(), 1);  # 加分号只显示图(否则还会显示一行字)
# 本函数已保存在d2lzh包中方便以后使用
def data_iter(batch_size, features, labels):
    num_examples = len(features)
    indices = list(range(num_examples))
    random.shuffle(indices)  # 样本的读取顺序是随机的
    for i in range(0, num_examples, batch_size):
        j = nd.array(indices[i: min(i + batch_size, num_examples)])
        yield features.take(j), labels.take(j)  # take函数根据索引返回对应元素
batch_size = 10  # 一个“小批量”的大小
# 建立我们要训练的模型的参数
w = nd.random.normal(scale=0.01, shape=(num_inputs, 1))
b = nd.zeros(shape=(1,))
w.attach_grad()
b.attach_grad()
def linreg(X, w, b):  # 我们的模型函数
    return nd.dot(X, w) + b
def squared_loss(y_hat, y):  # 使用的损失函数
    return (y_hat - y.reshape(y_hat.shape)) ** 2 / 2
def sgd(params, lr, batch_size):  # 用于迭代(更新)参数
    for param in params:
        param[:] = param - lr * param.grad / batch_size
lr = 0.03      # 学习率
num_epochs = 3 # 学习周期个数
net = linreg   # 取个小名
loss = squared_loss
for epoch in range(num_epochs):  # 训练模型一共需要num_epochs个迭代周期
    # 在每一个迭代周期中,会使用训练数据集中所有样本一次(假设样本数能够被批量大小整除)。X
    # X和y分别是小批量样本的特征和标签
    for X, y in data_iter(batch_size, features, labels):
        with autograd.record():
            l = loss(net(X, w, b), y)  # l是有关小批量X和y的损失
        l.backward()  # 小批量的损失对模型参数求梯度
        sgd([w, b], lr, batch_size)  # 使用小批量随机梯度下降迭代模型参数
    train_l = loss(net(features, w, b), labels)
    print('epoch %d, loss %f' % (epoch + 1, train_l.mean().asnumpy()))
print('\nweights:')
print(true_w, w)
print('\nbias:')
print(true_b, b)

2. 分析问题


在胡思乱想了一阵后,我突然想到,为何不把参数param的梯度打印出来看看呢?那它是个什么情况不就一目了然!请看代码:


def sgd(params, lr, batch_size):  # 用于迭代(更新)参数
    for param in params:
        param[:] = param - lr * param.grad / batch_size
        print('\nparam.grad:')
        print(param.grad)

我仅仅在sgd函数尾部加了两行打印,那么我们再看一下效果(每处理一个小批量样本时都会调用一次该函数,看一次就够了,因为我只是想知道参数的梯度的数据类型)


运行效果:

image.png

前面的param.grad代表的是两个 权重(weight) 参数的梯度,后面的是 偏差(bias) 参数的梯度。也就是说,每个参数求得的梯度都只有一个值。


为什么一批10个样本,得到的只有一个值呢?


这个值是什么?其实在执行l.backward()时,等价于在执行l.sum().backward(),也就是对一批中每个样本都有一个梯度值,然后把这10个梯度值加起来,得到了参数的梯度值。所以再用/ batch_size求平均值也是一件很自然的事情。


其实我后面不久就看到了这个解释,但因为前面我就已经蒙圈了,看到这里的时候只是蒙圈++


总结


种瓜得瓜,种豆得豆。

变量是什么形状,对这个变量求得的梯度就是什么形状。


我之所以下意识地以为得到的会是一组值而不是一个值,是因为前面看了个对矩阵求梯度的例子,得到的是一组值(一个矩阵)。然后看到这里就混淆了,这里我们求梯度的每个参数对象是一个单个的值,只是数据样本有多个。


对矩阵(向量)求梯度

求得梯度是个矩阵(向量)

对一个标量求梯度 求得梯度是个标量
相关文章
|
3月前
|
机器学习/深度学习 数据采集 人工智能
《零基础实践深度学习》基于线性回归实现波士顿房价预测任务1.3.3
这篇文章详细介绍了如何使用线性回归算法实现波士顿房价预测任务,包括数据读取、形状变换、集划分、归一化处理、模型设计、前向计算以及损失函数的计算等步骤,并提供了相应的Python代码实现。
 《零基础实践深度学习》基于线性回归实现波士顿房价预测任务1.3.3
|
1月前
|
机器学习/深度学习 算法
深度学习中的自适应抱团梯度下降法
【10月更文挑战第7天】 本文探讨了深度学习中一种新的优化算法——自适应抱团梯度下降法,它结合了传统的梯度下降法与现代的自适应方法。通过引入动态学习率调整和抱团策略,该方法在处理复杂网络结构时展现了更高的效率和准确性。本文详细介绍了算法的原理、实现步骤以及在实际应用中的表现,旨在为深度学习领域提供一种创新且有效的优化手段。
|
1月前
|
机器学习/深度学习 Python
深度学习笔记(六):如何运用梯度下降法来解决线性回归问题
这篇文章介绍了如何使用梯度下降法解决线性回归问题,包括梯度下降法的原理、线性回归的基本概念和具体的Python代码实现。
63 0
|
3月前
|
机器学习/深度学习 PyTorch 算法框架/工具
深度学习中的梯度消失与梯度爆炸问题解析
【8月更文挑战第31天】深度学习模型在训练过程中常常遇到梯度消失和梯度爆炸的问题,这两个问题严重影响了模型的收敛速度和性能。本文将深入探讨这两个问题的原因、影响及解决策略,并通过代码示例具体展示如何在实践中应用这些策略。
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
探索机器学习的奥秘:从线性回归到深度学习
【8月更文挑战第26天】本文将带领读者走进机器学习的世界,从基础的线性回归模型开始,逐步深入到复杂的深度学习网络。我们将探讨各种算法的原理、应用场景以及实现方法,并通过代码示例加深理解。无论你是初学者还是有一定经验的开发者,这篇文章都将为你提供有价值的知识和技能。让我们一起揭开机器学习的神秘面纱,探索这个充满无限可能的领域吧!
|
4月前
|
机器学习/深度学习 算法
现代深度学习框架构建问题之tinyDL中机器学习的通用组件与深度学习如何解决
现代深度学习框架构建问题之tinyDL中机器学习的通用组件与深度学习如何解决
84 2
|
5天前
|
机器学习/深度学习 人工智能 测试技术
深度学习在图像识别中的应用与挑战
本文探讨了深度学习技术,尤其是卷积神经网络(CNN)在图像识别任务中的最新进展和面临的主要挑战。通过分析不同的网络架构、训练技巧以及优化策略,文章旨在提供一个全面的概览,帮助研究人员和实践者更好地理解和应用这些技术。
32 9
|
2天前
|
机器学习/深度学习 分布式计算 并行计算
深度学习在图像识别中的应用与挑战
本文深入探讨了深度学习技术在图像识别领域的应用,分析了当前主流的卷积神经网络(CNN)架构,并讨论了在实际应用中遇到的挑战和可能的解决方案。通过对比研究,揭示了不同网络结构对识别准确率的影响,并提出了优化策略。此外,文章还探讨了深度学习模型在处理大规模数据集时的性能瓶颈,以及如何通过硬件加速和算法改进来提升效率。
|
3天前
|
机器学习/深度学习 人工智能 计算机视觉
深度学习在图像识别中的应用与挑战
【10月更文挑战第38天】本文将深入探讨深度学习如何在图像识别领域大放异彩,并揭示其背后的技术细节和面临的挑战。我们将通过实际案例,了解深度学习如何改变图像处理的方式,以及它在实际应用中遇到的困难和限制。
|
2天前
|
机器学习/深度学习 传感器 自动驾驶
深度学习在自动驾驶中的应用与挑战####
本文探讨了深度学习技术在自动驾驶领域的应用现状、面临的主要挑战及未来发展趋势。通过分析卷积神经网络(CNN)和循环神经网络(RNN)等关键算法在环境感知、决策规划中的作用,结合特斯拉Autopilot和Waymo的实际案例,揭示了深度学习如何推动自动驾驶技术向更高层次发展。文章还讨论了数据质量、模型泛化能力、安全性及伦理道德等问题,为行业研究者和开发者提供了宝贵的参考。 ####

热门文章

最新文章