1. 问题和代码
对于代码里sgd函数中的param[:] = param - lr * param.grad / batch_size这一行我一直十分困惑。
例如代码中设置了一个小批量是10个样本,于是我觉得对参数集params求梯度时,得到每个参数的梯度应该是向量(可以理解为一个数组)类型的数据。因为对于每个参数,通过10个样本求梯度就会得到10个相应的值。
于是我就产生了疑问,/ batch_size的目的是得到梯度的平均值,但它左边的被除数并不是一个标量(普通的单个的值),那这行代码怎么会得到我们想要的一个平均值呢?
注:代码参考自《动手学深度学习》
代码:
# 代码目标:训练一个线性回归模型,用小批量随机梯度下降法 %matplotlib inline from IPython import display from matplotlib import pyplot as plt from mxnet import autograd, nd import random # 制作训练集 num_inputs = 2 num_examples = 1000 true_w = [2, -3.4] true_b = 4.2 features = nd.random.normal(scale=1, shape=(num_examples, num_inputs)) labels = true_w[0] * features[:, 0] + true_w[1] * features[:, 1] + true_b labels += nd.random.normal(scale=0.01, shape=labels.shape) features[0], labels[0] def use_svg_display(): # 用矢量图显示 display.set_matplotlib_formats('svg') def set_figsize(figsize=(3.5, 2.5)): use_svg_display() # 设置图的尺寸 plt.rcParams['figure.figsize'] = figsize set_figsize() plt.scatter(features[:, 1].asnumpy(), labels.asnumpy(), 1); # 加分号只显示图(否则还会显示一行字) # 本函数已保存在d2lzh包中方便以后使用 def data_iter(batch_size, features, labels): num_examples = len(features) indices = list(range(num_examples)) random.shuffle(indices) # 样本的读取顺序是随机的 for i in range(0, num_examples, batch_size): j = nd.array(indices[i: min(i + batch_size, num_examples)]) yield features.take(j), labels.take(j) # take函数根据索引返回对应元素 batch_size = 10 # 一个“小批量”的大小 # 建立我们要训练的模型的参数 w = nd.random.normal(scale=0.01, shape=(num_inputs, 1)) b = nd.zeros(shape=(1,)) w.attach_grad() b.attach_grad() def linreg(X, w, b): # 我们的模型函数 return nd.dot(X, w) + b def squared_loss(y_hat, y): # 使用的损失函数 return (y_hat - y.reshape(y_hat.shape)) ** 2 / 2 def sgd(params, lr, batch_size): # 用于迭代(更新)参数 for param in params: param[:] = param - lr * param.grad / batch_size lr = 0.03 # 学习率 num_epochs = 3 # 学习周期个数 net = linreg # 取个小名 loss = squared_loss for epoch in range(num_epochs): # 训练模型一共需要num_epochs个迭代周期 # 在每一个迭代周期中,会使用训练数据集中所有样本一次(假设样本数能够被批量大小整除)。X # X和y分别是小批量样本的特征和标签 for X, y in data_iter(batch_size, features, labels): with autograd.record(): l = loss(net(X, w, b), y) # l是有关小批量X和y的损失 l.backward() # 小批量的损失对模型参数求梯度 sgd([w, b], lr, batch_size) # 使用小批量随机梯度下降迭代模型参数 train_l = loss(net(features, w, b), labels) print('epoch %d, loss %f' % (epoch + 1, train_l.mean().asnumpy())) print('\nweights:') print(true_w, w) print('\nbias:') print(true_b, b)
2. 分析问题
在胡思乱想了一阵后,我突然想到,为何不把参数param的梯度打印出来看看呢?那它是个什么情况不就一目了然!请看代码:
def sgd(params, lr, batch_size): # 用于迭代(更新)参数 for param in params: param[:] = param - lr * param.grad / batch_size print('\nparam.grad:') print(param.grad)
我仅仅在sgd函数尾部加了两行打印,那么我们再看一下效果(每处理一个小批量样本时都会调用一次该函数,看一次就够了,因为我只是想知道参数的梯度的数据类型)
运行效果:
前面的param.grad代表的是两个 权重(weight) 参数的梯度,后面的是 偏差(bias) 参数的梯度。也就是说,每个参数求得的梯度都只有一个值。
为什么一批10个样本,得到的只有一个值呢?
这个值是什么?其实在执行l.backward()时,等价于在执行l.sum().backward(),也就是对一批中每个样本都有一个梯度值,然后把这10个梯度值加起来,得到了参数的梯度值。所以再用/ batch_size求平均值也是一件很自然的事情。
其实我后面不久就看到了这个解释,但因为前面我就已经蒙圈了,看到这里的时候只是蒙圈++
总结
种瓜得瓜,种豆得豆。
变量是什么形状,对这个变量求得的梯度就是什么形状。
我之所以下意识地以为得到的会是一组值而不是一个值,是因为前面看了个对矩阵求梯度的例子,得到的是一组值(一个矩阵)。然后看到这里就混淆了,这里我们求梯度的每个参数对象是一个单个的值,只是数据样本有多个。
对矩阵(向量)求梯度 | 求得梯度是个矩阵(向量) |
对一个标量求梯度 | 求得梯度是个标量 |