在使用 torch.autograd.backward()
计算梯度后,可以通过设置参数的 requires_grad
属性为 False 来阻止参数更新。同时,通过将计算出的梯度值放入一个列表中来保存,这个列表的值不会随着梯度清零而清零。下面是一个示例代码:
import torch # 定义网络和优化器 model = torch.nn.Linear(10, 1) optimizer = torch.optim.SGD(model.parameters(), lr=0.01) # 定义保存梯度的列表 grads_list = [] # 迭代训练过程 for i in range(10): # 获取数据并前向计算 inputs, labels = get_data() outputs = model(inputs) # 计算损失函数并进行反向传播计算梯度 loss = compute_loss(outputs, labels) model.zero_grad() loss.backward(retain_graph=True) # 保存梯度并更新优化器状态 grads_list.append([p.grad.detach().clone() for p in model.parameters()]) optimizer.step() # 在某些情况下需要清空梯度,但不影响保存下来的梯度值 for p in model.parameters(): p.grad = None
在上述代码中,我们首先定义了一个保存梯度的列表 grads_list
,然后在每次迭代中使用 loss.backward()
计算梯度,并将计算出的梯度值放入 grads_list
中。由于我们在更新参数之前将所有参数的 requires_grad
属性设置为 False,所以这些参数不会被优化器更新。最后,我们清空梯度以便进行下一轮迭代,并通过 p.grad = None
来清除计算图中的梯度信息,但不影响保存下来的梯度值。