在Pytorch中为不同层设置不同学习率来提升性能,优化深度学习模型

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: 在深度学习中,学习率作为关键超参数对模型收敛速度和性能至关重要。传统方法采用统一学习率,但研究表明为不同层设置差异化学习率能显著提升性能。本文探讨了这一策略的理论基础及PyTorch实现方法,包括模型定义、参数分组、优化器配置及训练流程。通过示例展示了如何为ResNet18设置不同层的学习率,并介绍了渐进式解冻和层适应学习率等高级技巧,帮助研究者更好地优化模型训练。

在深度学习模型的训练过程中,学习率作为一个关键的超参数,对模型的收敛速度和最终性能有着重大影响。传统方法通常采用统一的学习率,但随着研究的深入,我们发现为网络的不同层设置不同的学习率可能会带来显著的性能提升。本文将详细探讨这一策略的实施方法及其在PyTorch框架中的具体应用。

层级学习率的理论基础

深度神经网络的不同层次在特征提取和信息处理上扮演着不同的角色。基于这一认知,我们可以合理推断对不同层采用差异化的学习策略可能会更有效:

  1. 底层特征提取:网络的前几层通常负责捕获通用的低级特征,如边缘、纹理等。这些特征往往具有较强的通用性和可迁移性。
  2. 高层语义理解:网络的后几层则倾向于提取更为抽象和任务相关的高级特征。
  3. 任务特定层:如全连接分类层,直接与特定任务相关。

基于上述观察我们可以制定相应的学习率策略:

  • 对于预训练的底层,使用较小的学习率以保持其已学到的通用特征。
  • 对于中间层,可以采用适中的学习率。
  • 对于任务特定的顶层,则可以使用较大的学习率以快速适应新任务。

PyTorch实现:以ResNet为例

下面我们将以ResNet18为例,演示如何在PyTorch中实现层级学习率设置。

1、模型定义

首先,我们加载预训练的ResNet18模型,并修改其最后一层以适应新的分类任务:

 importtorch
 importtorch.nnasnn
 importtorchvision.modelsasmodels

 # 加载预训练的ResNet18模型
 model=models.resnet18(pretrained=True)

 # 修改最后的全连接层以适应新的分类任务
 num_classes=10  # 假设新任务有10个类别
 model.fc=nn.Linear(model.fc.in_features, num_classes)

2、参数分组

接下来,我们将模型参数分组,为不同的层设置不同的学习率:

 # 定义不同组的学习率
 backbone_lr=1e-4  # 较小的学习率用于预训练的主干网络
 classifier_lr=1e-3  # 较大的学习率用于新的分类器层

 # 创建参数组
 params= [
     {'params': model.conv1.parameters(), 'lr': backbone_lr},
     {'params': model.bn1.parameters(), 'lr': backbone_lr},
     {'params': model.layer1.parameters(), 'lr': backbone_lr},
     {'params': model.layer2.parameters(), 'lr': backbone_lr},
     {'params': model.layer3.parameters(), 'lr': backbone_lr},
     {'params': model.layer4.parameters(), 'lr': backbone_lr},
     {'params': model.fc.parameters(), 'lr': classifier_lr}
 ]

此处我们对ResNet的各个组件进行了更细致的划分,为不同的层组设置了相应的学习率。这种方法允许我们对模型的学习过程进行更精细的控制。

优化器配置与训练过程

3、优化器设置

在确定了参数分组后,我们需要选择合适的优化器并进行配置。这里我们简单的选用Adam优化器。

 optimizer=torch.optim.Adam(params)

这种分组策略同样适用于其他PyTorch支持的优化器,PyTorch的优化器会自动识别并应用在参数分组中定义的不同学习率。这种设计使得实现层级学习率变得相对简单。

4、训练循环

实现了层级学习率后的训练循环保持不变。PyTorch会在后台自动处理不同参数组的学习率:

 # 定义损失函数
 criterion=nn.CrossEntropyLoss()

 # 训练循环
 forepochinrange(num_epochs):
     model.train()
     forinputs, labelsintrain_loader:
         optimizer.zero_grad()
         outputs=model(inputs)
         loss=criterion(outputs, labels)
         loss.backward()
         optimizer.step()

     # 在每个epoch结束后进行验证
     model.eval()
     # ... [验证代码]

5、学习率调度

除了设置初始的层级学习率,我们还可以结合学习率调度器来动态调整学习率。PyTorch提供了多种学习率调度器,如

StepLR

ReduceLROnPlateau

等。以下是一个使用

StepLR

的示例:

 fromtorch.optim.lr_schedulerimportStepLR

 scheduler=StepLR(optimizer, step_size=30, gamma=0.1)

 # 在训练循环中更新学习率
 forepochinrange(num_epochs):
     # ... [训练代码]
     scheduler.step()

这将每30个epoch将所有参数组的学习率降低为原来的0.1倍。

高级学习率优化技巧

1、渐进式解冻

在微调预训练模型时,一种有效的策略是渐进式解冻。我们可以先锁定底层,只训练顶层,然后逐步解冻更多的层:

 # 初始阶段:只训练分类器
 forparaminmodel.parameters():
     param.requires_grad=False
 model.fc.requires_grad=True

 # 训练几个epoch后
 model.layer4.requires_grad=True

 # 再过几个epoch
 model.layer3.requires_grad=True

以此类推,冻结其实意味着学习率为0,也就是不对任何参数进行更新。

2、层适应学习率

我们上面已经介绍了手动指定固定的学习率,其实我们还可以通过自定义优化器来实现,不同的层的不同的学习率范围。我们可以实现一个自定义的优化器来自动调整每一层的学习率:

 classLayerAdaptiveLR(torch.optim.Adam):
     def__init__(self, params, lr=1e-3, betas=(0.9, 0.999), eps=1e-8, weight_decay=0):
         super().__init__(params, lr, betas, eps, weight_decay)
         self.param_groups=sorted(self.param_groups, key=lambdax: id(x['params'][0]))

     defstep(self, closure=None):
         loss=None
         ifclosureisnotNone:
             loss=closure()

         forgroupinself.param_groups:
             forpingroup['params']:
                 ifp.gradisNone:
                     continue
                 grad=p.grad.data
                 state=self.state[p]

                 # 根据梯度统计调整学习率
                 iflen(state) ==0:
                     state['step'] =0
                     state['exp_avg'] =torch.zeros_like(p.data)
                     state['exp_avg_sq'] =torch.zeros_like(p.data)

                 exp_avg, exp_avg_sq=state['exp_avg'], state['exp_avg_sq']
                 beta1, beta2=group['betas']

                 state['step'] +=1

                 exp_avg.mul_(beta1).add_(grad, alpha=1-beta1)
                 exp_avg_sq.mul_(beta2).addcmul_(grad, grad, value=1-beta2)

                 denom=exp_avg_sq.sqrt().add_(group['eps'])

                 # 动态调整学习率
                 step_size=group['lr'] * (exp_avg.abs() /denom).mean().item()
                 p.data.add_(exp_avg, alpha=-step_size)

         returnloss

 # 使用示例
 optimizer=LayerAdaptiveLR(model.parameters(), lr=1e-3)

可以看到,上面我们继承自Adam优化器,这里我们不用实现优化过程只针对于针对层的学习率变化即可。

总结

层级学习率设置是一种强大的优化技术,特别适用于迁移学习和微调预训练模型的场景。通过精心设计的学习率策略,可以在保留预训练模型通用特征的同时有效地适应新任务。结合其他高级技巧,如渐进式解冻、层适应学习率,可以进一步提升模型的训练效率和性能。

在实际应用中,最佳的学习率配置往往需要通过实验来确定。建议研究者根据具体任务和模型架构进行适当的调整和实验,以获得最佳的训练效果。

https://avoid.overfit.cn/post/c13411d085974b02bad98504f3ae3fc1

相关实践学习
【文生图】一键部署Stable Diffusion基于函数计算
本实验教你如何在函数计算FC上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。函数计算提供一定的免费额度供用户使用。本实验答疑钉钉群:29290019867
建立 Serverless 思维
本课程包括: Serverless 应用引擎的概念, 为开发者带来的实际价值, 以及让您了解常见的 Serverless 架构模式
目录
相关文章
|
1月前
|
算法 PyTorch 算法框架/工具
Pytorch学习笔记(九):Pytorch模型的FLOPs、模型参数量等信息输出(torchstat、thop、ptflops、torchsummary)
本文介绍了如何使用torchstat、thop、ptflops和torchsummary等工具来计算Pytorch模型的FLOPs、模型参数量等信息。
175 2
|
13天前
|
监控 PyTorch 数据处理
通过pin_memory 优化 PyTorch 数据加载和传输:工作原理、使用场景与性能分析
在 PyTorch 中,`pin_memory` 是一个重要的设置,可以显著提高 CPU 与 GPU 之间的数据传输速度。当 `pin_memory=True` 时,数据会被固定在 CPU 的 RAM 中,从而加快传输到 GPU 的速度。这对于处理大规模数据集、实时推理和多 GPU 训练等任务尤为重要。本文详细探讨了 `pin_memory` 的作用、工作原理及最佳实践,帮助你优化数据加载和传输,提升模型性能。
48 4
通过pin_memory 优化 PyTorch 数据加载和传输:工作原理、使用场景与性能分析
|
6天前
|
机器学习/深度学习 算法 开发者
探索深度学习中的优化器选择对模型性能的影响
在深度学习领域,优化器的选择对于模型训练的效果具有决定性作用。本文通过对比分析不同优化器的工作原理及其在实际应用中的表现,探讨了如何根据具体任务选择合适的优化器以提高模型性能。文章首先概述了几种常见的优化算法,包括梯度下降法、随机梯度下降法(SGD)、动量法、AdaGrad、RMSProp和Adam等;然后,通过实验验证了这些优化器在不同数据集上训练神经网络时的效率与准确性差异;最后,提出了一些基于经验的规则帮助开发者更好地做出选择。
|
12天前
|
机器学习/深度学习 监控 PyTorch
深度学习工程实践:PyTorch Lightning与Ignite框架的技术特性对比分析
在深度学习框架的选择上,PyTorch Lightning和Ignite代表了两种不同的技术路线。本文将从技术实现的角度,深入分析这两个框架在实际应用中的差异,为开发者提供客观的技术参考。
33 7
|
1月前
|
机器学习/深度学习 自然语言处理 监控
利用 PyTorch Lightning 搭建一个文本分类模型
利用 PyTorch Lightning 搭建一个文本分类模型
57 8
利用 PyTorch Lightning 搭建一个文本分类模型
|
1月前
|
机器学习/深度学习 算法 PyTorch
深度学习笔记(十三):IOU、GIOU、DIOU、CIOU、EIOU、Focal EIOU、alpha IOU、SIOU、WIOU损失函数分析及Pytorch实现
这篇文章详细介绍了多种用于目标检测任务中的边界框回归损失函数,包括IOU、GIOU、DIOU、CIOU、EIOU、Focal EIOU、alpha IOU、SIOU和WIOU,并提供了它们的Pytorch实现代码。
159 1
深度学习笔记(十三):IOU、GIOU、DIOU、CIOU、EIOU、Focal EIOU、alpha IOU、SIOU、WIOU损失函数分析及Pytorch实现
|
1月前
|
机器学习/深度学习 自然语言处理 数据建模
三种Transformer模型中的注意力机制介绍及Pytorch实现:从自注意力到因果自注意力
本文深入探讨了Transformer模型中的三种关键注意力机制:自注意力、交叉注意力和因果自注意力,这些机制是GPT-4、Llama等大型语言模型的核心。文章不仅讲解了理论概念,还通过Python和PyTorch从零开始实现这些机制,帮助读者深入理解其内部工作原理。自注意力机制通过整合上下文信息增强了输入嵌入,多头注意力则通过多个并行的注意力头捕捉不同类型的依赖关系。交叉注意力则允许模型在两个不同输入序列间传递信息,适用于机器翻译和图像描述等任务。因果自注意力确保模型在生成文本时仅考虑先前的上下文,适用于解码器风格的模型。通过本文的详细解析和代码实现,读者可以全面掌握这些机制的应用潜力。
58 3
三种Transformer模型中的注意力机制介绍及Pytorch实现:从自注意力到因果自注意力
|
1月前
|
机器学习/深度学习 算法 决策智能
【机器学习】揭秘深度学习优化算法:加速训练与提升性能
【机器学习】揭秘深度学习优化算法:加速训练与提升性能
|
1月前
|
机器学习/深度学习 算法 数据可视化
如果你的PyTorch优化器效果欠佳,试试这4种深度学习中的高级优化技术吧
在深度学习领域,优化器的选择对模型性能至关重要。尽管PyTorch中的标准优化器如SGD、Adam和AdamW被广泛应用,但在某些复杂优化问题中,这些方法未必是最优选择。本文介绍了四种高级优化技术:序列最小二乘规划(SLSQP)、粒子群优化(PSO)、协方差矩阵自适应进化策略(CMA-ES)和模拟退火(SA)。这些方法具备无梯度优化、仅需前向传播及全局优化能力等优点,尤其适合非可微操作和参数数量较少的情况。通过实验对比发现,对于特定问题,非传统优化方法可能比标准梯度下降算法表现更好。文章详细描述了这些优化技术的实现过程及结果分析,并提出了未来的研究方向。
27 1
|
1月前
|
机器学习/深度学习 数据采集 自然语言处理
【NLP自然语言处理】基于PyTorch深度学习框架构建RNN经典案例:构建人名分类器
【NLP自然语言处理】基于PyTorch深度学习框架构建RNN经典案例:构建人名分类器