备案控制台

开发者社区人工智能文章正文

Pytorch优化器全总结（一）SGD、ASGD、Rprop、Adagrad

2022-09-16 305

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： q

作为系列的第一篇文章，本文介绍Pytorch中的SGD、ASGD、Rprop、Adagrad，其中主要介绍SGD和Adagrad。因为这四个优化器出现的比较早，都存在一些硬伤，而作为现在主流优化器的基础又跳不过，所以作为开端吧。

    我们定义一个通用的思路框架，方便在后面理解各算法之间的关系和改进。首先定义待优化参数 ，目标函数，学习率为  ，然后我们进行迭代优化，假设当前的epoch为，参数更新步骤如下：

计算目标函数关于当前参数的梯度：
```
                          （1）
```
1. 根据历史梯度计算一阶动量和二阶动量：
  （2）
  （3）
2. 计算当前时刻的下降梯度：
```
       （4）
```

根据下降梯度进行更新：

                   （5）

   下面介绍的所有优化算法基本都能套用这个流程，只是式子（4）的形式会有变化。

一、 torch.optim.SGD 随机梯度下降

    该类可实现 SGD 优化算法，带动量 的SGD 优化算法和带 NAG(Nesterov accelerated gradient)的 SGD 优化算法,并且均可拥有 weight_decay（权重衰减） 项。

文章标签：

算法框架/工具

PyTorch

关键词：

pytorch优化器

pytorch sgd

优化求解器pytorch

优化求解器sgd

游客h5zej67ajitww

目录

相关文章

路人贾jia

|

机器学习/深度学习缓存监控

Pytorch学习笔记（7）：优化器、学习率及调整策略、动量

Pytorch学习笔记（7）：优化器、学习率及调整策略、动量

路人贾jia

1075 0 0

Pytorch学习笔记（7）：优化器、学习率及调整策略、动量

Deephub

|

2月前

|

机器学习/深度学习算法数据可视化

如果你的PyTorch优化器效果欠佳,试试这4种深度学习中的高级优化技术吧

在深度学习领域，优化器的选择对模型性能至关重要。尽管PyTorch中的标准优化器如SGD、Adam和AdamW被广泛应用，但在某些复杂优化问题中，这些方法未必是最优选择。本文介绍了四种高级优化技术：序列最小二乘规划（SLSQP）、粒子群优化（PSO）、协方差矩阵自适应进化策略（CMA-ES）和模拟退火（SA）。这些方法具备无梯度优化、仅需前向传播及全局优化能力等优点，尤其适合非可微操作和参数数量较少的情况。通过实验对比发现，对于特定问题，非传统优化方法可能比标准梯度下降算法表现更好。文章详细描述了这些优化技术的实现过程及结果分析，并提出了未来的研究方向。

Deephub

39 1 1

使者大牙

|

7月前

|

机器学习/深度学习算法大数据

基于PyTorch对凸函数采用SGD算法优化实例（附源码）

基于PyTorch对凸函数采用SGD算法优化实例（附源码）

使者大牙

114 3 4

1941623231718325

|

7月前

|

机器学习/深度学习监控 PyTorch

PyTorch模型训练：优化器与损失函数的选择

【4月更文挑战第17天】PyTorch中的优化器（如SGD, Adam, RMSprop）和损失函数（如MSE Loss, Cross Entropy Loss）对模型训练效果有显著影响。优化器选择应基于任务复杂度和数据规模，SGD适合简单任务，而Adam和RMSprop适用于复杂情况。损失函数选择依赖于任务类型，MSE Loss用于回归，Cross Entropy Loss用于分类。实践中，应尝试不同组合，调整学习率，监控训练过程，并使用验证集优化模型。

1941623231718325

314 0 0

热烈的马

|

7月前

|

机器学习/深度学习传感器算法

PyTorch基础之优化器模块、训练和测试模块讲解（附源码）

PyTorch基础之优化器模块、训练和测试模块讲解（附源码）

热烈的马

176 0 0

LeoATLiang

|

PyTorch 算法框架/工具

【PyTorch】Optim 优化器

【PyTorch】Optim 优化器

LeoATLiang

84 0 0

TJUTCM-策士之九尾

|

机器学习/深度学习人工智能算法

[深度学习实战]基于PyTorch的深度学习实战(上)[变量、求导、损失函数、优化器]（一）

笔记

TJUTCM-策士之九尾

118 0 0

TJUTCM-策士之九尾

|

机器学习/深度学习算法 PyTorch

[深度学习实战]基于PyTorch的深度学习实战(上)[变量、求导、损失函数、优化器]（二）

笔记

TJUTCM-策士之九尾

145 0 0

ThreeWhiteDots

|

机器学习/深度学习存储算法

Pytorch基本使用——优化器

总结了两种优化器，SGD和Adam及变种AdamW

ThreeWhiteDots

269 0 0

LiBiGo

|

机器学习/深度学习人工智能自然语言处理

【Pytorch神经网络理论篇】 10 优化器模块+退化学习率

反向传播的意义在于告诉模型我们需要将权重修改到什么数值可以得到最优解，在开始探索合适权重的过程中，正向传播所生成的结果与实际标签的目标值存在误差，反向传播通过这个误差传递给权重，要求权重进行适当的调整来达到一个合适的输出，最终使得正向传播所预测的结果与标签的目标值的误差达到最小，以上即为反向传播的核心思想

LiBiGo

165 0 0

热门文章

最新文章

SPDL：Meta AI 推出的开源高性能AI模型数据加载解决方案，兼容主流 AI 框架 PyTorch

使用PyTorch实现GPT-2直接偏好优化训练：DPO方法改进及其与监督微调的效果对比

Ascend Extension for PyTorch的源码解析

Transformer模型变长序列优化：解析PyTorch上的FlashAttention2与xFormers

Ascend Extension for PyTorch是个what？

基于Pytorch Gemotric在昇腾上实现GraphSage图神经网络

【AI系统】动手实现 PyTorch 微分

基于EO平衡优化器算法的目标函数最优值求解matlab仿真

基于PyTorch的大语言模型微调指南：Torchtune完整教程与代码示例

通过pin_memory 优化 PyTorch 数据加载和传输:工作原理、使用场景与性能分析

阿里达摩院MindOpt优化求解器-月刊（2024年4月）

深入了解MindOpt优化求解器的License服务

MindOpt APL向量化建模语法的介绍与应用（2）

阿里达摩院MindOpt优化求解器-月刊（2024年3月）

MindOpt APL 最新版本功能介绍，并且开放下载使用了！

MindOpt APL向量化建模语法的介绍与应用（1）

了解MindOpt优化求解器的各种调用方式、方法

阿里达摩院MindOpt优化求解器-月刊（2024年2月）

阿里达摩院MindOpt优化求解器-月刊（2024年1月）

如何通过阿里达摩院MindOpt获得MILP多个解

相关电子书

更多

阿里技术专家一挃：MongoDB 优化器 & 执行器介绍

低代码开发师（初级）实战教程

阿里巴巴DevOps 最佳实践手册

推荐镜像

更多

pytorch-wheels

blender

python-release

下一篇

手把手教你白嫖阿里云服务器(免费领服务器)