NAG(Nesterov accelerated gradient)-阿里云开发者社区

NAG(Nesterov accelerated gradient)

2022-09-16 210

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： q

SGD算法解析
1.MBGD（Mini-batch Gradient Descent）小批量梯度下降法

    明明类名是SGD，为什么介绍MBGD呢，因为在Pytorch中，torch.optim.SGD其实是实现的MBGD，要想使用SGD，只要将batch_size设成1就行了。

    MBGD就是结合BGD和SGD的折中，对于含有 n个训练样本的数据集，每次参数更新，选择一个大小为 m(m<n) 的mini-batch数据样本计算其梯度，其参数更新公式如下,其中是一个batch的开始：

            （6）

优点：使用mini-batch的时候，可以收敛得很快，有一定摆脱局部最优的能力。

缺点：a.在随机选择梯度的同时会引入噪声，使得权值更新的方向不一定正确

       b.不能解决局部最优解的问题

2.Momentum动量

     动量是一种有助于在相关方向上加速SGD并抑制振荡的方法，通过将当前梯度与过去梯度加权平均，来获取即将更新的梯度。如下图b图所示。它通过将过去时间步长的更新向量的一小部分添加到当前更新向量来实现这一点：

动量项通常设置为0.9或类似值。

参数更新公式如下，其中ρ 是动量衰减率，m是速率（即一阶动量）：

3.NAG(Nesterov accelerated gradient)

    NAG的思想是在动量法的基础上展开的。动量法是思想是，将当前梯度与过去梯度加权平均，来获取即将更新的梯度。在知道梯度之后，更新自变量到新的位置。也就是说我们其实在每一步，是知道下一时刻位置的。这时Nesterov就说了：那既然这样的话，我们何不直接采用下一时刻的梯度来和上一时刻梯度进行加权平均呢？下面两张图看明白，就理解NAG了：

————————————————

文章标签：

算法

NAG(Nesterov accelerated gradient)

热门文章

最新文章

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

NAG(Nesterov accelerated gradient)

热门文章

最新文章

相关电子书