【机器学习】三种梯度下降对比-阿里云开发者社区

【机器学习】三种梯度下降对比

2024-01-28 453

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【1月更文挑战第24天】【机器学习】三种梯度下降对比

梯度下降法在机器学习中常常用来优化损失函数，是一个非常重要的工具。其实，说的这么高大上不如用更加通俗的方式来解释。在高中阶段一定都学习过「极值」的概念，那么什么是极值呢？用非常形象的方式来说极值点，那么看下图中的函数

。这张图片中有多个极值点。梯度下降法的作用就是寻找一个「极小值点」（在本篇文章讨论极小值，顾名思义：梯度下降法），从而让函数的值尽可能地小。相信你也发现了，这么多个极值点，那么梯度下降法找到的是哪一个点呢？关于这个问题就要看运气了，算法的最开始会「随机」寻找一个位置然后开始搜索「局部」的最优解，如果运气好的话能够寻找到一个最小值的极值点，运气不好或许找到的就不是最小值的那个极小值点了。

梯度下降分三类：批量梯度下降BGD（Batch Gradient Descent）、小批量梯度下降MBGD（Mini-Batch Gradient Descent）、随机梯度下降SGD（Stochastic Gradient Descent）。

三种梯度下降有什么不同呢？我们从梯度下降步骤开始讲起，梯度下降步骤分一下四步：

1、随机赋值，Random 随机数生成 $\theta$，随机一组数值 $w_0、w_1……w_n$
2、求梯度 g ，梯度代表曲线某点上的切线的斜率，沿着切线往下就相当于沿着坡度最陡峭的方向下降
3、if g < 0, $\theta$ 变大，if g > 0, $\theta$ 变小
4、判断是否收敛 convergence，如果收敛跳出迭代，如果没有达到收敛，回第 2 步再次执行2~4步

收敛的判断标准是：随着迭代进行损失函数Loss，变化非常微小甚至不再改变，即认为达到收敛

三种梯度下降不同，体现在第二步中：

BGD是指在每次迭代使用所有样本来进行梯度的更新
MBGD是指在每次迭代使用一部分样本（所有样本500个，使用其中32个样本）来进行梯度的更新
SGD是指每次迭代随机选择一个样本来进行梯度更新

【机器学习】三种梯度下降对比

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【机器学习】三种梯度下降对比

热门文章

最新文章

相关课程

相关电子书

相关实验场景