十七、大规模机器学习和随机梯度下降(SGD)

2023-02-02 218

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

模型训练 PAI-DLC，5000CU*H 3个月

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

交互式建模 PAI-DSW，每月250计算时 3个月

简介： 十七、大规模机器学习和随机梯度下降(SGD)

1、随机梯度下降-Stochastic Gradient Descent

随机梯度下降是相对于批量梯度下降(batch gradient descent)提出的，目的在训练集数据非常大时，加快求解梯度的速度。不同于梯度下降中，每次计算梯度的时候需要计算所有训练数据的梯度，SGD每次只计算一个样本的梯度，使用计算出来的梯度对参数 θ进行更新，SGD的流程如下所示：

外层循环的次数通常选取1-10次。

2、小批量梯度下降 - Mini-batch Gradient descent

小批量梯度下降介于批梯度下降和随机梯度下降之间，批梯度下降使用全部的训练样本来计算梯度；随机梯度下降每次只使用一个训练样本来计算梯度；而小批量梯度下降每次使用 b ∈ [ 2 , 100 ] b \in [2,100] b∈[2,100]（mini batch size）个训练样本来计算梯度。小批量梯度下降的流程如下所示：

3、随机梯度下降算法的收敛性

在使用批梯度下降算法时，判断收敛的方法是通过绘制成本函数 Jθ关于迭代次数的图像来观察成本是否随着迭代次数增加而减小；而在SGD中，通常采用的方法是：每隔1000次迭代，绘制前1000次迭代中单个样本的成本 cost(θ,(xi,yi))，从而观察成本是否随着迭代次数增大而减小。

在SGD中，学习率 α通常是保持不变的，但是如果我们想得到更好的收敛效果，可以让 α=iterationNum+const2const1，但是这种方法需要仔细校准参数 const1和 const2的值。

4、在线学习-Online Learning

在线学习处理的是连续输入的数据流，同时需要一个模型从这些连续输入的数据中进行学习。下面是一个在线学习的情景：某个提供运输服务的网站，会不断有顾客点进网站，规定起终点，然后通过网站的报价来购买运输服务；当得到网站的报价之后，某些顾客选择使用网站提供的运输服务(y=1)，有些顾客选择不使用网站提供的运输服务(y=0)。令特征 x x x记录顾客的特征，如规定的起终点，询问的报价等，在线学习模型需要优化网站的报价价格，p(y=1∣x;θ)。运输网站的在线学习的模型如下所示：

5、映射约减-map reduce

映射约减的思想是将本来一台计算机需要完成的任务分给几台计算机进行并行计算，从而提高计算效率。

十七、大规模机器学习和随机梯度下降(SGD)

1、随机梯度下降-Stochastic Gradient Descent

2、小批量梯度下降 - Mini-batch Gradient descent

3、随机梯度下降算法的收敛性

4、在线学习-Online Learning

5、映射约减-map reduce

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

十七、大规模机器学习和随机梯度下降(SGD)

1、随机梯度下降-Stochastic Gradient Descent

2、小批量梯度下降 - Mini-batch Gradient descent

3、随机梯度下降算法的收敛性

4、在线学习-Online Learning

5、映射约减-map reduce

热门文章

最新文章

相关课程

相关电子书

相关实验场景