十七、大规模机器学习和随机梯度下降(SGD)

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 十七、大规模机器学习和随机梯度下降(SGD)

1、随机梯度下降-Stochastic Gradient Descent


随机梯度下降是相对于批量梯度下降(batch gradient descent)提出的,目的在训练集数据非常大时,加快求解梯度的速度。不同于梯度下降中,每次计算梯度的时候需要计算所有训练数据的梯度,SGD每次只计算一个样本的梯度,使用计算出来的梯度对参数  θ进行更新,SGD的流程如下所示:


6cd8b14a500647cc9ca6e491cd1fb14d.png

外层循环的次数通常选取1-10次。



2、小批量梯度下降 - Mini-batch Gradient descent


小批量梯度下降介于批梯度下降和随机梯度下降之间,批梯度下降使用全部的训练样本来计算梯度;随机梯度下降每次只使用一个训练样本来计算梯度;而小批量梯度下降每次使用 b ∈ [ 2 , 100 ] b \in [2,100] b∈[2,100](mini batch size)个训练样本来计算梯度。小批量梯度下降的流程如下所示:


2d1e1210b98049fea80fa90a8dc30f54.png



3、随机梯度下降算法的收敛性


在使用批梯度下降算法时,判断收敛的方法是通过绘制成本函数  Jθ关于迭代次数的图像来观察成本是否随着迭代次数增加而减小;而在SGD中,通常采用的方法是:每隔1000次迭代,绘制前1000次迭代中单个样本的成本 cost(θ,(xi,yi)),从而观察成本是否随着迭代次数增大而减小。


031e9fbe872b4f4186d7cbd01560be6b.png



在SGD中,学习率  α通常是保持不变的,但是如果我们想得到更好的收敛效果,可以让 α=iterationNum+const2const1,但是这种方法需要仔细校准参数  const1和 const2的值。




4、在线学习-Online Learning


在线学习处理的是连续输入的数据流,同时需要一个模型从这些连续输入的数据中进行学习。下面是一个在线学习的情景:某个提供运输服务的网站,会不断有顾客点进网站,规定起终点,然后通过网站的报价来购买运输服务;当得到网站的报价之后,某些顾客选择使用网站提供的运输服务(y=1),有些顾客选择不使用网站提供的运输服务(y=0)。令特征 x x x记录顾客的特征,如规定的起终点,询问的报价等,在线学习模型需要优化网站的报价价格,p(y=1∣x;θ)。运输网站的在线学习的模型如下所示:



b07a648737ea4643aab0717c389b7f65.png




5、映射约减-map reduce



映射约减的思想是将本来一台计算机需要完成的任务分给几台计算机进行并行计算,从而提高计算效率。

5935c7bdd9d94a1a9a7bccd75eeda4f2.png






相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
1月前
|
机器学习/深度学习 算法
【机器学习】揭秘GBDT:梯度提升决策树
【机器学习】揭秘GBDT:梯度提升决策树
|
3月前
|
机器学习/深度学习
【机器学习】面试题:LSTM长短期记忆网络的理解?LSTM是怎么解决梯度消失的问题的?还有哪些其它的解决梯度消失或梯度爆炸的方法?
长短时记忆网络(LSTM)的基本概念、解决梯度消失问题的机制,以及介绍了包括梯度裁剪、改变激活函数、残差结构和Batch Normalization在内的其他方法来解决梯度消失或梯度爆炸问题。
136 2
|
3月前
|
机器学习/深度学习 算法 数据挖掘
|
3月前
|
机器学习/深度学习 算法
【机器学习】梯度消失和梯度爆炸的原因分析、表现及解决方案
本文分析了深度神经网络中梯度消失和梯度爆炸的原因、表现形式及解决方案,包括梯度不稳定的根本原因以及如何通过网络结构设计、激活函数选择和权重初始化等方法来解决这些问题。
413 0
|
5月前
|
机器学习/深度学习 数据采集 分布式计算
【机器学习】XGBoost: 强化学习与梯度提升的杰作
在机器学习的广阔领域中,集成学习方法因其卓越的预测性能和泛化能力而备受瞩目。其中,XGBoost(Extreme Gradient Boosting)作为梯度提升决策树算法的杰出代表,自其诞生以来,便迅速成为数据科学竞赛和工业界应用中的明星算法。本文旨在深入浅出地介绍XGBoost的核心原理、技术优势、实践应用,并探讨其在模型调优与解释性方面的考量,为读者提供一个全面且深入的理解框架。
173 2
|
5月前
|
机器学习/深度学习 算法 网络架构
**深度学习中的梯度消失与爆炸影响模型训练。梯度消失导致输入层参数更新缓慢,梯度爆炸使训练不稳。
【6月更文挑战第28天】**深度学习中的梯度消失与爆炸影响模型训练。梯度消失导致输入层参数更新缓慢,梯度爆炸使训练不稳。解决办法包括:换激活函数(如ReLU)、权重初始化、残差连接、批量归一化(BN)来对抗消失;梯度裁剪、权重约束、RMSProp或Adam优化器来防止爆炸。这些策略提升网络学习能力和收敛性。**
56 0
|
5月前
|
机器学习/深度学习 算法
机器学习中的超参数优化涉及手动尝试、网格搜索、随机搜索、贝叶斯优化、梯度优化、进化算法等策略
【6月更文挑战第28天】**机器学习中的超参数优化涉及手动尝试、网格搜索、随机搜索、贝叶斯优化、梯度优化、进化算法等策略。工具如scikit-optimize、Optuna助力优化,迁移学习和元学习提供起点,集成方法则通过多模型融合提升性能。资源与时间考虑至关重要,交叉验证和提前停止能有效防止过拟合。**
67 0
|
5月前
|
机器学习/深度学习 算法 大数据
【机器学习】拉索回归与坐标下降法
【机器学习】拉索回归与坐标下降法
67 0
|
6月前
|
机器学习/深度学习 数据可视化 算法
R语言梯度提升机 GBM、支持向量机SVM、正则判别分析RDA模型训练、参数调优化和性能比较可视化分析声纳数据
R语言梯度提升机 GBM、支持向量机SVM、正则判别分析RDA模型训练、参数调优化和性能比较可视化分析声纳数据
|
6月前
|
机器学习/深度学习 人工智能 分布式计算
R和Python机器学习:广义线性回归glm,样条glm,梯度增强,随机森林和深度学习模型分析
R和Python机器学习:广义线性回归glm,样条glm,梯度增强,随机森林和深度学习模型分析