机器学习笔记4-多元梯度下降法

简介: 机器学习笔记4-多元梯度下降法

1.多特征

2.多元特征下降法

3.多元特征下降法-特征缩放


有多个变量来求全局最优解的时候,如果变量的取值范围非常不一样,会使得等高线图变得扁平,比如图中的房屋尺寸和房间数量,一个是0-2000另外一个是1-5,会导致求全局最优解变得很慢,要花很长时间来计算。
所以这里要把特征的范围缩小到比较相近的范围,比如x1/2000,x2/5,这样x1和x2都的范围是[0,1],使等高线的图看起来比较圆,会更快的找到全局最优解。

均值归一化 mean normalization:

μ1是x1的平均值,s1是x1的取值范围,一般就是x1的最大值减去x1的最小值。上面就是使用特征缩放的介绍,使用这个方法可以大大减少收敛的数,提高计算的效率。

4.多元特征下降法-学习率

梯度下降中的学习率α,该怎么选择是这一节要讨论的问题。

当上一次的迭代出来的结果和当前迭代的结果差值不超过10的-3次幂,基本认为是已经收敛了,没有必要继续迭代了。但是实际情况中,有的算法
30次迭代就收敛了,有的可能需要三百万次才能迭代收敛,取决于不同的场景和算法。这个迭代次数和什么时候停止是很难确定的。

总结:

1.如果学习率太小,会导致收敛得很慢。
2.如果学习率太大,代价函数可能不是每次都会下降,可能不收敛。

所以为了找到比较正确的学习率,最好画出代价函数的图形,根据图形来判断学习率的选择。吴恩达老师每次使用3倍的增加学习率,会找到最大和最小的学习率,最后找到的值可能是比最大的学习率稍微小一点的值。

5.特征和多项式回归



像上图中的例子,如果对线性方程很熟悉就会想到用平方根的函数来拟合。所以多项式的回归没有固定的方法,熟悉之后可以用各种方式来拟合出方程。

6.正规方程(区别于迭代方法的直接解法)


正规方程:x的转置乘以x的结果的逆,乘以x的转置,乘以y就可以得到θ的值。(没有讲述怎么得来的这个方程,计算就完事了)


正规方程不需要使用特征缩放,可以直接通过计算得出结果。

正规方程和梯度下降的优缺点对比:

1.正规方程优点在于不用选择学习率,不需要迭代计算。缺点在于无法进行n太大的情况的计算,因为正规方程时间复杂度是O(n^3),所以复杂度太高了,计算耗时很长,一般当n的值大于一万就不要用正规方程了。
2.梯度下降的优点在于可以计算很大的n的情况,而且工作得也特别好,但是确定是要选择一个学习率阿尔法,而且需要不停的迭代计算。

7.正规方程(在矩阵不可逆的情况下的解法)


矩阵一般不会出现不可逆的情况,如果真的出现了可以使用以下的方式来解决:
1.检查参数是不是有固定关系的特征,比如x1是平方米,x2是平方英尺,那么这两个的函数只有固定的换算关系的,可能会导致正规方程不可逆,这时候要检查特征去掉重复的
2.如果有非常多个特征,导致矩阵不可逆,要删除一些特征在计算

相关文章
|
3月前
|
机器学习/深度学习 计算机视觉 Python
模型预测笔记(三):通过交叉验证网格搜索机器学习的最优参数
本文介绍了网格搜索(Grid Search)在机器学习中用于优化模型超参数的方法,包括定义超参数范围、创建参数网格、选择评估指标、构建模型和交叉验证策略、执行网格搜索、选择最佳超参数组合,并使用这些参数重新训练模型。文中还讨论了GridSearchCV的参数和不同机器学习问题适用的评分指标。最后提供了使用决策树分类器进行网格搜索的Python代码示例。
172 1
|
3月前
|
机器学习/深度学习 算法
【机器学习】揭秘GBDT:梯度提升决策树
【机器学习】揭秘GBDT:梯度提升决策树
|
5月前
|
机器学习/深度学习
【机器学习】面试题:LSTM长短期记忆网络的理解?LSTM是怎么解决梯度消失的问题的?还有哪些其它的解决梯度消失或梯度爆炸的方法?
长短时记忆网络(LSTM)的基本概念、解决梯度消失问题的机制,以及介绍了包括梯度裁剪、改变激活函数、残差结构和Batch Normalization在内的其他方法来解决梯度消失或梯度爆炸问题。
214 2
|
5月前
|
机器学习/深度学习 算法 数据挖掘
|
5月前
|
机器学习/深度学习 算法
【机器学习】梯度消失和梯度爆炸的原因分析、表现及解决方案
本文分析了深度神经网络中梯度消失和梯度爆炸的原因、表现形式及解决方案,包括梯度不稳定的根本原因以及如何通过网络结构设计、激活函数选择和权重初始化等方法来解决这些问题。
623 0
|
7月前
|
机器学习/深度学习 算法 BI
机器学习笔记(一) 感知机算法 之 原理篇
机器学习笔记(一) 感知机算法 之 原理篇
|
7月前
|
机器学习/深度学习 数据采集 分布式计算
【机器学习】XGBoost: 强化学习与梯度提升的杰作
在机器学习的广阔领域中,集成学习方法因其卓越的预测性能和泛化能力而备受瞩目。其中,XGBoost(Extreme Gradient Boosting)作为梯度提升决策树算法的杰出代表,自其诞生以来,便迅速成为数据科学竞赛和工业界应用中的明星算法。本文旨在深入浅出地介绍XGBoost的核心原理、技术优势、实践应用,并探讨其在模型调优与解释性方面的考量,为读者提供一个全面且深入的理解框架。
222 2
|
7月前
|
机器学习/深度学习 算法 网络架构
**深度学习中的梯度消失与爆炸影响模型训练。梯度消失导致输入层参数更新缓慢,梯度爆炸使训练不稳。
【6月更文挑战第28天】**深度学习中的梯度消失与爆炸影响模型训练。梯度消失导致输入层参数更新缓慢,梯度爆炸使训练不稳。解决办法包括:换激活函数(如ReLU)、权重初始化、残差连接、批量归一化(BN)来对抗消失;梯度裁剪、权重约束、RMSProp或Adam优化器来防止爆炸。这些策略提升网络学习能力和收敛性。**
71 0
|
7月前
|
机器学习/深度学习 算法
机器学习中的超参数优化涉及手动尝试、网格搜索、随机搜索、贝叶斯优化、梯度优化、进化算法等策略
【6月更文挑战第28天】**机器学习中的超参数优化涉及手动尝试、网格搜索、随机搜索、贝叶斯优化、梯度优化、进化算法等策略。工具如scikit-optimize、Optuna助力优化,迁移学习和元学习提供起点,集成方法则通过多模型融合提升性能。资源与时间考虑至关重要,交叉验证和提前停止能有效防止过拟合。**
87 0
|
7月前
|
机器学习/深度学习 算法 数据可视化
技术心得记录:机器学习笔记之聚类算法层次聚类HierarchicalClustering
技术心得记录:机器学习笔记之聚类算法层次聚类HierarchicalClustering
70 0