最优化--梯度下降法--牛顿法(详解)

简介: 最优化--梯度下降法--牛顿法(详解)

目录


梯度下降法


梯度下降法


步骤


牛顿法


牛顿法的基本思想


牛顿法的优缺点


作用




梯度下降法


梯度下降法(Gradient Descent)是一种常用的优化算法,用于求解函数的最小值或最大值。它通过迭代的方式,不断更新参数的取值,使目标函数的值逐渐趋近于最优解。


梯度下降法的基本思想是,在每一次迭代中,通过计算目标函数对参数的梯度(即函数在当前参数取值处的变化率),然后沿着梯度的反方向进行参数更新,从而使目标函数的值逐步下降。这是因为梯度的方向指示了函数增长最快的方向,而我们希望找到函数的最小值,因此朝着梯度的反方向进行参数更新可以逐渐接近最优解。

1.png

在最小化损失函数时,可以通过梯度下降法来一步步的迭代求解,得到最小化的损失函

数和模型参数值。


梯度下降法


在机器学习中,对于很多监督学习模型,需要对原始的模型构建损失函数,接下来便是通


过优化算法对损失函数进行优化,最小化损失函数,以便寻找到最优的参数.于是,基于搜


索的梯度下降法就产生了。


梯度下降法是通过当前点的梯度的反方向寻找到新的迭代点,并从当前点移动到新的迭


代点继续寻找新的迭代点,直到找到最优解。


以下图为例:

2.png

上图中,η 称为学习率(learning rate),有时候也写作α,其取值影响获得最优解的速度

3.png

通过这个公式,在梯度下降法中不断搜索最佳的θ值。


步骤


1.初始化参数:选择初始参数的取值。


2.计算梯度:计算目标函数对参数的梯度。梯度表示了函数在当前参数取值处的变化率。


3.参数更新:根据梯度的反方向,按照一定的步长(学习率)更新参数的取值。更新公式为:新参数 = 旧参数 - 学习率 × 梯度。


4.重复迭代:重复步骤2和步骤3,直到满足停止条件,例如达到最大迭代次数或目标函数的变化很小。


牛顿法


牛顿法(Newton's Method),也称为牛顿-拉弗森法(Newton-Raphson Method),是一种用于求解方程根或函数的最小值的迭代优化算法。它利用函数的二阶导数信息(Hessian矩阵)来逼近函数的局部性质,能够更快地收敛到最优解。


牛顿法的基本思想是通过构造函数的泰勒级数展开来近似原函数,并使用近似函数的根或最小值来逐步逼近原函数的根或最小值。在每一次迭代中,牛顿法使用当前点的切线来估计函数的根或最小值,并将切线与x轴的交点作为下一次迭代的点。这样,通过不断迭代,可以逐渐逼近函数的根或最小值。

4.png

牛顿法的基本思想


在现有的极小值估计值的附近对f(x)做二阶泰勒展开,进而找到极小点的下一个估计

值,反复迭代直到函数的一阶导数小于某个接近0的阀值。最终求出极小点的估计值。

5.png

牛顿法实现的动图如下所示:

6.gif

注意


使用牛顿法时会用到hessian矩阵


牛顿法的优缺点


优点:


  • 牛顿法既用到了一阶导数的信息,也用到了二阶导数的信息

  • 牛顿法是用二次函数来代替目标函数,所以牛顿法的收敛速度是更快的

缺点:


  • hessian矩阵不一定可逆

  • 即使hessian矩阵可逆, 当 hessian 矩阵规模很大,非常耗时

作用


1.方程求解:牛顿法可以用于求解非线性方程的根。通过不断迭代,牛顿法可以快速逼近方程的根,尤其在初始点附近,收敛速度通常很快。因此,牛顿法在科学计算、物理建模等领域中广泛应用,例如求解非线性方程、求解微分方程的初值问题等。


2.优化问题:牛顿法可以用于求解函数的最小值或最大值。通过利用函数的二阶导数信息,牛顿法能够更快地收敛到函数的最优解。在优化问题中,牛顿法常用于求解无约束优化问题或约束优化问题的局部最优解。它在数学建模、机器学习、数据分析等领域中具有重要应用,例如最小二乘法、逻辑回归、神经网络等模型的参数优化。


3.数值分析:牛顿法是数值分析中的一种重要方法。它提供了一种逼近函数根或最优解的有效途径,通过迭代和近似计算,能够在有限步骤内得到满足要求的解。牛顿法是一种高效的数值计算方法,可以用于求解复杂的数学问题,如非线性方程组的求解、多元函数的最小值等。


目录
打赏
0
0
1
0
3
分享
相关文章
激光SLAM:ALOAM---后端lasermapping地图栅格化处理与提取
不同于前端的scan-to-scan的过程,ALOAM的后端是scan-to-map的算法,具体来说就是把当前帧和地图进行匹配,得到更准确的位姿同时也可以构建更好的地图.由于是scan-to-map的算法,因此计算量会明显高于scan-to-scan的前端,所以后端通常处于一个低频的运行频率,但是由于scan-to-map的精度往往优于scan-to-scan.因此后端也有比前端更高的精度.为了提高后端的处理速度,所以要进行地图的栅格化处理
激光SLAM:ALOAM---后端lasermapping地图栅格化处理与提取
图解机器学习 | GBDT模型详解
GBDT是一种迭代的决策树算法,将决策树与集成思想进行了有效的结合。本文讲解GBDT算法的Boosting核心思想、训练过程、优缺点、与随机森林的对比、以及Python代码实现。
8602 2
图解机器学习 | GBDT模型详解
最优化方法(最速下降、牛顿法、高斯牛顿法、LM算法)
最优化方法(最速下降、牛顿法、高斯牛顿法、LM算法)
933 0
最优化方法(最速下降、牛顿法、高斯牛顿法、LM算法)
RAG系统的7个检索指标:信息检索任务准确性评估指南
大型语言模型(LLMs)在生成式AI领域备受关注,但其知识局限性和幻觉问题仍具挑战。检索增强生成(RAG)通过引入外部知识和上下文,有效解决了这些问题,并成为2024年最具影响力的AI技术之一。RAG评估需超越简单的实现方式,建立有效的性能度量标准。本文重点讨论了七个核心检索指标,包括准确率、精确率、召回率、F1分数、平均倒数排名(MRR)、平均精确率均值(MAP)和归一化折损累积增益(nDCG),为评估和优化RAG系统提供了重要依据。这些指标不仅在RAG中发挥作用,还广泛应用于搜索引擎、电子商务、推荐系统等领域。
3868 2
RAG系统的7个检索指标:信息检索任务准确性评估指南
Pytorch-Adam算法解析
肆十二在B站分享深度学习实战教程,本期讲解Adam优化算法。Adam结合了AdaGrad和RMSProp的优点,通过一阶和二阶矩估计,实现自适应学习率,适用于大规模数据和非稳态目标。PyTorch中使用`torch.optim.Adam`轻松配置优化器。
312 0
【机器学习】梯度消失和梯度爆炸的原因分析、表现及解决方案
本文分析了深度神经网络中梯度消失和梯度爆炸的原因、表现形式及解决方案,包括梯度不稳定的根本原因以及如何通过网络结构设计、激活函数选择和权重初始化等方法来解决这些问题。
1426 0
【机器学习】GBDT (Gradient Boosting Decision Tree) 深入解析
GBDT,全称为Gradient Boosting Decision Tree,即梯度提升决策树,是机器学习领域中一种高效且强大的集成学习方法。它通过迭代地添加决策树以逐步降低预测误差,从而在各种任务中,尤其是回归和分类问题上表现出色。本文将深入浅出地介绍GBDT的基本原理、算法流程、关键参数调整策略以及其在实际应用中的表现与优化技巧。
2800 1
Unix环境高级编程(第三版)中apue.h头文件及其依赖安装教程
Unix环境高级编程(第三版)中apue.h头文件及其依赖安装教程
298 0
AI助理
登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问

你好,我是AI助理

可以解答问题、推荐解决方案等