最优化--梯度下降法--牛顿法(详解)

简介: 最优化--梯度下降法--牛顿法(详解)

目录


梯度下降法


梯度下降法


步骤


牛顿法


牛顿法的基本思想


牛顿法的优缺点


作用




梯度下降法


梯度下降法(Gradient Descent)是一种常用的优化算法,用于求解函数的最小值或最大值。它通过迭代的方式,不断更新参数的取值,使目标函数的值逐渐趋近于最优解。


梯度下降法的基本思想是,在每一次迭代中,通过计算目标函数对参数的梯度(即函数在当前参数取值处的变化率),然后沿着梯度的反方向进行参数更新,从而使目标函数的值逐步下降。这是因为梯度的方向指示了函数增长最快的方向,而我们希望找到函数的最小值,因此朝着梯度的反方向进行参数更新可以逐渐接近最优解。

1.png

在最小化损失函数时,可以通过梯度下降法来一步步的迭代求解,得到最小化的损失函

数和模型参数值。


梯度下降法


在机器学习中,对于很多监督学习模型,需要对原始的模型构建损失函数,接下来便是通


过优化算法对损失函数进行优化,最小化损失函数,以便寻找到最优的参数.于是,基于搜


索的梯度下降法就产生了。


梯度下降法是通过当前点的梯度的反方向寻找到新的迭代点,并从当前点移动到新的迭


代点继续寻找新的迭代点,直到找到最优解。


以下图为例:

2.png

上图中,η 称为学习率(learning rate),有时候也写作α,其取值影响获得最优解的速度

3.png

通过这个公式,在梯度下降法中不断搜索最佳的θ值。


步骤


1.初始化参数:选择初始参数的取值。


2.计算梯度:计算目标函数对参数的梯度。梯度表示了函数在当前参数取值处的变化率。


3.参数更新:根据梯度的反方向,按照一定的步长(学习率)更新参数的取值。更新公式为:新参数 = 旧参数 - 学习率 × 梯度。


4.重复迭代:重复步骤2和步骤3,直到满足停止条件,例如达到最大迭代次数或目标函数的变化很小。


牛顿法


牛顿法(Newton's Method),也称为牛顿-拉弗森法(Newton-Raphson Method),是一种用于求解方程根或函数的最小值的迭代优化算法。它利用函数的二阶导数信息(Hessian矩阵)来逼近函数的局部性质,能够更快地收敛到最优解。


牛顿法的基本思想是通过构造函数的泰勒级数展开来近似原函数,并使用近似函数的根或最小值来逐步逼近原函数的根或最小值。在每一次迭代中,牛顿法使用当前点的切线来估计函数的根或最小值,并将切线与x轴的交点作为下一次迭代的点。这样,通过不断迭代,可以逐渐逼近函数的根或最小值。

4.png

牛顿法的基本思想


在现有的极小值估计值的附近对f(x)做二阶泰勒展开,进而找到极小点的下一个估计

值,反复迭代直到函数的一阶导数小于某个接近0的阀值。最终求出极小点的估计值。

5.png

牛顿法实现的动图如下所示:

6.gif

注意


使用牛顿法时会用到hessian矩阵


牛顿法的优缺点


优点:


  • 牛顿法既用到了一阶导数的信息,也用到了二阶导数的信息

  • 牛顿法是用二次函数来代替目标函数,所以牛顿法的收敛速度是更快的

缺点:


  • hessian矩阵不一定可逆

  • 即使hessian矩阵可逆, 当 hessian 矩阵规模很大,非常耗时

作用


1.方程求解:牛顿法可以用于求解非线性方程的根。通过不断迭代,牛顿法可以快速逼近方程的根,尤其在初始点附近,收敛速度通常很快。因此,牛顿法在科学计算、物理建模等领域中广泛应用,例如求解非线性方程、求解微分方程的初值问题等。


2.优化问题:牛顿法可以用于求解函数的最小值或最大值。通过利用函数的二阶导数信息,牛顿法能够更快地收敛到函数的最优解。在优化问题中,牛顿法常用于求解无约束优化问题或约束优化问题的局部最优解。它在数学建模、机器学习、数据分析等领域中具有重要应用,例如最小二乘法、逻辑回归、神经网络等模型的参数优化。


3.数值分析:牛顿法是数值分析中的一种重要方法。它提供了一种逼近函数根或最优解的有效途径,通过迭代和近似计算,能够在有限步骤内得到满足要求的解。牛顿法是一种高效的数值计算方法,可以用于求解复杂的数学问题,如非线性方程组的求解、多元函数的最小值等。


相关文章
|
9月前
|
机器学习/深度学习 数据可视化 算法
数据分布不明确?5个方法识别数据分布,快速找到数据的真实规律
本文深入探讨了数据科学中分布识别的重要性及其实践方法。作为数据分析的基础环节,分布识别影响后续模型性能与分析可靠性。文章从直方图的可视化入手,介绍如何通过Python代码实现分布特征的初步观察,并系统化地讲解参数估计、统计检验及distfit库的应用。同时,针对离散数据、非参数方法和Bootstrap验证等专题展开讨论,强调业务逻辑与统计结果结合的重要性。最后指出,正确识别分布有助于异常检测、数据生成及预测分析等领域,为决策提供可靠依据。作者倡导在实践中平衡模型复杂度与实用性,重视对数据本质的理解。
747 3
数据分布不明确?5个方法识别数据分布,快速找到数据的真实规律
|
机器学习/深度学习 算法
广义优势估计(GAE):端策略优化PPO中偏差与方差平衡的关键技术
广义优势估计(GAE)由Schulman等人于2016年提出,是近端策略优化(PPO)算法的核心理论基础。它通过平衡偏差与方差,解决了强化学习中的信用分配问题,即如何准确判定历史动作对延迟奖励的贡献。GAE基于资格迹和TD-λ思想,采用n步优势的指数加权平均方法,将优势函数有效集成到损失函数中,为策略优化提供稳定梯度信号。相比TD-λ,GAE更适用于现代策略梯度方法,推动了高效强化学习算法的发展。
2119 3
广义优势估计(GAE):端策略优化PPO中偏差与方差平衡的关键技术
|
8月前
|
Windows
DirectX修复工具,修复游戏d3d11错误,ce-30391-6,DXGI,d3d9.dll,6204103和d3d11.dll文件丢失
DLL修复工具是一款轻量级软件,专注于解决因DLL文件缺失、异常或错误导致的系统崩溃问题。它能够快速扫描并修复常见的DLL文件错误,如msvcp.dll、vcruntime.dll等,适用于各类Windows系统。软件体积小巧,操作简单,资源占用低,适合需要高效修复DLL问题的用户使用。
222 1
|
资源调度 API 计算机视觉
【OpenCV】—非线性滤波:中值滤波、双边滤波
【OpenCV】—非线性滤波:中值滤波、双边滤波
494 3
|
机器学习/深度学习 编解码 人工智能
超越Transformer,全面升级!MIT等华人团队发布通用时序TimeMixer++架构,8项任务全面领先
一支由麻省理工学院、香港科技大学(广州)、浙江大学和格里菲斯大学的华人研究团队,开发了名为TimeMixer++的时间序列分析模型。该模型在8项任务中超越现有技术,通过多尺度时间图像转换、双轴注意力机制和多尺度多分辨率混合等技术,实现了性能的显著提升。论文已发布于arXiv。
948 84
|
机器学习/深度学习 并行计算 PyTorch
从零开始下载torch+cu(无痛版)
这篇文章提供了一个详细的无痛版教程,指导如何从零开始下载并配置支持CUDA的PyTorch GPU版本,包括查看Cuda版本、在官网检索下载包名、下载指定的torch、torchvision、torchaudio库,并在深度学习环境中安装和测试是否成功。
从零开始下载torch+cu(无痛版)
|
Java Maven Spring
Spring Boot中集成ZooKeeper的最佳实践
Spring Boot中集成ZooKeeper的最佳实践
|
机器学习/深度学习 算法 数据挖掘
【机器学习】为什么K-means算法使用欧式距离度量?
【5月更文挑战第11天】【机器学习】为什么K-means算法使用欧式距离度量?
|
机器学习/深度学习 传感器 算法
【机器学习】在聚类算法中,使用曼哈顿距离和使用欧式距离有什么区别?
【5月更文挑战第12天】【机器学习】在聚类算法中,使用曼哈顿距离和使用欧式距离有什么区别?

热门文章

最新文章