数学和微分角度理解梯度下降算法

简介: 数学和微分角度理解梯度下降算法

一、 什么是梯度下降算法

梯度下降算法的思想:先任取点(x0,f(x0)),求f(x)在该点x0的导数f"(x0),在用x0减去导数值f"(x0),计算所得就是新的点x1。然后再用x1减去f"(x1)得x2…以此类推,循环多次,慢慢x值就无限接近极小值点。

损失函数用来衡量机器学习模型的精确度。一般来说,损失函数的值越小,模型的精确度就越高。 如果要提高机器学习模型的精确度,就需要尽可能降低损失函数的值。而降低损失函数的值,我们 一般采用梯度下降这个方法。所以,梯度下降的目的,就是为了最小化损失函数。

 

1.1 数学理解——微分

一阶函数里梯度就是表示某一函数在该点处的方向导数沿 着该方向取得较大值,即函数在*当前位置的导数*。如果函数为一元函数,梯度就是该函数的导数

函数,梯度定义为:

梯度就是分别对每个变量进行微分,然后用逗号分割开,梯度是用<>包括起来,说明梯度其实一个向量。向量有方向,梯度的方向就指出了函数在给定点的上升最快的 方向。

如:以二元函数z = f ( x , y )为例,假设其对每个变量都具有连续的一阶偏导

,则这两个偏导数构成的向量即为该二元函数的梯度向量,一般记作∇ f ( x , y )

因此:单变量函数中,梯度代表的是图像斜率,多变量函数中,梯度代表的是向量,变化最快的地方,即最陡峭的

1.2 形象理解

梯度下降可以理解为你站在山的某处,想要下山,此时最快的下山方式就是你环顾四周,哪里最陡峭,朝哪里下山,一直执行这个策略,在第N个循环后,你就到达了山的最低处如上图,

如上图,假如为山的纵切面,那每次下山一小步,经过N次后你便可以到达山底。

对于3维图像,也存在类似步骤,使得在N步之后到达山脚下。

1.3 步长(学习率

前面一直讨论如何下山最快和如何用数学方法来解决下山最快和下山的方向,那么还忽视了一个问题,就是下山的步子。当然,步子太大容易扯着蛋,步子太小下山太慢,可能下山都太阳落山了,因此需要确定一个步长a aa,使得经过合适的步子后能够顺利最快的下山。可能你也能想到,最好的方式便是先大步子下山,在山的最低处小步,不断逼近最低处。但如果在最低处无限逼近那最后的0.000001,此时在实际意义来说是无意义的,因此同时也需确定某个值,使得迭代到某次后判断与设定值的大小,若小于则停止循环。

不同步长的比较

小步长

 

小步长表现为计算量大,耗时长,但比较精准。

大步长

大步长,即较大的a aa,表现为震荡,容易错过最低点,计算量相对较小。

注意:由于函数凹凸性,对于凸函数能够无限逼近其最优解,对于非凸函数,只能获取局部最优解

1.4 梯度下降算法实现

确定了下降方向和大小后,就可以实现梯度下降算法了,同样,下山前我们假设在一个任意点上A(x,y)方便解释,本文统统使用2维坐标,更高维的同理),那么只需要A−aΔ

表示每次向下走一小步,前面我们已经讨论,对于函数而言,此时Δ\Delta Δ不能代表方向,应该用梯度来表示,即∇ ,即:A−

计算完一个梯度后,需要进行更新点A的坐标,A(x,y),循环往复,即可求得最优解,所以,梯度下降的公式为:θ=θ−∗∇J(θ)

在明确公式后,所以一般的梯度下降算法的步骤为:

1、给定待优化连续可微分的函数J(θ),学习率或步长,以及一组初始值(真实值)

2、计算待优化函数梯度

3、更新迭代

4、再次计算新的梯度

5、计算向量的模来判断是否需要终止循环

代码实现:

#f(x)=x^2
import numpy as np
#定义原函数f(x)=x^2
def f(x):
    return np.power(x, 2)
#定义函数求导公式1
def d_f_1(x):
    return 2.0 * x
#定义函数求导公式2
def d_f_2(f, x, delta=1e-4):
    return (f(x+delta) - f(x-delta)) / (2 * delta)
xs = np.arange(-10, 11)# 限制自变量x的范围
plt.plot(xs, f(xs))#绘图
plt.show()
learning_rate = 0.1# 学习率(步长)
max_loop = 30# 迭代次数
x_init = 10.0# x初始值
x = x_init
lr = 0.01# ε值,不过我们下面用的是迭代次数限制
for i in range(max_loop):
    # d_f_x = d_f_1(x)
    d_f_x = d_f_2(f, x)
    x = x - learning_rate * d_f_x
    print(x)
print('initial x =', x_init)
print('arg min f(x) of x =', x)
print('f(x) =', f(x))

在python中,需要将一维的数字和公式转化为矩阵的形式,这能显著提升算法的运行效率和计算时间假设我们要对简单线性回归进行拟合,从高中知识或大学知识我们可得,简单线性回归其实就是找出一条直线y=kx+b,使得尽可能的穿过多的点,如下图:

明显,直线C为最优的拟合直线,则其公式为:

其中是方便求微分,对其结果没有影响,梯度计算公式:

迭代公式:

θ=θ−∗∇J(θ)

1.5 梯度下降算法类型

1.5.1 批量梯度下降算法

前面所讨论中使用的梯度下降算法公式为:

1.5.2 随机梯度下降算法

随机梯度下降算法是利用批量梯度下降算法每次计算所有数据的缺点,随机抽取某个数据来计算梯度作为该次迭代的梯度,梯度计算公式:

迭代公式:

image.png

由于随机选取某个点,省略了求和和求平均的过程,降低了计算复杂度,提升了计算速度,但由于随机选取的原因,存在较大的震荡性。

1.5.3 小批量梯度下降算法

小批量梯度下降算法是综合了批量梯度下降算法和随机梯度下降算法的优缺点,随机选取样本中的一部分数据,梯度计算公式:

迭代公式:

image.png

通常最常用的也是小批量梯度下降算法,计算速度快,收敛稳定。

二、参考文章

梯度下降算法(Gradient descent)_醉蕤的博客-CSDN博客

详解梯度下降算法_JaysonWong的博客-CSDN博客_梯度下降算法


目录
相关文章
|
8月前
|
存储 安全 算法
|
8月前
|
人工智能 算法 测试技术
【数学】【排序】【C++算法】3027人员站位的方案数
【数学】【排序】【C++算法】3027人员站位的方案数
|
2天前
|
机器学习/深度学习 算法 PyTorch
深度强化学习中SAC算法:数学原理、网络架构及其PyTorch实现
软演员-评论家算法(Soft Actor-Critic, SAC)是深度强化学习领域的重要进展,基于最大熵框架优化策略,在探索与利用之间实现动态平衡。SAC通过双Q网络设计和自适应温度参数,提升了训练稳定性和样本效率。本文详细解析了SAC的数学原理、网络架构及PyTorch实现,涵盖演员网络的动作采样与对数概率计算、评论家网络的Q值估计及其损失函数,并介绍了完整的SAC智能体实现流程。SAC在连续动作空间中表现出色,具有高样本效率和稳定的训练过程,适合实际应用场景。
20 7
深度强化学习中SAC算法:数学原理、网络架构及其PyTorch实现
|
7月前
|
机器学习/深度学习 算法 PyTorch
【从零开始学习深度学习】38. Pytorch实战案例:梯度下降、随机梯度下降、小批量随机梯度下降3种优化算法对比【含数据集与源码】
【从零开始学习深度学习】38. Pytorch实战案例:梯度下降、随机梯度下降、小批量随机梯度下降3种优化算法对比【含数据集与源码】
|
3月前
|
机器学习/深度学习 算法 大数据
机器学习入门:梯度下降算法(下)
机器学习入门:梯度下降算法(下)
|
4月前
|
机器学习/深度学习 算法
深度学习中的优化算法:从梯度下降到Adam
本文深入探讨了深度学习中的核心——优化算法,重点分析了梯度下降及其多种变体。通过比较梯度下降、动量方法、AdaGrad、RMSProp以及Adam等算法,揭示了它们如何更高效地找到损失函数的最小值。此外,文章还讨论了不同优化算法在实际模型训练中的表现和选择依据,为深度学习实践提供了宝贵的指导。
121 7
|
3月前
|
机器学习/深度学习 算法
机器学习入门:梯度下降算法(上)
机器学习入门:梯度下降算法(上)
|
5月前
|
机器学习/深度学习 算法 Python
探索机器学习中的梯度下降优化算法
【8月更文挑战第1天】在机器学习的广阔天地里,梯度下降法如同一位勇敢的探险家,指引我们穿越复杂的数学丛林,寻找模型参数的最优解。本文将深入探讨梯度下降法的核心原理,并通过Python代码示例,展示其在解决实际问题中的应用。
101 3
|
7月前
|
机器学习/深度学习 分布式计算 并行计算
算法金 | 再见!!!梯度下降(多图)
**梯度下降及其优化算法简述** 梯度下降是一种优化算法,广泛用于机器学习和深度学习,通过迭代更新模型参数以最小化损失函数。它有几种变体,包括批梯度下降(使用全部数据)、随机梯度下降(单个样本)和小批量梯度下降(小批量样本)。每种形式在计算效率和稳定性上各有优劣。
169 4
算法金 | 再见!!!梯度下降(多图)
|
7月前
|
算法
梯度下降算法(二)
梯度下降法中,学习率选择至关重要。0.3的学习率导致无法找到最小值且产生震荡,而0.01则使结果接近最优解(2.99998768)。当学习率进一步减小至0.001,点远离最低点。通过迭代次数增加至1000次,可更接近最低点(2.999999999256501)。梯度下降用于最小化损失,学习率控制参数更新步长,需平衡收敛速度和稳定性。迭代次数和初始点也影响模型性能,合适的初始化能加速收敛并避开局部极小值。

热门文章

最新文章