数学和微分角度理解梯度下降算法

2023-08-30 122

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 数学和微分角度理解梯度下降算法

一、什么是梯度下降算法

梯度下降算法的思想：先任取点（x0,f(x0))，求f(x)在该点x0的导数f"(x0),在用x0减去导数值f"(x0),计算所得就是新的点x1。然后再用x1减去f"(x1)得x2…以此类推，循环多次，慢慢x值就无限接近极小值点。

损失函数用来衡量机器学习模型的精确度。一般来说，损失函数的值越小，模型的精确度就越高。如果要提高机器学习模型的精确度，就需要尽可能降低损失函数的值。而降低损失函数的值，我们一般采用梯度下降这个方法。所以，梯度下降的目的，就是为了最小化损失函数。

1.1 数学理解——微分

一阶函数里梯度就是表示某一函数在该点处的方向导数沿着该方向取得较大值，即函数在*当前位置的导数*。如果函数为一元函数，梯度就是该函数的导数。

二阶函数，梯度定义为：

梯度就是分别对每个变量进行微分，然后用逗号分割开，梯度是用<>包括起来，说明梯度其实一个向量。向量有方向，梯度的方向就指出了函数在给定点的上升最快的方向。

如：以二元函数z = f ( x , y )为例，假设其对每个变量都具有连续的一阶偏导和

，则这两个偏导数构成的向量即为该二元函数的梯度向量，一般记作∇ f ( x , y )

因此：单变量函数中，梯度代表的是图像斜率，多变量函数中，梯度代表的是向量，变化最快的地方，即最陡峭的

1.2 形象理解

梯度下降可以理解为你站在山的某处，想要下山，此时最快的下山方式就是你环顾四周，哪里最陡峭，朝哪里下山，一直执行这个策略，在第N个循环后，你就到达了山的最低处如上图，

如上图，假如为山的纵切面，那每次下山一小步，经过N次后你便可以到达山底。

对于3维图像，也存在类似步骤，使得在N步之后到达山脚下。

1.3 步长（学习率）

前面一直讨论如何下山最快和如何用数学方法来解决下山最快和下山的方向，那么还忽视了一个问题，就是下山的步子。当然，步子太大容易扯着蛋，步子太小下山太慢，可能下山都太阳落山了，因此需要确定一个步长a aa，使得经过合适的步子后能够顺利最快的下山。可能你也能想到，最好的方式便是先大步子下山，在山的最低处小步，不断逼近最低处。但如果在最低处无限逼近那最后的0.000001，此时在实际意义来说是无意义的，因此同时也需确定某个值，使得迭代到某次后判断与设定值的大小，若小于则停止循环。

不同步长的比较

小步长

小步长表现为计算量大，耗时长，但比较精准。

大步长

大步长，即较大的a aa，表现为震荡，容易错过最低点，计算量相对较小。

注意：由于函数凹凸性，对于凸函数能够无限逼近其最优解，对于非凸函数，只能获取局部最优解

1.4 梯度下降算法实现

确定了下降方向和大小后，就可以实现梯度下降算法了，同样，下山前我们假设在一个任意点上A（x，y)方便解释，本文统统使用2维坐标，更高维的同理），那么只需要A−aΔ

表示每次向下走一小步，前面我们已经讨论，对于函数而言，此时Δ\Delta Δ不能代表方向，应该用梯度来表示，即∇ ，即：A− ∇

计算完一个梯度后，需要进行更新点A的坐标，A（x，y），循环往复，即可求得最优解，所以，梯度下降的公式为：θ=θ− ∗∇J(θ)

在明确公式后，所以一般的梯度下降算法的步骤为：

1、给定待优化连续可微分的函数J（θ），学习率或步长，以及一组初始值（真实值）

2、计算待优化函数梯度

3、更新迭代

4、再次计算新的梯度

5、计算向量的模来判断是否需要终止循环

代码实现：

#f(x)=x^2
import numpy as np
#定义原函数f(x)=x^2
def f(x):
    return np.power(x, 2)
#定义函数求导公式1
def d_f_1(x):
    return 2.0 * x
#定义函数求导公式2
def d_f_2(f, x, delta=1e-4):
    return (f(x+delta) - f(x-delta)) / (2 * delta)
xs = np.arange(-10, 11)# 限制自变量x的范围
plt.plot(xs, f(xs))#绘图
plt.show()
learning_rate = 0.1# 学习率（步长）
max_loop = 30# 迭代次数
x_init = 10.0# x初始值
x = x_init
lr = 0.01# ε值，不过我们下面用的是迭代次数限制
for i in range(max_loop):
    # d_f_x = d_f_1(x)
    d_f_x = d_f_2(f, x)
    x = x - learning_rate * d_f_x
    print(x)
print('initial x =', x_init)
print('arg min f(x) of x =', x)
print('f(x) =', f(x))