一、 什么是梯度下降算法
梯度下降算法的思想:先任取点(x0,f(x0)),求f(x)在该点x0的导数f"(x0),在用x0减去导数值f"(x0),计算所得就是新的点x1。然后再用x1减去f"(x1)得x2…以此类推,循环多次,慢慢x值就无限接近极小值点。
损失函数用来衡量机器学习模型的精确度。一般来说,损失函数的值越小,模型的精确度就越高。 如果要提高机器学习模型的精确度,就需要尽可能降低损失函数的值。而降低损失函数的值,我们 一般采用梯度下降这个方法。所以,梯度下降的目的,就是为了最小化损失函数。
1.1 数学理解——微分
一阶函数里梯度就是表示某一函数在该点处的方向导数沿 着该方向取得较大值,即函数在*当前位置的导数*。如果函数为一元函数,梯度就是该函数的导数。
二阶函数,梯度定义为:
梯度就是分别对每个变量进行微分,然后用逗号分割开,梯度是用<>包括起来,说明梯度其实一个向量。向量有方向,梯度的方向就指出了函数在给定点的上升最快的 方向。
如:以二元函数z = f ( x , y )为例,假设其对每个变量都具有连续的一阶偏导 和
,则这两个偏导数构成的向量即为该二元函数的梯度向量,一般记作∇ f ( x , y )
因此:单变量函数中,梯度代表的是图像斜率,多变量函数中,梯度代表的是向量,变化最快的地方,即最陡峭的
1.2 形象理解
梯度下降可以理解为你站在山的某处,想要下山,此时最快的下山方式就是你环顾四周,哪里最陡峭,朝哪里下山,一直执行这个策略,在第N个循环后,你就到达了山的最低处如上图,
如上图,假如为山的纵切面,那每次下山一小步,经过N次后你便可以到达山底。
对于3维图像,也存在类似步骤,使得在N步之后到达山脚下。
1.3 步长(学习率)
前面一直讨论如何下山最快和如何用数学方法来解决下山最快和下山的方向,那么还忽视了一个问题,就是下山的步子。当然,步子太大容易扯着蛋,步子太小下山太慢,可能下山都太阳落山了,因此需要确定一个步长a aa,使得经过合适的步子后能够顺利最快的下山。可能你也能想到,最好的方式便是先大步子下山,在山的最低处小步,不断逼近最低处。但如果在最低处无限逼近那最后的0.000001,此时在实际意义来说是无意义的,因此同时也需确定某个值,使得迭代到某次后判断与设定值的大小,若小于则停止循环。
不同步长的比较
小步长
小步长表现为计算量大,耗时长,但比较精准。
大步长
大步长,即较大的a aa,表现为震荡,容易错过最低点,计算量相对较小。
注意:由于函数凹凸性,对于凸函数能够无限逼近其最优解,对于非凸函数,只能获取局部最优解
1.4 梯度下降算法实现
确定了下降方向和大小后,就可以实现梯度下降算法了,同样,下山前我们假设在一个任意点上A(x,y)方便解释,本文统统使用2维坐标,更高维的同理),那么只需要A−aΔ
表示每次向下走一小步,前面我们已经讨论,对于函数而言,此时Δ\Delta Δ不能代表方向,应该用梯度来表示,即∇ ,即:A−∇
计算完一个梯度后,需要进行更新点A的坐标,A(x,y),循环往复,即可求得最优解,所以,梯度下降的公式为:θ=θ−∗∇J(θ)
在明确公式后,所以一般的梯度下降算法的步骤为:
1、给定待优化连续可微分的函数J(θ),学习率或步长,以及一组初始值(真实值)
2、计算待优化函数梯度
3、更新迭代
4、再次计算新的梯度
5、计算向量的模来判断是否需要终止循环
代码实现:
#f(x)=x^2 import numpy as np #定义原函数f(x)=x^2 def f(x): return np.power(x, 2) #定义函数求导公式1 def d_f_1(x): return 2.0 * x #定义函数求导公式2 def d_f_2(f, x, delta=1e-4): return (f(x+delta) - f(x-delta)) / (2 * delta) xs = np.arange(-10, 11)# 限制自变量x的范围 plt.plot(xs, f(xs))#绘图 plt.show() learning_rate = 0.1# 学习率(步长) max_loop = 30# 迭代次数 x_init = 10.0# x初始值 x = x_init lr = 0.01# ε值,不过我们下面用的是迭代次数限制 for i in range(max_loop): # d_f_x = d_f_1(x) d_f_x = d_f_2(f, x) x = x - learning_rate * d_f_x print(x) print('initial x =', x_init) print('arg min f(x) of x =', x) print('f(x) =', f(x))
在python中,需要将一维的数字和公式转化为矩阵的形式,这能显著提升算法的运行效率和计算时间假设我们要对简单线性回归进行拟合,从高中知识或大学知识我们可得,简单线性回归其实就是找出一条直线y=kx+b,使得尽可能的穿过多的点,如下图:
明显,直线C为最优的拟合直线,则其公式为:
其中是方便求微分,对其结果没有影响,梯度计算公式:
迭代公式:
θ=θ−∗∇J(θ)
1.5 梯度下降算法类型
1.5.1 批量梯度下降算法
前面所讨论中使用的梯度下降算法公式为:
1.5.2 随机梯度下降算法
随机梯度下降算法是利用批量梯度下降算法每次计算所有数据的缺点,随机抽取某个数据来计算梯度作为该次迭代的梯度,梯度计算公式:
迭代公式:
由于随机选取某个点,省略了求和和求平均的过程,降低了计算复杂度,提升了计算速度,但由于随机选取的原因,存在较大的震荡性。
1.5.3 小批量梯度下降算法
小批量梯度下降算法是综合了批量梯度下降算法和随机梯度下降算法的优缺点,随机选取样本中的一部分数据,梯度计算公式:
迭代公式:
通常最常用的也是小批量梯度下降算法,计算速度快,收敛稳定。
二、参考文章
梯度下降算法(Gradient descent)_醉蕤的博客-CSDN博客
详解梯度下降算法_JaysonWong的博客-CSDN博客_梯度下降算法