Momentum优化原理
SGD难以在沟壑中航行,即曲面在一个维度上的曲线比在另一个维度上的曲线陡峭得多的区域,这在局部最优点附近很常见。在这些情况下,SGD在沟谷的斜坡上振荡,同时沿着底部向局部最优方向缓慢前进,如图所示。
动量是一种有助于在相关方向上加速SGD并抑制振荡的方法,如图b所示。它通过将过去时间步长的更新向量的一小部分添加到当前更新向量来实现这一点:
动量项通常设置为0.9或类似值。
基本上,当使用动量时,我们将球推下山。球在下坡时积累动量,在路上越来越快(如果有空气阻力,直到达到其极限速度,即1)。同样的情况也发生在参数更新上:对于渐变指向相同方向的维度,动量项增加;对于渐变改变方向的维度,动量项减少更新。因此,我们获得了更快的收敛速度和更少的振荡。
Momentum说白了就是同方向加速,反方向减速,如果上次迭代的梯度方向和本次梯度方向一致,那么本次迭代过程将大幅度更新参数,而如果上次和本次梯度相反,那么就会在一定程度上抵消一部分,导致本次梯度更新只是小幅度更新。
在训练初期,初始化的参数距离最优位置很远,所以此时应该大幅度进行更新参数,类似于小球滚下山,越滚越快,这样就会使我们能够快速到达谷底,减少收敛次数,当到了谷底后,我们不希望还向之前大步更新,应该进行微调,如果仍然大步就会导致不断在最优位置进行振荡,所以此时采用动量的话,当快到了谷底的时候,此时的梯度方向和原来的方向相反,这样就会抵消一部分,导致更新的步幅减小,更容易进行微调找到最优位置。
迭代过程
代码实践
import numpy as np import matplotlib.pyplot as plt class Optimizer: def __init__(self, epsilon = 1e-10, # 误差 iters = 100000, # 最大迭代次数 lamb = 0.01, # 学习率 gamma = 0.0, # 动量项系数 ): self.epsilon = epsilon self.iters = iters self.lamb = lamb self.gamma = gamma def momentum(self, x_0 = 0.5, y_0 = 0.5): f1, f2 = self.fn(x_0, y_0), 0 w = np.array([x_0, y_0]) # 每次迭代后的函数值,用于绘制梯度曲线 k = 0 # 当前迭代次数 v_t = 0.0 while True: if abs(f1 - f2) <= self.epsilon or k > self.iters: break f1 = self.fn(x_0, y_0) g = np.array([self.dx(x_0, y_0), self.dy(x_0, y_0)]) v_t = self.gamma * v_t + self.lamb * g x_0, y_0 = np.array([x_0, y_0]) - v_t f2 = self.fn(x_0, y_0) w = np.vstack((w, (x_0, y_0))) k += 1 self.print_info(k, x_0, y_0, f2) self.draw_process(w) def print_info(self, k, x_0, y_0, f2): print('迭代次数:{}'.format(k)) print('极值点:【x_0】:{} 【y_0】:{}'.format(x_0, y_0)) print('函数的极值:{}'.format(f2)) def draw_process(self, w): X = np.arange(0, 1.5, 0.01) Y = np.arange(-1, 1, 0.01) [x, y] = np.meshgrid(X, Y) f = x**3 - y**3 + 3 * x**2 + 3 * y**2 - 9 * x plt.contour(x, y, f, 20) plt.plot(w[:, 0],w[:, 1], 'g*', w[:, 0], w[:, 1]) plt.show() def fn(self, x, y): return x**3 - y**3 + 3 * x**2 + 3 * y**2 - 9 * x def dx(self, x, y): return 3 * x**2 + 6 * x - 9 def dy(self, x, y): return - 3 * y**2 + 6 * y """ 函数: f(x) = x**3 - y**3 + 3 * x**2 + 3 * y**2 - 9 * x 最优解: x = 1, y = 0 极小值: f(x,y) = -5 """ optimizer = Optimizer() optimizer.momentum()