【机器学习】numpy实现Momentum动量优化器

2023-01-19 316

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【机器学习】numpy实现Momentum动量优化器

Momentum优化原理

SGD难以在沟壑中航行，即曲面在一个维度上的曲线比在另一个维度上的曲线陡峭得多的区域，这在局部最优点附近很常见。在这些情况下，SGD在沟谷的斜坡上振荡，同时沿着底部向局部最优方向缓慢前进，如图所示。

动量是一种有助于在相关方向上加速SGD并抑制振荡的方法，如图b所示。它通过将过去时间步长的更新向量的一小部分添加到当前更新向量来实现这一点：

动量项通常设置为0.9或类似值。

基本上，当使用动量时，我们将球推下山。球在下坡时积累动量，在路上越来越快（如果有空气阻力，直到达到其极限速度，即1）。同样的情况也发生在参数更新上：对于渐变指向相同方向的维度，动量项增加；对于渐变改变方向的维度，动量项减少更新。因此，我们获得了更快的收敛速度和更少的振荡。

Momentum说白了就是同方向加速，反方向减速，如果上次迭代的梯度方向和本次梯度方向一致，那么本次迭代过程将大幅度更新参数，而如果上次和本次梯度相反，那么就会在一定程度上抵消一部分，导致本次梯度更新只是小幅度更新。

在训练初期，初始化的参数距离最优位置很远，所以此时应该大幅度进行更新参数，类似于小球滚下山，越滚越快，这样就会使我们能够快速到达谷底，减少收敛次数，当到了谷底后，我们不希望还向之前大步更新，应该进行微调，如果仍然大步就会导致不断在最优位置进行振荡，所以此时采用动量的话，当快到了谷底的时候，此时的梯度方向和原来的方向相反，这样就会抵消一部分，导致更新的步幅减小，更容易进行微调找到最优位置。

迭代过程

代码实践

import numpy as np
import matplotlib.pyplot as plt
class Optimizer:
    def __init__(self,
                 epsilon = 1e-10, # 误差
                 iters = 100000,  # 最大迭代次数
                 lamb = 0.01, # 学习率
                 gamma = 0.0, # 动量项系数
                ):
        self.epsilon = epsilon
        self.iters = iters
        self.lamb = lamb
        self.gamma = gamma
    def momentum(self, x_0 = 0.5, y_0 = 0.5):
        f1, f2 = self.fn(x_0, y_0), 0
        w = np.array([x_0, y_0]) # 每次迭代后的函数值，用于绘制梯度曲线
        k = 0 # 当前迭代次数
        v_t = 0.0
        while True:
            if abs(f1 - f2) <= self.epsilon or k > self.iters:
                break
            f1 = self.fn(x_0, y_0)
            g = np.array([self.dx(x_0, y_0), self.dy(x_0, y_0)])
            v_t = self.gamma * v_t + self.lamb * g
            x_0, y_0 = np.array([x_0, y_0]) - v_t
            f2 = self.fn(x_0, y_0)
            w = np.vstack((w, (x_0, y_0)))
            k += 1
        self.print_info(k, x_0, y_0, f2)
        self.draw_process(w)
    def print_info(self, k, x_0, y_0, f2):
        print('迭代次数：{}'.format(k))
        print('极值点：【x_0】：{} 【y_0】：{}'.format(x_0, y_0))
        print('函数的极值：{}'.format(f2))
    def draw_process(self, w):
        X = np.arange(0, 1.5, 0.01)
        Y = np.arange(-1, 1, 0.01)
        [x, y] = np.meshgrid(X, Y)
        f = x**3 - y**3 + 3 * x**2 + 3 * y**2 - 9 * x
        plt.contour(x, y, f, 20)
        plt.plot(w[:, 0],w[:, 1], 'g*', w[:, 0], w[:, 1])
        plt.show()
    def fn(self, x, y):
        return x**3 - y**3 + 3 * x**2 + 3 * y**2 - 9 * x
    def dx(self, x, y):
        return 3 * x**2 + 6 * x - 9
    def dy(self, x, y):
        return - 3 * y**2 + 6 * y
"""
    函数: f(x) = x**3 - y**3 + 3 * x**2 + 3 * y**2 - 9 * x
    最优解: x = 1, y = 0
    极小值: f(x,y) = -5
"""
optimizer = Optimizer()
optimizer.momentum()

【机器学习】numpy实现Momentum动量优化器

Momentum优化原理

迭代过程

代码实践

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

【机器学习】numpy实现Momentum动量优化器

Momentum优化原理

迭代过程

代码实践

热门文章

最新文章

相关课程

相关电子书

相关实验场景