⚡机器学习⚡中的优化器（Optimizers）方法

2021-12-21 146

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： ⚡机器学习⚡中的优化器（Optimizers）方法

⚡终于！！！

⚡终于又有时间学习Deep Learning了⚡！

30天ML计划，一起加油！！！

https://blog.csdn.net/weixin_44333889/category_11271153.html《专栏》

在训练NN的时候，有哪些Optimizers可以优化更快的找到global Minima？

下面我们来看下有哪些方法可以优化求解。

Background

在训练神经网路的时候，最开始我们是用的Gradient Descent（梯度下降法，GD）来求解，但是会出现很多问题，面临大量的数据的时候，GD会出现local Minima，而且求解速度会下降。

关于GD+Momentum，可以看这个介绍简单易懂。

整个技术的发展路线如下：

SGD 【Cauchy，1847】

SGD with momentum 【Rumelhart，et al.，Nature’1986】

上面两个是远古时期的优化求解方法，其实放到现在来看，依旧还是很有效果。

如下面这些就是SGDM训练出来的，

目前比较常用的是下面三个Optimizers：

Adagrad 【Duchi，et al. JMLR’11 2011】

RMSProp 【Hinton，et al. Lecture slides, 2013】

Adam 【kingma，et al. ICLR’15 2014】

借用一下李老师（台大，李宏毅）的PPT。

SGD，stochastic gradient descent。也就是最普通的方法，如下图所示

SGD就像图中的更新方式一样，随机找到一个起始点，对其求梯度，然后在其梯度的反方向按照η \etaη步长进行更新，找到下一个点，然后在不断的重复操作，直到找到Minima。

Adagrad

Adagrad（自适应梯度算法）。其基本思想是，对每个参数theta自适应的调节它的学习率，自适应的方法就是对每个参数乘以不同的系数，并且这个系数是通过之前累积的梯度大小的平方和决定的，也就是说，对于之前更新很多的，相对就可以慢一点，而对那些没怎么更新过的，就可以给一个大一些的学习率。

Adagrad算法:

以上就为Adagrad算法的内容。

Python实现代码：

import numpy as np
class Adagrad:
    def __init__(self, learning_rate=0.01):
        self.learning_rate = learning_rate    # 学习率设置为0.01
        self.fg = None  
        self.delta = 1e-07                   # 设置1e-07微小值避免分母为0
    def update(self, params, grads):     # 更新操作
        if self.fg is None:
            self.fg = {}               # 设为空列表
            for key, value in params.items():
                self.fg[key] = np.zeros_like(value)   # 构造一个矩阵
        for key in params.keys():        # 循环迭代
            self.fg[key] += grads[key] * grads[key]     
            params[key] -= self.learning_rate * grads[key] / (np.sqrt(self.fg[key]) + self.delta)

RMSProp

RMSProp算法实则为对Adagrad的一个改进，也就是把Adagrad对历史梯度加和变成了对历史梯度求均值，再利用这个均值代替Adagrad累加的梯度和对当前梯度进行加权，并用来update更新。

用均值代替求和是为了解决Adagrad的学习率逐渐消失的问题。

（图片源自网络）

有位大佬的解释更加清晰，可跳转此处。

def RMSprop(x, y, step=0.01, iter_count=500, batch_size=4, alpha=0.9, beta=0.9):
    length, features = x.shape
    data = np.column_stack((x, np.ones((length, 1))))
    w = np.zeros((features + 1, 1))
    Sdw, v, eta = 0, 0, 10e-7
    start, end = 0, batch_size
    # 开始迭代
    for i in range(iter_count):
        # 计算临时更新参数
        w_temp = w - step * v
        # 计算梯度
        dw = np.sum((np.dot(data[start:end], w_temp) - y[start:end]) * data[start:end], axis=0).reshape((features + 1, 1)) / length        
        # 计算累积梯度平方
        Sdw = beta * Sdw + (1 - beta) * np.dot(dw.T, dw)
        # 计算速度更新量、
        v = alpha * v + (1 - alpha) * dw
        # 更新参数
        w = w - (step / np.sqrt(eta + Sdw)) * v
        start = (start + batch_size) % length
        if start > length:
            start -= length
        end = (end + batch_size) % length
        if end > length:
            end -= length
    return w

Adam

最后讲讲Adam（自适应矩估计 Adaptive moment estimation），因为目前是比较强的，下面这些都是由Adam训练出来的，

看一下Adam和SGDM的准确率对比（源自论文）

由于Adam的提出的地方有一些突兀，并非在论文或会议，能找到的最原始的出处也只有下面了，看一下他的更新方式吧，相当于一个优化参数的更新模块。

简单翻译一下上面的更新步骤：

Adam 的Python代码有大佬已经开源了：

https://github.com/yzy1996/Python-Code/blob/master/Algorithm/Optimization-Algorithm/Adam.py

https://github.com/sagarvegad/Adam-optimizer/blob/master/Adam.py

如果不想转链接，这里直接附上了：

import math
alpha = 0.01
beta_1 = 0.9
beta_2 = 0.999            # 初始化参数的值
epsilon = 1e-8
def func(x):
  return x*x -4*x + 4
def grad_func(x):         # 计算梯度
  return 2*x - 4
theta_0 = 0           # 初始化向量
m_t = 0 
v_t = 0 
t = 0
while (1):          # 循环直到它收敛
  t+=1
  g_t = grad_func(theta_0)    # 计算随机函数的梯度
  m_t = beta_1*m_t + (1-beta_1)*g_t # 更新梯度的移动平均线
  v_t = beta_2*v_t + (1-beta_2)*(g_t*g_t) # 更新平方梯度的移动平均线
  m_cap = m_t/(1-(beta_1**t))   # 计算偏差校正后的估计
  v_cap = v_t/(1-(beta_2**t))   # 计算偏差校正后的估计
  theta_0_prev = theta_0                
  theta_0 = theta_0 - (alpha*m_cap)/(math.sqrt(v_cap)+epsilon)  # 更新参数
  if(theta_0 == theta_0_prev):    # 检查是否收敛
    break

总而言之，这个优化器目前是处于机器学习中最强的优化地位。

其实，对于不同的数据集或许会有所偏差，在不同的优化时间段，前中后期，各个优化器的准确率会有所波动，如下（源自论文）准确率测试图：

所以，不经感叹道，搞优化求解，真的是一门玄学啊，老的方法不一定在现在没有用，新的方法不一定适用于所以场景，找到最适合的方法才是真的有效的。相信在科技如此发达的现在及以后，会有更多的优化求解算法，推进人类进步，而不仅仅是从硬件上提升运算速度。

⚡机器学习⚡中的优化器（Optimizers）方法

Adam

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

⚡机器学习⚡中的优化器（Optimizers）方法

Adam

热门文章

最新文章

相关课程

相关电子书

相关实验场景