⚡机器学习⚡中的优化器(Optimizers)方法

简介: ⚡机器学习⚡中的优化器(Optimizers)方法

⚡终于!!!

⚡终于又有时间学习Deep Learning了⚡!

30天ML计划,一起加油!!!

https://blog.csdn.net/weixin_44333889/category_11271153.html《专栏》


在训练NN的时候,有哪些Optimizers可以优化更快的找到global Minima?


下面我们来看下有哪些方法可以优化求解。


Background

在训练神经网路的时候,最开始我们是用的Gradient Descent(梯度下降法,GD)来求解,但是会出现很多问题,面临大量的数据的时候,GD会出现local Minima,而且求解速度会下降。


关于GD+Momentum,可以看这个介绍简单易懂。


整个技术的发展路线如下:


SGD 【Cauchy,1847】

SGD with momentum 【Rumelhart,et al.,Nature’1986】

上面两个是远古时期的优化求解方法,其实放到现在来看,依旧还是很有效果。


如下面这些就是SGDM训练出来的,


image.png

image.png

目前比较常用的是下面三个Optimizers:


Adagrad 【Duchi,et al. JMLR’11 2011】

RMSProp 【Hinton,et al. Lecture slides, 2013】

Adam 【kingma,et al. ICLR’15 2014】

借用一下李老师(台大,李宏毅)的PPT。


SGD,stochastic gradient descent。也就是最普通的方法,如下图所示

image.png

SGD就像图中的更新方式一样,随机找到一个起始点,对其求梯度,然后在其梯度的反方向按照η \etaη步长进行更新,找到下一个点,然后在不断的重复操作,直到找到Minima。

image.png

image.png

Adagrad

Adagrad(自适应梯度算法)。其基本思想是,对每个参数theta自适应的调节它的学习率,自适应的方法就是对每个参数乘以不同的系数,并且这个系数是通过之前累积的梯度大小的平方和决定的,也就是说,对于之前更新很多的,相对就可以慢一点,而对那些没怎么更新过的,就可以给一个大一些的学习率。


Adagrad算法:

image.png

以上就为Adagrad算法的内容。

Python实现代码:

import numpy as np
class Adagrad:
    def __init__(self, learning_rate=0.01):
        self.learning_rate = learning_rate    # 学习率设置为0.01
        self.fg = None  
        self.delta = 1e-07                   # 设置1e-07微小值避免分母为0
    def update(self, params, grads):     # 更新操作
        if self.fg is None:
            self.fg = {}               # 设为空列表
            for key, value in params.items():
                self.fg[key] = np.zeros_like(value)   # 构造一个矩阵
        for key in params.keys():        # 循环迭代
            self.fg[key] += grads[key] * grads[key]     
            params[key] -= self.learning_rate * grads[key] / (np.sqrt(self.fg[key]) + self.delta) 

RMSProp

RMSProp算法实则为对Adagrad的一个改进,也就是把Adagrad对历史梯度加和变成了对历史梯度求均值,再利用这个均值代替Adagrad累加的梯度和对当前梯度进行加权,并用来update更新。


用均值代替求和是为了解决Adagrad的学习率逐渐消失的问题。


image.png

image.png

(图片源自网络)

有位大佬的解释更加清晰,可跳转此处

def RMSprop(x, y, step=0.01, iter_count=500, batch_size=4, alpha=0.9, beta=0.9):
    length, features = x.shape
    data = np.column_stack((x, np.ones((length, 1))))
    w = np.zeros((features + 1, 1))
    Sdw, v, eta = 0, 0, 10e-7
    start, end = 0, batch_size
    # 开始迭代
    for i in range(iter_count):
        # 计算临时更新参数
        w_temp = w - step * v
        # 计算梯度
        dw = np.sum((np.dot(data[start:end], w_temp) - y[start:end]) * data[start:end], axis=0).reshape((features + 1, 1)) / length        
        # 计算累积梯度平方
        Sdw = beta * Sdw + (1 - beta) * np.dot(dw.T, dw)
        # 计算速度更新量、
        v = alpha * v + (1 - alpha) * dw
        # 更新参数
        w = w - (step / np.sqrt(eta + Sdw)) * v
        start = (start + batch_size) % length
        if start > length:
            start -= length
        end = (end + batch_size) % length
        if end > length:
            end -= length
    return w

Adam

最后讲讲Adam(自适应矩估计 Adaptive moment estimation),因为目前是比较强的,下面这些都是由Adam训练出来的,

image.png

看一下Adam和SGDM的准确率对比(源自论文)

image.png

由于Adam的提出的地方有一些突兀,并非在论文或会议,能找到的最原始的出处也只有下面了,看一下他的更新方式吧,相当于一个优化参数的更新模块。

image.png

简单翻译一下上面的更新步骤:

image.png

Adam 的Python代码有大佬已经开源了:


https://github.com/yzy1996/Python-Code/blob/master/Algorithm/Optimization-Algorithm/Adam.py

https://github.com/sagarvegad/Adam-optimizer/blob/master/Adam.py

如果不想转链接,这里直接附上了:

import math
alpha = 0.01
beta_1 = 0.9
beta_2 = 0.999            # 初始化参数的值
epsilon = 1e-8
def func(x):
  return x*x -4*x + 4
def grad_func(x):         # 计算梯度
  return 2*x - 4
theta_0 = 0           # 初始化向量
m_t = 0 
v_t = 0 
t = 0
while (1):          # 循环直到它收敛
  t+=1
  g_t = grad_func(theta_0)    # 计算随机函数的梯度
  m_t = beta_1*m_t + (1-beta_1)*g_t # 更新梯度的移动平均线
  v_t = beta_2*v_t + (1-beta_2)*(g_t*g_t) # 更新平方梯度的移动平均线
  m_cap = m_t/(1-(beta_1**t))   # 计算偏差校正后的估计
  v_cap = v_t/(1-(beta_2**t))   # 计算偏差校正后的估计
  theta_0_prev = theta_0                
  theta_0 = theta_0 - (alpha*m_cap)/(math.sqrt(v_cap)+epsilon)  # 更新参数
  if(theta_0 == theta_0_prev):    # 检查是否收敛
    break

总而言之,这个优化器目前是处于机器学习中最强的优化地位。

其实,对于不同的数据集或许会有所偏差,在不同的优化时间段,前中后期,各个优化器的准确率会有所波动,如下(源自论文)准确率测试图:

image.png

所以,不经感叹道,搞优化求解,真的是一门玄学啊,老的方法不一定在现在没有用,新的方法不一定适用于所以场景,找到最适合的方法才是真的有效的。相信在科技如此发达的现在及以后,会有更多的优化求解算法,推进人类进步,而不仅仅是从硬件上提升运算速度。


相关文章
|
2月前
|
机器学习/深度学习 自然语言处理 语音技术
Python在深度学习领域的应用,重点讲解了神经网络的基础概念、基本结构、训练过程及优化技巧
本文介绍了Python在深度学习领域的应用,重点讲解了神经网络的基础概念、基本结构、训练过程及优化技巧,并通过TensorFlow和PyTorch等库展示了实现神经网络的具体示例,涵盖图像识别、语音识别等多个应用场景。
82 8
|
2月前
|
机器学习/深度学习 监控 PyTorch
深度学习工程实践:PyTorch Lightning与Ignite框架的技术特性对比分析
在深度学习框架的选择上,PyTorch Lightning和Ignite代表了两种不同的技术路线。本文将从技术实现的角度,深入分析这两个框架在实际应用中的差异,为开发者提供客观的技术参考。
55 7
|
5月前
|
机器学习/深度学习 人工智能 TensorFlow
神经网络不再是黑魔法!Python带你一步步拆解,让AI学习看得见
【8月更文挑战第3天】神经网络,曾被视为难以触及的黑魔法,现已在Python的助力下变得平易近人。以TensorFlow或PyTorch为“魔法杖”,仅需几行Python代码即可构建强大的AI模型。从零开始,我们将教导AI识别手写数字,利用经典的MNIST数据集。通过数据加载、预处理至模型训练与评估,每个步骤都如精心编排的舞蹈般清晰可见。随着训练深入,AI逐渐学会辨认每个数字,其学习过程直观展现。这不仅揭示了神经网络的奥秘,更证明了任何人都能借助Python创造AI奇迹,共同探索未来的无限可能。
51 2
|
机器学习/深度学习 数据采集 算法
机器学习基础:令你事半功倍的pipeline处理机制
机器学习基础:令你事半功倍的pipeline处理机制
机器学习基础:令你事半功倍的pipeline处理机制
|
机器学习/深度学习 数据采集 算法
揭开决策树模型的神秘面纱
揭开决策树模型的神秘面纱
101 0
|
机器学习/深度学习 PyTorch 算法框架/工具
机器学习框架PyTorch详解和案列分析
PyTorch 是一个基于 Python 的机器学习框架,由 Facebook 于 2016 年发布。它提供了一组灵活且高效的工具,可用于构建和训练各种深度学习模型。PyTorch 的核心组件是张量,它是一个多维数组,可以用于存储和处理数据。PyTorch 的张量与 NumPy 的数组类似,但也提供了 GPU 加速和自动微分等功能。PyTorch 使用动态计算图,这意味着在运行时可以修改计算图,从而允许更灵活的模型构建和调试。这与 TensorFlow 等框架的静态计算图不同。PyTorch 支持自动微分,可以方便地计算张量的梯度。这为构建和训练深度学习模型提供了便利。PyTorch 提供了构
465 0
|
机器学习/深度学习 存储 数据采集
机器学习原理与实战 | 决策树与集成算法实践
机器学习原理与实战 | 决策树与集成算法实践
272 0
机器学习原理与实战 | 决策树与集成算法实践
|
机器学习/深度学习 搜索推荐 PyTorch
机器学习/深度学习中的常用损失函数公式、原理与代码实践(持续更新ing...)
本文的结构是首先介绍一些常见的损失函数,然后介绍一些个性化的损失函数实例。
机器学习/深度学习中的常用损失函数公式、原理与代码实践(持续更新ing...)
|
机器学习/深度学习 算法
浅显易懂的机器学习(二)—— 引入
本文讲述了线性回归的一些基础概念
145 0
|
机器学习/深度学习 人工智能 算法
一篇白话机器学习概念
一篇白话机器学习概念

热门文章

最新文章