深度学习入门(3)神经网络参数梯度的计算方式

简介: 深度学习入门(3)神经网络参数梯度的计算方式

前言


上一篇文章介绍了神经网络需要达到的最终目标,即使所定义的损失函数值达到尽可能的小。那么,是如何达到使得损失函数的值最小的呢?其实,最常使用的核心大招就是“梯度法”进行参数的更新优化,最终达到使得损失函数最小的目的。本文将介绍神经网络中参数的梯度是如何计算的。

在介绍梯度法之前先简单介绍一下所用到的数值微分方面的数学知识,以帮助理解后续梯度法的计算过程,如果知道这一部分知识的同学,可以直接跳过本文的第一节《数值微分》,直接看第二节《梯度法》的内容即可。


一、数值微分


1.导数


导数就是表示某个瞬间的变化量。比如:速度 = 距离 / 时间,如果将距离尽可能的缩短成一个很小的值,这时所使用的时间也是非常小的,这时所计算出来的值即为某一个瞬间的变化量(瞬时速度,数学上也称为加速度)。其数学公式如下:

20201128224646690.png

其中:左边的符号df(x) / dx 表示函数f(x)关于x的导 数,即f(x)相对于x的变化程度。上式的导数含义是,x的“微小变化”将导致函数f(x)的值在多大程度上发生变化。其中,表示微小变化的 h无限趋近0,表示为 limh->0 .

python实现的代码如下:


def numerical_diff(f, x):
    """
    :param f: f为x的为函数表达式
    :param x: 函数f在值x处求导数
    :return:  返回函数f在x处的导数值
    """
    h = 1e-5 # h取一个很小的值
    return (f(x+h) - f(x)) / (h)


但是通常为了更好的减小导数的误差,我们采用中心差分的方式进行导数计算,计算函数f在(x + h)和(x - h)之间的差分。因为这种计算方法以x为中心,计算它左右两边的差分,所以也称为中心差分(而(x + h)和x之间的差分称为前向差分)。


def numerical_diff(f, x):
    h = 1e-5 # h取一个很小的值
    return (f(x+h) - f(x-h)) / (2 * h)

下图为真的导数(真的切线)和 数值微分(近似切线)的值比较:


20201128224936961.png


如上所示,利用微小的差分求导数的过程称为数值微分(numerical differentiation)。而基于数学式的推导求导数的过程,则用“ 解析性”(analytic)一词,称为“解析性求解”或者“解析性求导”。比如,y = x2的导数,可以通过dy/dx=2x解析性地求解出来。因此,当x = 2时,y的导数为4。解析性求导得到的导数是不含误差的“真的导数”。


数值微分举例

计算下面二次函数在某些值处的导数:

20201128224950525.png

def numerical_diff(f, x):
    """
    :param f: f为x的为函数表达式
    :param x: 函数f在值x处求导数
    :return:  返回函数f在x处的导数值
    """
    h = 1e-5 # h取一个很小的值
    return (f(x+h) - f(x)) / (h)import numpy as np
import matplotlib.pylab as plt
def numerical_diff(f, x):
    h = 1e-4  # 0.0001
    return (f(x + h) - f(x - h)) / (2 * h)
def function_1(x):
    return 0.01 * x ** 2 + 0.1 * x
x = np.arange(0.0, 20.0, 0.1)
y = function_1(x)
plt.xlabel("x")
plt.ylabel("f(x)")
plt.plot(x, y)
plt.show()

20201128225029300.png

2020112822504188.png

计算一下这个函数在x = 5和x = 10处的导数值,即在这两个点处的斜率。

20201128225057679.png

20201128225103818.png


2.偏导数


接下来,我们来了解一下偏导数。与上述不同的是,这里有两个自变量。

20201128225118428.png

def function_2(x):
    # 传入的x为一个二元输出[x0,x1]
    return x[0]**2 + x[1]**2

20201129114440987.png

2020112911445348.png

20201129114500508.png

偏导数和单变量的导数一样,都是求某个地方的斜率。不过,偏导数需要将多个变量中的某一个变量定为目标变量,并将其他变量固定为某个值。在上例的代码中,为了将目标变量以外的变量固定到某些特定的值上,我们定义了新函数。然后,对新定义的函数应用了之前的求数值微分的函数,得到偏导数。


3.梯度


上述例子中我们分别计算了x0、x1的偏导数,如果我们希望一起计算(x0、x1)的偏导数:


20201129114612352.png

这样的由全部变量的偏导数汇总而成的向量称为梯度( gradient)。


求梯度的代码实现如下:


import numpy as np
import matplotlib.pylab as plt
def function_2(x):
    return np.sum(x ** 2)
def numerical_gradient(f, x):
    h = 1e-4  # 0.0001
    grad = np.zeros_like(x)
    for idx in range(x.size):
        # 遍历每一个自变量索引,tmp_val保存当前自变量值
        tmp_val = x[idx]
        x[idx] = float(tmp_val) + h
        fxh1 = f(x)  # 计算f(x+h)
        x[idx] = tmp_val - h
        fxh2 = f(x)  # 计算f(x-h)
        grad[idx] = (fxh1 - fxh2) / (2 * h)
        x[idx] = tmp_val  # 将当前自变量xi值还原,继续计算后续x[i+1]的导数值
    return grad

20201129114708192.png

上图为每一个点的负梯度向量(负梯度方向是梯度法中变量的更新方向)。

我们发现梯度指向函数f(x0,x1)的“最低处”(最小值0)。其次,我们发现离“最低处”越远,箭头越大。虽然图的梯度指向了最低处,但并非任何时候都这样。实际上,梯度指示的方向是各点处的函数值减小最多的方向


二、梯度法


神经网络必须在学习时找到最优参数(权重和偏置),即使损失函数取最小值时的参数。通过巧妙地使用梯度来寻找函数最小值(或者尽可能小的值)的方法就是梯度法。

需要注意的是,梯度表示的是各点处的函数值减小最多的方向。因此,无法保证梯度所指的方向就是函数的最小值或者真正应该前进的方向。实际上,在复杂的函数中,梯度指示的方向基本上都不是函数值最小处。

注:函数的极小值、最小值以及被称为鞍点(saddle point)的地方,梯度为0。极小值是局部最小值,也就是限定在某个范围内的最小值。鞍点是从某个方向上看是极大值,从另一个方向上看则是极小值的点。虽然梯度法是要寻找梯度为0的地方,但是那个地方不一定就是最小值(也有可能是极小值或者鞍点)。此外,当函数很复杂且呈扁平状时,学习可能会进入一个(几乎)平坦的地区,陷入被称为“学习高原”的无法前进的停滞期。

虽然梯度的方向并不一定指向最小值,但沿着它的方向能够最大限度地减小函数的值。因此,在寻找函数的最小值(或者尽可能小的值)的位置的任务中,要以梯度的信息为线索,决定前进的方向。此时梯度法就派上用场了。在梯度法中,函数的取值从当前位置沿着梯度方向前进一定距离,然后在新的地方重新求梯度,再沿着新梯度方向前进,如此反复,不断地沿梯度方向前进。像这样,通过不断地沿梯度方向前进,逐渐减小函数值的过程就是梯度法( gradient method)。

注:根据目的是寻找最小值还是最大值,梯度法的叫法有所不同。严格地讲,寻找最小值的梯度法称为梯度下降法(gradient descent method) ,寻找最大值的梯度法称为梯度上升法(gradient ascent method)。但是通过反转损失函数的符号,求最小值的问题和求最大值的问题会变成相同的问题,因此“下降”还是“上升”的差异本质上并不重要。一般来说,神经网络(深度学习)中,梯度法主要是指梯度下降法。


1.学习率


梯度法的数学表达式如下:

20201129114914585.png

η表示更新量,在神经网络的学习中,称为学习率( learningrate)。学习率决定在一次学习中,应该学习多少,以及在多大程度上更新参数。

学习率需要事先确定为某个值,比如0.01或0.001。一般而言,这个值过大或过小,都无法抵达一个“好的位置”。在神经网络的学习中,一般会一边改变学习率的值,一边确认学习是否正确进行了。

梯度下降法的实现代码如下:


import numpy as np
def function_2(x):
    return np.sum(x ** 2)
def numerical_gradient(f, x):
    # 求每一个参数的梯度值
    h = 1e-4  # 0.0001
    grad = np.zeros_like(x)
    for idx in range(x.size):
        # 遍历每一个自变量索引,tmp_val保存当前自变量值
        tmp_val = x[idx]
        x[idx] = float(tmp_val) + h
        fxh1 = f(x)  # 计算f(x+h)
        x[idx] = tmp_val - h
        fxh2 = f(x)  # 计算f(x-h)
        grad[idx] = (fxh1 - fxh2) / (2 * h)
        x[idx] = tmp_val  # 将当前xi值还原,继续计算后续x[i+1]的导数
    return grad
def gradient_descent(f, init_x, lr=0.01, step_num=100):
    # lr:学习率设为0.01
    # 梯度下降的步数step_num=100
    x = init_x
    for i in range(step_num):
        # 对每个参数进行100次梯度下降计算
        grad = numerical_gradient(f, x)
        x -= lr * grad
    return x


其中:参数 f是要进行最优化的函数, init_x是初始值, lr是学习率learningrate, step_num是梯度法的重复次数。 numerical_gradient(f,x)会求函数的梯度,用该梯度乘以学习率得到的值进行更新操作,由 step_num指定重复的次数。

举例:

20201129115009272.png


设初始值为(-3.0, 4.0),开始使用梯度法寻找最小值。上述最终计算结果是(-6.1e-10, 8.1e-10),非常接近(0,0)。实际上,使得函数值f最小的参数就是(0,0), 所以说通过梯度法我们基本得到了正确结果。如果用图来表示梯度法的更新过程即参数(x0,x1)的改变过程,则下图所示。可以发现,原点(0,0)处是最低的地方,函数的取值一点点在向其靠近。

代码如下(示例):

20201129115020621.png


但是,学习率参数的选取非常重要。学习率过大或者过小都无法得到好的结果。举例:

20201129115031180.png

结果表明,学习率过大的话,会发散成一个很大的值;反过来,学习率过小的话,基本上没怎么更新就结束了。也就是说,设定合适的学习率是一个很重要的问题。

注:像学习率这样的参数称为超参数。这是一种和神经网络的参数(权重和偏置)性质不同的参数。相对于神经网络的权重参数是通过训练数据和学习算法自动获得的,学习率这样的超参数则是人工设定的。一般来说,超参数需要尝试多个值,以便找到一种可以使学习顺利进行的设定。



2.神经网络的梯度计算


神经网络的学习训练过程也是通过求梯度来一步步求得最优参数值的。这里的梯度指损失函数关于权重参数的梯度。比如,有一个只有一个形状为2 × 3的权重W的神经网络,损失函数用L表示。此时,梯度的数学式表示如下所示。


20201129115113400.png


下面先以简单的单层神经网络为例,实现梯度的计算:

20201129115124775.png


import numpy as np
def softmax(x):
    # softmax激活函数
    if x.ndim == 2:
        x = x.T
        x = x - np.max(x, axis=0)
        y = np.exp(x) / np.sum(np.exp(x), axis=0)
        return y.T
    x = x - np.max(x) # 溢出对策
    return np.exp(x) / np.sum(np.exp(x))
def cross_entropy_error(y, t):
    # 交叉熵误差
    if y.ndim == 1:
        t = t.reshape(1, t.size)
        y = y.reshape(1, y.size)
    # 监督数据是one-hot-vector的情况下,转换为正确解标签的索引
    if t.size == y.size:
        t = t.argmax(axis=1)
    batch_size = y.shape[0]
    return -np.sum(np.log(y[np.arange(batch_size), t] + 1e-7)) / batch_size
def numerical_gradient(f, x):
    # 计算所有参数x的梯度
    h = 1e-4  # 0.0001
    grad = np.zeros_like(x)
    it = np.nditer(x, flags=['multi_index'], op_flags=['readwrite'])
    while not it.finished:
        idx = it.multi_index
        tmp_val = x[idx]
        x[idx] = float(tmp_val) + h
        fxh1 = f(x)  # f(x+h)
        x[idx] = tmp_val - h
        fxh2 = f(x)  # f(x-h)
        grad[idx] = (fxh1 - fxh2) / (2 * h)
        x[idx] = tmp_val  # 还原值
        it.iternext()
    return grad
class simpleNet:
    def __init__(self):
        # 2 X 3的单层神经网络为例求梯度
        self.W = np.random.randn(2,3)
    def predict(self, x):
        # 计算预测值
        return np.dot(x, self.W)
    def loss(self, x, t):
        z = self.predict(x)
        # 使用sofmax为激活函数
        y = softmax(z)
        # 使用交叉熵误差
        loss = cross_entropy_error(y, t)
        return loss
x = np.array([0.6, 0.9])
t = np.array([0, 0, 1])
net = simpleNet()
# 损失函数
f = lambda w: net.loss(x, t)
# 损失函数的梯度
dW = numerical_gradient(f, net.W)
print(dW)


求出神经网络的梯度后,接下来只需根据梯度法,更新权重参数即可。

由于篇幅原因,本文仅介绍到神经网络参数的梯度计算方式,下一篇文章会使用梯度下降法实现一个2层神经网络的训练过程,欢迎关注。


总结


1.介绍了基本的数值微分知识:导致、偏导数及梯度;
2.神经网络需要选择合适的学习率才能够更好的进行训练;
3.以单层神经网络为例,介绍了神经网络梯度的计算方式。

相关文章
|
11天前
|
机器学习/深度学习 人工智能 TensorFlow
人工智能浪潮下的自我修养:从Python编程入门到深度学习实践
【10月更文挑战第39天】本文旨在为初学者提供一条清晰的道路,从Python基础语法的掌握到深度学习领域的探索。我们将通过简明扼要的语言和实际代码示例,引导读者逐步构建起对人工智能技术的理解和应用能力。文章不仅涵盖Python编程的基础,还将深入探讨深度学习的核心概念、工具和实战技巧,帮助读者在AI的浪潮中找到自己的位置。
|
1月前
|
机器学习/深度学习 自然语言处理 搜索推荐
深度学习的魔法:如何用神经网络解决复杂问题
在这篇文章中,我们将探讨深度学习的基本原理和它在各种领域中的应用。通过一些实际的例子,我们将看到深度学习如何帮助我们解决复杂的问题,如图像识别、自然语言处理和推荐系统等。我们还将讨论一些最新的研究成果和技术趋势,以及深度学习在未来可能面临的挑战和机遇。
|
9天前
|
机器学习/深度学习 人工智能 算法框架/工具
深度学习中的卷积神经网络(CNN)入门
【10月更文挑战第41天】在人工智能的璀璨星空下,卷积神经网络(CNN)如一颗耀眼的新星,照亮了图像处理和视觉识别的路径。本文将深入浅出地介绍CNN的基本概念、核心结构和工作原理,同时提供代码示例,带领初学者轻松步入这一神秘而又充满无限可能的领域。
|
15天前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习中的卷积神经网络:从理论到实践
【10月更文挑战第35天】在人工智能的浪潮中,深度学习技术以其强大的数据处理能力成为科技界的宠儿。其中,卷积神经网络(CNN)作为深度学习的一个重要分支,在图像识别和视频分析等领域展现出了惊人的潜力。本文将深入浅出地介绍CNN的工作原理,并结合实际代码示例,带领读者从零开始构建一个简单的CNN模型,探索其在图像分类任务中的应用。通过本文,读者不仅能够理解CNN背后的数学原理,还能学会如何利用现代深度学习框架实现自己的CNN模型。
|
14天前
|
机器学习/深度学习 人工智能 算法框架/工具
深度学习中的卷积神经网络(CNN)及其在图像识别中的应用
【10月更文挑战第36天】探索卷积神经网络(CNN)的神秘面纱,揭示其在图像识别领域的威力。本文将带你了解CNN的核心概念,并通过实际代码示例,展示如何构建和训练一个简单的CNN模型。无论你是深度学习的初学者还是希望深化理解,这篇文章都将为你提供有价值的见解。
|
11天前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
垃圾识别分类系统。本系统采用Python作为主要编程语言,通过收集了5种常见的垃圾数据集('塑料', '玻璃', '纸张', '纸板', '金属'),然后基于TensorFlow搭建卷积神经网络算法模型,通过对图像数据集进行多轮迭代训练,最后得到一个识别精度较高的模型文件。然后使用Django搭建Web网页端可视化操作界面,实现用户在网页端上传一张垃圾图片识别其名称。
43 0
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
|
18天前
|
机器学习/深度学习 自然语言处理 前端开发
前端神经网络入门:Brain.js - 详细介绍和对比不同的实现 - CNN、RNN、DNN、FFNN -无需准备环境打开浏览器即可测试运行-支持WebGPU加速
本文介绍了如何使用 JavaScript 神经网络库 **Brain.js** 实现不同类型的神经网络,包括前馈神经网络(FFNN)、深度神经网络(DNN)和循环神经网络(RNN)。通过简单的示例和代码,帮助前端开发者快速入门并理解神经网络的基本概念。文章还对比了各类神经网络的特点和适用场景,并简要介绍了卷积神经网络(CNN)的替代方案。
|
27天前
|
机器学习/深度学习 搜索推荐 安全
深度学习之社交网络中的社区检测
在社交网络分析中,社区检测是一项核心任务,旨在将网络中的节点(用户)划分为具有高内部连接密度且相对独立的子群。基于深度学习的社区检测方法,通过捕获复杂的网络结构信息和节点特征,在传统方法基础上实现了更准确、更具鲁棒性的社区划分。
48 7
|
28天前
|
机器学习/深度学习 自然语言处理 TensorFlow
深度学习的奥秘:探索神经网络背后的魔法
【10月更文挑战第22天】本文将带你走进深度学习的世界,揭示神经网络背后的神秘面纱。我们将一起探讨深度学习的基本原理,以及如何通过编程实现一个简单的神经网络。无论你是初学者还是有一定基础的学习者,这篇文章都将为你提供有价值的信息和启示。让我们一起踏上这段奇妙的旅程吧!
|
29天前
|
机器学习/深度学习 人工智能 自动驾驶
深度学习中的卷积神经网络(CNN)及其应用
【10月更文挑战第21天】本文旨在深入探讨深度学习领域的核心组成部分——卷积神经网络(CNN)。通过分析CNN的基本结构、工作原理以及在图像识别、语音处理等领域的广泛应用,我们不仅能够理解其背后的技术原理,还能把握其在现实世界问题解决中的强大能力。文章将用浅显的语言和生动的例子带领读者一步步走进CNN的世界,揭示这一技术如何改变我们的生活和工作方式。
下一篇
无影云桌面