深度学习教程 | 神经网络基础

2022-04-21 388

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

交互式建模 PAI-DSW，每月250计算时 3个月

模型训练 PAI-DLC，100CU*H 3个月

简介： 本节介绍神经网络的基础——逻辑回归，通过对逻辑回归模型结构的分析，过渡到后续神经网络模型。内容包括二分类问题、逻辑回归模型及损失函数，梯度下降算法，计算图与正向传播及反向传播。

ShowMeAI研究中心

作者：韩信子@ShowMeAI
教程地址：http://www.showmeai.tech/tutorials/35
本文地址：http://www.showmeai.tech/article-detail/213
声明：版权所有，转载请联系平台与作者并注明出处
收藏ShowMeAI查看更多精彩内容

第1门课神经网络和深度学习，第2周：神经网络的编程基础

本系列为吴恩达老师《深度学习专项课程(Deep Learning Specialization)》学习与总结整理所得，对应的课程视频可以在这里查看。

引言

在ShowMeAI前一篇文章 深度学习概论 中我们对深度学习(Deep Learning)进行了简单介绍：

我们以房价预测为例，对应讲解了神经网络(Neural Network)模型结构和基础知识。
介绍了针对监督学习的几类典型神经网络：Standard NN，CNN和RNN。
介绍了「结构化数据」和「非结构化数据」2种不同类型的数据。
分析了近些年来深度学习热门，及其性能优于传统机器学习的原因(Data，Computation和Algorithms)。

本节内容我们展开介绍神经网络的基础：逻辑回归(Logistic Regression)。我们将通过对逻辑回归模型结构的分析，过渡到后续神经网络模型。(关于逻辑回归模型，大家也可以阅读ShowMeAI的文章 图解机器学习 | 逻辑回归算法详解 学习)

1.算法基础与逻辑回归

逻辑回归(Logistic regression) 是一个用于二分类的算法。

1.1 二分类问题与机器学习基础

二分类 Binary Classification

二分类就是输出 equation?tex=y 只有 {0,1} 两个离散值(也有 {-1,1} 的情况)。我们以一个「图像识别」问题为例，判断图片是否是猫。识别是否是「猫」，这是一个典型的二分类问题——0代表「非猫(not cat)」，1代表「猫(cat)」。(关于机器学习基础知识大家也可以查看ShowMeAI文章 图解机器学习 | 机器学习基础知识)。

算法基础与逻辑回归

从机器学习的角度看，我们的输入 equation?tex=x 此时是一张图片，彩色图片包含RGB三个通道，图片尺寸为 equation?tex=%2864%2C64%2C3%29 。

数据与向量化格式

有些神经网络的输入是一维的，我们可以将图片 equation?tex=x (维度 equation?tex=%2864%2C64%2C3%29 )展平为一维特征向量(feature vector)，得到的特征向量维度为 equation?tex=%2812288%2C1%29 。我们一般用列向量表示样本，把维度记为 equation?tex=n_x 。

如果训练样本有 equation?tex=m 张图片，那么我们用矩阵存储数据，此时数据维度变为 equation?tex=%28n_x%2Cm%29 。

数据与向量化格式

矩阵的行代表了每个样本特征个数
矩阵的列代表了样本个数。

我们可以对训练样本的标签 equation?tex=Y 也做一个规整化，调整为1维的形态，标签的维度为 equation?tex=%281%2Cm%29 。

1.2 逻辑回归算法

逻辑回归 Logistic Regression

逻辑回归是最常见的二分类算法(详细算法讲解也可阅读ShowMeAI文章 图解机器学习 | 逻辑回归算法详解)，它包含以下参数：

输入的特征向量：，其中是特征数量
用于训练的标签：
权重：
偏置：
输出：

输出计算用到了Sigmoid函数，它是一种非线性的S型函数，输出被限定在 equation?tex=%5B0%2C1%5D 之间，通常被用在神经网络中当作激活函数(Activation Function)使用。

逻辑回归做图像分类

Sigmoid函数的表达式如下：

$equation?tex=s%20%3D%20%5Csigma%28w%5ETx%2Bb%29%20%3D%20%5Csigma%28z%29%20%3D%20%5Cfrac%7B1%7D%7B1%2Be%5E%7B-z%7D%7D$

实际上，逻辑回归可以看作非常小的一个神经网络。

1.3 逻辑回归的损失函数

逻辑回归的代价函数 Logistic Regression Cost Function

在机器学习中，损失函数(loss function)用于量化衡量预测结果与真实值之间的差距，我们会通过优化损失函数来不断调整模型权重，使其最好地拟合样本数据。

在回归类问题中，我们会使用均方差损失(MSE)：

$equation?tex=L%28%5Chat%7By%7D%2Cy%29%20%3D%20%5Cfrac%7B1%7D%7B2%7D%28%5Chat%7By%7D-y%29%5E2$

逻辑回归的损失函数

但是在逻辑回归中，我们并不倾向于使用这样的损失函数。逻辑回归使用平方差损失会得到非凸的损失函数，它会有很多个局部最优解。梯度下降法可能找不到全局最优值，从而给优化带来困难。

因此我们调整成使用对数损失(二元交叉熵损失)：

equation?tex=L%28%5Chat%7By%7D%2Cy%29%20%3D%20-%28y%5Clog%5Chat%7By%7D%29%2B%281-y%29%5Clog%281-%5Chat%7By%7D%29

逻辑回归的损失函数

刚才我们给到的是单个训练样本中定义的损失函数，它衡量了在单个训练样本上的表现。我们定义代价函数(Cost Function，或者称作成本函数)为全体训练样本上的表现，即 equation?tex=m 个样本的损失函数的平均值，反映了个样本的预测输出与真实样本输出 equation?tex=y 的平均接近程度。

成本函数的计算公式如下：

$equation?tex=J%28w%2Cb%29%20%3D%20%5Cfrac%7B1%7D%7Bm%7D%5Csum_%7Bi%3D1%7D%5EmL%28%5Chat%7By%7D%5E%7B%28i%29%7D%2Cy%5E%7B%28i%29%7D%29$

2.梯度下降法(Gradient Descent)

梯度下降 Gradient Descent

刚才我们了解了损失函数(Loss Function)与成本函数定义，下一步我们就要找到最优的 equation?tex=w 和 equation?tex=b 值，最小化 equation?tex=m 个训练样本的Cost Function。这里用到的方法就叫做梯度下降(Gradient Descent)算法。

在数学上，1个函数的梯度(gradient)指出了它的最陡增长方向。也就是说，沿着梯度的方向走，函数增长得就最快。那么沿着梯度的负方向走，函数值就下降得最快。

（更详细的最优化数学知识可以阅读ShowMeAI文章 图解AI数学基础 | 微积分与最优化）

模型的训练目标是寻找合适的 equation?tex=w 与 equation?tex=b 以最小化代价函数值。我们先假设与都是一维实数，则代价函数 equation?tex=J 关于与的图如下所示：

梯度下降法

上图中的代价函数 equation?tex=J 是一个凸函数，只有一个全局最低点，它能保证无论我们初始化模型参数如何(在曲面上任何位置)，都能够寻找到合适的最优解。

基于梯度下降算法，得到以下参数 equation?tex=w 的更新公式：

$equation?tex=w%20%3A%3D%20w%20-%20%5Calpha%5Cfrac%7BdJ%28w%2C%20b%29%7D%7Bdw%7D$

公式中 equation?tex=%5Calpha 为学习率，即每次更新的 equation?tex=w 的步长。

成本函数 equation?tex=J%28w%2C%20b%29 中对应的参数 equation?tex=b 更新公式为：

$equation?tex=b%20%3A%3D%20b%20-%20%5Calpha%5Cfrac%7BdJ%28w%2C%20b%29%7D%7Bdb%7D$

3.计算图(Computation Graph)

计算图 Computation Graph

对于神经网络而言，训练过程包含了两个阶段：前向传播(Forward Propagation)和反向传播(Back Propagation)。

前向传播是从输入到输出，由神经网络前推计算得到预测输出的过程
反向传播是从输出到输入，基于Cost Function对参数和计算梯度的过程。

下面，我们结合一个例子用计算图(Computation graph)的形式来理解这两个阶段。

3.1 前向传播(Forward Propagation)

假如我们的Cost Function为 equation?tex=J%28a%2Cb%2Cc%29%3D3%28a%2Bbc%29 ，包含 equation?tex=a 、 equation?tex=b 、 equation?tex=c 三个变量。

我们添加一些中间变量，用 equation?tex=u 表示 equation?tex=bc ， equation?tex=v 表示 equation?tex=a%2Bu ，则 equation?tex=J%3D3v 。

整个过程可以用计算图表示：

计算图

在上图中，我们让 equation?tex=a%3D5 ， equation?tex=b%3D3 ， equation?tex=c%3D2 ，则 equation?tex=u%3Dbc%3D6 ， equation?tex=v%3Da%2Bu%3D11 ， equation?tex=J%3D3v%3D33 。

计算图中，这种从左到右，从输入到输出的过程，就对应着神经网络基于 equation?tex=x 和 equation?tex=w 计算得到Cost Function的前向计算过程。

3.2 反向传播(Back Propagation)

计算图导数 Derivatives with a Computation Graph

我们接着上个例子中的计算图讲解反向传播，我们的输入参数有 equation?tex=a 、 equation?tex=b 、 equation?tex=c 三个。

① 先计算对参数的偏导数

计算图

从计算图上来看，从右到左， equation?tex=J 是 equation?tex=v 的函数，是 equation?tex=a 的函数。基于求导链式法则得到：

$equation?tex=%5Cfrac%7B%5Cpartial%20J%7D%7B%5Cpartial%20a%7D%3D%5Cfrac%7B%5Cpartial%20J%7D%7B%5Cpartial%20v%7D%5Ccdot%20%5Cfrac%7B%5Cpartial%20v%7D%7B%5Cpartial%20a%7D%3D3%5Ccdot%201%3D3$

② 计算对参数的偏导数

计算图

从计算图上来看，从右到左， equation?tex=J 是 equation?tex=v 的函数，是 equation?tex=u 的函数，是 equation?tex=b 的函数。同样可得：

$equation?tex=%5Cfrac%7B%5Cpartial%20J%7D%7B%5Cpartial%20b%7D%3D%5Cfrac%7B%5Cpartial%20J%7D%7B%5Cpartial%20v%7D%5Ccdot%20%5Cfrac%7B%5Cpartial%20v%7D%7B%5Cpartial%20u%7D%5Ccdot%20%5Cfrac%7B%5Cpartial%20u%7D%7B%5Cpartial%20b%7D%3D3%5Ccdot%201%5Ccdot%20c%3D3%5Ccdot%201%5Ccdot%202%3D6$

③ 计算对参数的偏导数

计算图

此时从右到左， equation?tex=J 是 equation?tex=v 的函数，是 equation?tex=u 的函数，是 equation?tex=c 的函数。可得：

$equation?tex=%5Cfrac%7B%5Cpartial%20J%7D%7B%5Cpartial%20c%7D%3D%5Cfrac%7B%5Cpartial%20J%7D%7B%5Cpartial%20v%7D%5Ccdot%20%5Cfrac%7B%5Cpartial%20v%7D%7B%5Cpartial%20u%7D%5Ccdot%20%5Cfrac%7B%5Cpartial%20u%7D%7B%5Cpartial%20c%7D%3D3%5Ccdot%201%5Ccdot%20b%3D3%5Ccdot%201%5Ccdot%203%3D9$

这样就完成了从右往左的反向传播与梯度(偏导)计算过程。

4.逻辑回归中的梯度下降法

逻辑回归的梯度下降 Logistic Regression Gradient Descent

回到我们前面提到的逻辑回归问题，我们假设输入的特征向量维度为2(即 equation?tex=%5Bx_1%2C%20x_2%5D )，对应权重参数 equation?tex=w_1 、 equation?tex=w_2 、 equation?tex=b 得到如下的计算图：

逻辑回归中的梯度下降法

反向传播计算梯度

① 求出对于的导数

逻辑回归中的梯度下降法

② 求出对于的导数

逻辑回归中的梯度下降法

③ 继续前推计算

逻辑回归中的梯度下降法

④ 基于梯度下降可以得到参数更新公式

逻辑回归中的梯度下降法

梯度下降的例子 Gradient Descent on m Examples

逻辑回归中的梯度下降法

前面提到的是对单个样本求偏导和应用梯度下降算法的过程。对于有 equation?tex=m 个样本的数据集，Cost Function equation?tex=J%28w%2Cb%29 、 equation?tex=a%5E%7B%28i%29%7D 和权重参数 equation?tex=w_1 的计算如图所示。

完整的Logistic回归中某次训练的流程如下，这里仅假设特征向量的维度为2：

J=0; dw1=0; dw2=0; db=0;
for i = 1 to m
    z(i) = wx(i)+b;
    a(i) = sigmoid(z(i));
    J += -[y(i)log(a(i))+(1-y(i))log(1-a(i));
    dz(i) = a(i)-y(i);
    dw1 += x1(i)dz(i);
    dw2 += x2(i)dz(i);
    db += dz(i);
J /= m;
dw1 /= m;
dw2 /= m;
db /= m;
        
          
        
        
        
          
          AI 代码解读

接着再对 equation?tex=w_1 、 equation?tex=w_2 、 equation?tex=b 进行迭代。

上述计算过程有一个缺点：整个流程包含两个for循环。其中：

第一个for循环遍历个样本
第二个for循环遍历所有特征

如果有大量特征，在代码中显示使用for循环会使算法很低效。向量化可以用于解决显式使用for循环的问题。

5.向量化(Vectorization)

向量化 Vectorization

继续以逻辑回归为例，如果以非向量化的循环方式计算 equation?tex=z%3Dw%5ETx%2Bb ，代码如下：

z = 0;
for i in range(n_x):
    z += w[i] * x[i]
z += b
        
          
        
        
        
          
          AI 代码解读

基于向量化的操作，可以并行计算，极大提升效率，同时代码也更为简洁：
(这里使用到python中的numpy工具库，想了解更多的同学可以查看ShowMeAI的图解数据分析系列中的numpy教程，也可以通过ShowMeAI制作的 numpy速查手册快速了解其使用方法)

z = np.dot(w, x) + b
        
          
        
        
        
          
          AI 代码解读

不用显式for循环，实现逻辑回归的梯度下降的迭代伪代码如下：

equation?tex=Z%3Dw%5ETX%2Bb%3Dnp.dot%28w.T%2C%20x%29%20%2B%20b

equation?tex=A%3D%5Csigma%28Z%29

equation?tex=dZ%3DA-Y

$equation?tex=dw%3D%5Cfrac%7B1%7D%7Bm%7DXdZ%5ET$

$equation?tex=db%3D%5Cfrac%7B1%7D%7Bm%7Dnp.sum%28dZ%29$

equation?tex=w%3A%3Dw-%5Csigma%20dw

equation?tex=b%3A%3Db-%5Csigma%20db

深度学习教程 | 神经网络基础

引言

1.算法基础与逻辑回归

1.1 二分类问题与机器学习基础

1.2 逻辑回归算法

1.3 逻辑回归的损失函数

2.梯度下降法(Gradient Descent)

3.计算图(Computation Graph)

3.1 前向传播(Forward Propagation)

3.2 反向传播(Back Propagation)

4.逻辑回归中的梯度下降法

反向传播计算梯度

5.向量化(Vectorization)

参考资料

ShowMeAI系列教程推荐

推荐文章

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

深度学习教程 | 神经网络基础

引言

1.算法基础与逻辑回归

1.1 二分类问题与机器学习基础

1.2 逻辑回归算法

1.3 逻辑回归的损失函数

2.梯度下降法(Gradient Descent)

3.计算图(Computation Graph)

3.1 前向传播(Forward Propagation)

3.2 反向传播(Back Propagation)

4.逻辑回归中的梯度下降法

反向传播计算梯度

5.向量化(Vectorization)

参考资料

ShowMeAI系列教程推荐

推荐文章

热门文章

最新文章

相关课程

相关电子书

相关实验场景