聊一聊深度学习--包括计算前馈网络的反向传播和卷积的反向传播（二）-阿里云开发者社区

聊一聊深度学习--包括计算前馈网络的反向传播和卷积的反向传播（二）

2023-05-18 117

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 聊一聊深度学习--包括计算前馈网络的反向传播和卷积的反向传播

Sigmoid型函数

sigmoid是两端饱和函数：

Logistic

“挤压”函数，将把一个实数域的输入“挤压”到 (0, 1)．

当输入值在0附近时，Sigmoid型函数近似为线性函数；

当输入值靠近两端时，对输入进行抑制．输入越小，越接近于 0；输入越大，越接近于 1．

导数：y’ = y(1 - y)

Tanh

非零中心化也是不好的性质：抑制和兴奋不明显，转换成零中心化使有兴奋有抑制。

两端饱和的激活函数好吗？

不好，应该找不饱和的，因为饱和是导数为0，梯度更新速度变慢，不利于更新

Hard-Logistic

解决以上两个开销较大的问题，采用分段函数来近似：

Relu

优点：

1.计算高效：仅进行加、乘和比较操作

2.一半进行抑制一半激活，具有生物学合理性（兴奋可以很高，又具有稀疏性）

3.相比于sigmoid函数，relu是左饱和函数，且在右半边导数为1，缓解梯度消失问题，加速收敛速度（缓解梯度消失和爆炸问题）

缺点

1.非零中心化，影响梯度下降效率

2.容易死亡：某一个神经元在一次不恰当更新后（w1很小会导致所有的求和后死亡下去），所有的训练数据都不能被激活，自身梯度也会永远是0（不仅会发生在第一层，有可能会发生在其他隐藏层）

为解决左饱和的问题提出带泄露的Relu

带泄露的Relu

其中γ是一个很小的常数，比如0.01．当γ < 1时，带泄露的

ReLU也可以写为LeakyReLU(x) = max(x, γx)

带参数的Relu

Swish

在深层模型上优于Relu

可作为自控们模型

万能近似定理

万能近似定理(universal approximation theorem)：一个前馈神经网络如果具有线性输出层和至少一层具有任何一种 “挤压” 性质（非线性）的激活函数的隐藏层，只要给予网络足够数量的隐藏单元，它可以以任意的精度来近似任何从一个有限维空间到另一个有限维空间的 Borel 可测函数。在 Rn 的有界闭集上的任意连续函数是 Borel 可测的，因此可以用神经网络来近似。

解决贡献度的过程：

先了解一下前馈网络符号定义：

w更新：

我写的是以一个神经元为例的微观计算，宏观的应该是列成这样的式子：

反向传播含义：第L层的一个神经元的误差项是所有与该神经元相连的第L+1层的神经元的误差项权重和，然后再乘上该神经元激活函数的梯度。

梯度不稳定

初始化W时，通常使W绝对值在1附近，太大爆炸，太小就消失。

激活函数的导函数也会影响，例如logistic值域(0,0.25] 大部分趋于0

梯度不稳定的缓解方法

1.使用合适的参数初始化方法。例如使用服从标准正态分布的随机数初始化。

2.使用合适的学习率。

3.使用更好的激活函数。

4.梯度裁剪，对过大的梯度进行限制

5.使用批规范化（Batch Normalization, BN）技术。

输出层和代价函数

以恒等映射为例的均方误差代价函数：h-y

以logistic函数的均方误差代价函数：（h-y）* logistic函数导数

以logistic函数和对数似然代价函数：

计算过程不难，可以计算得到。

交叉熵应用于多分类问题

Softmax

通过ex 的函数曲线，可以看出将大于0的值扩大（x到y的映射）

多分类概率问题：softmax+交叉熵代价函数

作用：输出二分类或多分类任务中某一类的概率。

意义：将输入排序，并转换为概率表示。

卷积神经网络

使用不同的卷积核（即“边”）可以得到不同的特征图。

不同的特征图代表了不同特征（“边”）在原图中的分布情况。

n个卷积核卷积之后可以得到n个特征图，也被称为n个通道的特征图。

为了表述方便，使用“通道”代替图片与特征图，例如：

1个通道通过3次卷积生成3个通道。

特征图与原图的关系

卷积核保留了原图的局部特征信息。

特征图保留了局部特征的强弱和位置信息。

卷积核与特征图可以看做原图的另一种表达形式。

特征图与原图的大小关系

原图大小大于等于卷积得到特征图的大小

原图 i * i **卷积核 k ***

特征图大小 = （i - k + 1）/ s (s是步长）

卷积的本质是利用特征（卷积核）进行局部特征提取，得到特征分布图的过程。

池化

特征图作为模型输入的优缺点

👍 提取到了局部特征作为输出。

👍 卷积使得图像特征具有了一定的平移不变性。

👎 特征图展开破坏了高维的位置（全局）信息。

👎 直接使用特征图输入全连接神经网络时参数规模较大。

平移不变性：抖动或微微变动，移动一个像素对于两次卷积效果基本不变，影响不大（影响没有那么大）

特征图下采样：

最大池化：取一个区域最大值

卷积运算

卷积核要素：

1.卷积核shape

2.卷积核的值

3.卷积核滑动

对于卷积，通常外面套一个非线性激活函数

池化核要素：

1.池化核shape

2.滑动步长

3.池化方式（最大池化平均池化）

对于池化，外面无激活函数或线性激活函数

卷积计算量

计算量 = 卷积核大小 * 特征图大小

对特征图卷积的意义

特征提取：提取到了相对宏观的特征。

数据降维：多次卷积、池化使得数据的维度进一步降低。

卷积与池化的问题

1.卷积中不同元素参与卷积计算的次数不同（与当初设计网络的初衷不符）

2.卷积与池化的步长不同时，边界处如何计算？（填充0值）

边界处理方法：

valid边界，只利用有效数据，盛不下就不卷了

i - k + 1 / s = 个数

SAME边界，pad填充，使完全卷到

为了不卷到垃圾数！比如下图，左边填充两个值的时候，卷到的前两个数都是0，没有意义，都是垃圾数。

卷积网络的反向传播：

与全连接神经网络相比：

1.池化层的前一层残差计算

2.卷积层的前一层残差计算

3.卷积核中的参数的偏导数计算

有问题希望大家不吝赐教！！

后边没来得及整理完，求老师让过了吧！！

聊一聊深度学习--包括计算前馈网络的反向传播和卷积的反向传播（二）

Sigmoid型函数

Logistic

Tanh

Hard-Logistic

Relu

带泄露的Relu

带参数的Relu

Swish

万能近似定理

梯度不稳定

输出层和代价函数

Softmax

卷积神经网络

特征图与原图的关系

特征图与原图的大小关系

池化

卷积运算

卷积计算量

卷积与池化的问题

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

聊一聊深度学习--包括计算前馈网络的反向传播和卷积的反向传播（二）

Sigmoid型函数

Logistic

Tanh

Hard-Logistic

Relu

带泄露的Relu

带参数的Relu

Swish

万能近似定理

梯度不稳定

输出层和代价函数

Softmax

卷积神经网络

特征图与原图的关系

特征图与原图的大小关系

池化

卷积运算

卷积计算量

卷积与池化的问题

热门文章

最新文章

相关课程

相关电子书

相关实验场景