【深度学习】2、Pytorch自行实现常见的11个激活函数的Fashion Minist项目实践对比（你需要的这里都有了！）（二）-阿里云开发者社区

【深度学习】2、Pytorch自行实现常见的11个激活函数的Fashion Minist项目实践对比（你需要的这里都有了！）（二）

2023-05-17 312

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【深度学习】2、Pytorch自行实现常见的11个激活函数的Fashion Minist项目实践对比（你需要的这里都有了！）（二）

5、整流线性单元（ReLU）

整流线性单元是我们解决梯度消失问题的方法，但这是否会导致其它问题呢？请往下看。ReLU 的公式如下：

ReLU 公式表明：如果输入 x 小于 0，则令输出等于 0；如果输入 x 大于 0，则令输出等于输入。

尽管我们没法用大多数工具绘制其图形，但你可以这样用图解释 ReLU。x 值小于零的一切都映射为 0 的 y 值，但 x 值大于零的一切都映射为它本身。也就是说，如果我们输入 x=1，我们得到 y=1。

这很好，但这与梯度消失问题有什么关系？首先，我们必须得到其微分方程：

其意思是：如果输入 x 大于 0，则输出等于 1；如果输入小于或等于 0，则输出变为 0。用下图表示：

现在我们得到了答案：当使用 ReLU 激活函数时，我们不会得到非常小的值（比如前面sigmoid函数的 0.0000000438）。相反，它要么是0（导致某些梯度不返回任何东西），要么是 1。但这又催生出另一个问题：死亡 ReLU 问题。

如果在计算梯度时有太多值都低于0会怎样呢？我们会得到相当多不会更新的权重和偏置，因为其更新的量为 0。要了解这个过程的实际表现，我们反向地看看前面梯度爆炸的示例。

我们在这个等式中将ReLU 记为R，我们只需要将每个 sigmoidσ 替换成 R：

现在，假如说这个微分后的 ReLU 的一个随机输入 z 小于 0——则这个函数会导致偏置「死亡」。假设是 R'(z_3)=0：

反过来，当我们得到 R'(z_3)=0 时，与其它值相乘自然也只能得到 0，这会导致这个偏置死亡。我们知道一个偏置的新值是该偏置减去学习率减去梯度，这意味着我们得到的更新为 0。

ReLU自定义如下：

6、死亡 ReLU：优势和缺点

当我们将 ReLU 函数引入神经网络时，我们也引入了很大的稀疏性。那么稀疏性这个术语究竟是什么意思？

稀疏：数量少，通常分散在很大的区域。在神经网络中，这意味着激活的矩阵含有许多 0。这种稀疏性能让我们得到什么？当某个比例（比如 50%）的激活饱和时，我们就称这个神经网络是稀疏的。这能提升时间和空间复杂度方面的效率——常数值（通常）所需空间更少，计算成本也更低。

Yoshua Bengio 等人发现 ReLU 这种分量实际上能让神经网络表现更好，而且还有前面提到的时间和空间方面的效率。论文地址：https://www.utc.fr/~bordesan/dokuwiki/_media/en/glorot10nipsworkshop.pdf

torch.nn.ReLU(inplace=False)

torch.nn.ReLU6(inplace=False)

优点：相比于 sigmoid，由于稀疏性，时间和空间复杂度更低；不涉及成本更高的指数运算；能避免梯度消失问题。

缺点：引入了死亡 ReLU 问题，即网络的大部分分量都永远不会更新。但这有时候也是一个优势；ReLU 不能避免梯度爆炸问题。

7、Softplus函数

Softplus函数是Logistic-Sigmoid函数原函数。

加了1是为了保证非负性。Softplus可以看作是强制非负校正函数max(0,x)平滑版本。红色的即为ReLU。

softplus可以看作是ReLu的平滑。根据神经科学家的相关研究，softplus和ReLu与脑神经元激活频率函数有神似的地方。也就是说，相比于早期的激活函数，softplus和ReLu更加接近脑神经元的激活模型，而神经网络正是基于脑神经科学发展而来，这两个激活函数的应用促成了神经网络研究的新浪潮。

Softplus自定义实现如下：