6 种激活函数核心知识点,请务必掌握!

简介: 6 种激活函数核心知识点,请务必掌握!

我们知道,神经网络模型中,各隐藏层、包括输出层都需要激活函数(Activation Function)。我们比较熟悉的、常用的激活函数也有 ReLU、Sigmoid 等等。但是,对于各个激活函数的选取方法、区别特点还有几点需要特别注意的地方。今天红色石头就和大家一起来总结一下常用激活函数 Sigmoid、tanh、ReLU、Leaky ReLU、ELU、Maxout 的关键知识点。


1   为什么需要激活函数


神经网络单个神经元的基本结构由线性输出 Z 和非线性输出 A 两部分组成。如下图所示:


image.png


其中,f(x) 即为线性输出 Z,g(x) 即为非线性输出,g() 表示激活函数。通俗来说,激活函数一般是非线性函数,其作用是能够给神经网络加入一些非线性因素,使得神经网络可以更好地解决较为复杂的问题。


举个简单的例子,二分类问题,如果不使用激活函数,例如使用简单的逻辑回归,只能作简单的线性划分,如下图所示:

image.png

image.png

可见,激活函数能够帮助我们引入非线性因素,使得神经网络能够更好地解决更加复杂的问题。


有个问题,为什么激活函数一般都是非线性的,而不能是线性的呢?从反面来说,如果所有的激活函数都是线性的,则激活函数 g(z)=z,即 a=z。那么,以两层神经网络为例,最终的输出为:


image.png


经过推导我们发现网络输出仍是 X 的线性组合。这表明,使用神经网络与直接使用线性模型的效果并没有什么两样。即便是包含多层隐藏层的神经网络,如果使用线性函数作为激活函数,最终的输出仍然是线性模型。这样的话神经网络就没有任何作用了。因此,隐藏层的激活函数必须要是非线性的。


值得一提的是,如果所有的隐藏层全部使用线性激活函数,只有输出层使用非线性激活函数,那么整个神经网络的结构就类似于一个简单的逻辑回归模型,效果与单个神经元无异。另外,如果是拟合问题而不是分类问题,输出层的激活函数可以使用线性函数。


2   Sigmoid


激活函数 Sigmoid 的图形表达式如下所示:

image.png


Sigmoid 函数的取值范围在 (0,1) 之间,单调连续,求导容易,一般用于二分类神经网络的输出层。


下面重点谈一下 Sigmoid 函数的缺点。


首先,Sigmoid 函数饱和区范围广,容易造成梯度消失。饱和区如下图所示:


image.png


上图中红色椭圆标注的饱和区曲线平缓,梯度的值很小,近似为零。而且 Sigmoid 函数的饱和区范围很广,例如除了 [-5,5],其余区域都近似饱和区。这种情况很容易造成梯度消失,梯度消失会增大神经网络训练难度,影响神经网络模型的性能。


其次,Sigmoid 函数输出是非零对称的,即输出恒大于零。这会产生什么影响呢?我们来看,假如 Sigmoid 函数的输出为 σ(Wx+b),且满足 0<σ(Wx+b)<1。在反向求导过程中,令损失函数 J 对 σ(Wx+b) 的求导为 dσ,现在计算 J 对 W 的偏导数:


image.png


其中,σ(Wx+b)>0,1-σ(Wx+b)>0。


若神经元的输入 x>0,则无论 dσ 正负如何,总能得到 dW 恒为正或者恒为负。也就是说参数矩阵 W 的每个元素都会朝着同一个方向变化,同为正或同为负。这对于神经网络训练是不利的,所有的 W 都朝着同一符号方向变化会减小训练速度,增加模型训练时间。就好比我们下楼梯的所需的时间总比直接滑梯下来的时间要长得多,如下图所示:

image.png


图中,红色折线是上文讨论的情况,蓝色斜线是 W 不全朝同一方向变化的情况。


值得一提的是,针对 Sigmoid 函数的这一问题,神经元的输入 x 常会做预处理,即将均值归一化到零值。这样也能有效避免 dW 恒为正或者恒为负。


最后还有一点,Sigmoid 函数包含 exp 指数运算,运算成本也比较大。


3  tanh


激活函数 tanh 的图形表达式如下所示:

image.png

tanh 函数的取值范围在 (-1,1) 之间,单调连续,求导容易。


相比于 Sigmoid 函数,tanh 函数的优点主要有两个:其一,收敛速度更快,如下图所示,tanh 函数线性区斜率较 Sigmoid 更大一些。在此区域内训练速度会更快。其二,tanh 函数输出均值为零,也就不存在 Sigmoid 函数中 dW 恒为正或者恒为负,从而影响训练速度的问题。


image.png


但是,tanh 函数与 Sigmoid 函数一样,也存在饱和区梯度消失问题。其饱和区甚至比 Sigmoid 还要大一些,但不明显。


4  ReLU


激活函数 ReLU 的全称是 Rectified Linear Unit,其图形表达式如下所示:

image.png

ReLU 函数是最近几年比较火热的激活函数之一。相比 Sigmoid 和 tanh 函数,其主要优点包括以下几个方面:


  • 没有饱和区,不存在梯度消失问题。
  • 没有复杂的指数运算,计算简单、效率提高。
  • 实际收敛速度较快,大约是 Sigmoid/tanh 的 6 倍。
  • 比 Sigmoid 更符合生物学神经激活机制。


下面这张图对比了 ReLU 与 tanh 的收敛速度差异性。数据集是 CIFAR 10,模型是四层的卷积神经网络。图中,实线代表 ReLU,虚线代表 tanh,ReLU 比 tanh 更快地到达了错误率 0.25 处。(引自论文《ImageNet Classification with Deep Convolutional Neural Networks》)


image.png


但是,ReLU 函数的缺点也比较明显。首先,ReLU 的输出仍然是非零对称的,可能出现 dW 恒为正或者恒为负,从而影响训练速度。


其次,也是最为重要的,当 x<0 时,ReLU 输出总为零。该神经元输出为零,则反向传播时,权重、参数的梯度横为零,造成权重、参数永远不会更新,即造成神经元失效,形成了“死神经元”。所以,针对这一问题,有时候会将 ReLU 神经元初始化为正偏值,例如 0.01。


5  Leaky ReLU


Leaky ReLU 对 ReLU 进行了改进,其图形表达式如下所示:

image.png

Leaky ReLU 的优点与 ReLU 类似:


  • 没有饱和区,不存在梯度消失问题。
  • 没有复杂的指数运算,计算简单、效率提高。
  • 实际收敛速度较快,大约是 Sigmoid/tanh 的 6 倍。
  • 不会造成神经元失效,形成了“死神经元”。


当然,0.01 的系数是可调的,一般不会太大。


6  ELU


ELU(Exponential Linear Units)也是 ReLU 的一个变种,其图形表达式如下所示:

image.png


ELU 继承了 Leaky ReLU 的所有优点:


  • 没有饱和区,不存在梯度消失问题。
  • 没有复杂的指数运算,计算简单、效率提高。
  • 实际收敛速度较快,大约是 Sigmoid/tanh 的 6 倍。
  • 不会造成神经元失效,形成了“死神经元”。
  • 输出均值为零
  • 负饱和区的存在使得 ELU 比 Leaky ReLU 更加健壮,抗噪声能力更强。


但是,ELU 包含了指数运算,存在运算量较大的问题。


7  Maxout


Maxout 最早出现在 ICML2013 上,由 Goodfellow 提出。其表达式如下所示:

image.png

Maxout 的拟合能力是非常强的,它可以拟合任意的的凸函数。最直观的解释就是任意的凸函数都可以由分段线性函数以任意精度拟合,而 Maxout 又是取 k 个隐藏层节点的最大值,这些”隐藏层"节点也是线性的,所以在不同的取值范围下,最大值也可以看做是分段线性的(上面的公式中 k = 2)。


image.png


上图引自论文《Maxout Networks.  Ian J. Goodfellow, David Warde-Farley, Mehdi Mirza, Aaron Courville, Yoshua Bengio》,可以说,Maxout 可以拟合任意凸函数,k 值越大,分段越多,拟合效果也就越好。


Maxout 保证了始终是线性区域,没有饱和区,训练速度快,而且不会出现坏死神经元。


8  如何选择合适的激活函数


1)首选 ReLU,速度快,但是要注意学习速率的调整,

2)如果 ReLU 效果欠佳,尝试使用 Leaky ReLU、ELU 或 Maxout 等变种。

3)可以尝试使用 tanh。

4)Sigmoid 和 tanh 在 RNN(LSTM、注意力机制等)结构中有所应用,作为门控或者概率值。其它情况下,减少 Sigmoid 的使用。

5)在浅层神经网络中,选择使用哪种激励函数影响不大。

相关文章
|
2月前
|
机器学习/深度学习 人工智能 算法
模型无关的局部解释(LIME)技术原理解析及多领域应用实践
在当前数据驱动的商业环境中,人工智能(AI)和机器学习(ML)已成为各行业决策的关键工具,但随之而来的是“黑盒”问题:模型内部机制难以理解,引发信任缺失、监管合规难题及伦理考量。LIME(局部可解释模型无关解释)应运而生,通过解析复杂模型的个别预测,提供清晰、可解释的结果。LIME由华盛顿大学的研究者于2016年提出,旨在解决AI模型的透明度问题。它具有模型无关性、直观解释和局部保真度等优点,在金融、医疗等领域广泛应用。LIME不仅帮助企业提升决策透明度,还促进了模型优化和监管合规,是实现可解释AI的重要工具。
98 9
|
机器学习/深度学习 人工智能 算法
这篇科普让你Get所有大模型的基础核心知识点
本文介绍了AI大模型的概念和发展历程。AI大模型是指具有1亿以上参数的机器学习模型,通过在大规模数据集上进行预训练,可以直接支撑各类应用。大模型的发展经历了从萌芽期到AI1.0时期,再到AI2.0时期的飞跃,目前最新发布的大模型参数已经达到了千亿甚至万亿级别。国内外的公司都在积极研发和应用大模型,如OpenAI、Google、Facebook、Microsoft等。国内也有百度、阿里巴巴、万维、商汤科技等公司发布了自己的大模型产品。大模型的建造离不开算力资源、算法人才、数据积累等核心要素。此外,文章还列举了一些与大模型相关的专业名词,如算法、模型参数、训练数据、Token等。
|
算法 Java 测试技术
我的算法基础实验代码-下篇
算法题目,Java语言版
80 0
|
机器学习/深度学习 算法 BI
|
网络协议 Java 网络性能优化
|
存储 固态存储 芯片
【计算机追本溯源】「底层原理系列」 回归与本质,让本文带你认识什么是计算机软件系统(1)
【计算机追本溯源】「底层原理系列」 回归与本质,让本文带你认识什么是计算机软件系统(1)
188 0
【计算机追本溯源】「底层原理系列」 回归与本质,让本文带你认识什么是计算机软件系统(1)
|
机器学习/深度学习 算法 图计算
熟练掌握CV中最基础的概念:图像特征,看这篇万字的长文就够了(一)
熟练掌握CV中最基础的概念:图像特征,看这篇万字的长文就够了(一)
180 0
熟练掌握CV中最基础的概念:图像特征,看这篇万字的长文就够了(一)
|
存储 编解码 算法
熟练掌握CV中最基础的概念:图像特征,看这篇万字的长文就够了(二)
熟练掌握CV中最基础的概念:图像特征,看这篇万字的长文就够了(二)
274 0
熟练掌握CV中最基础的概念:图像特征,看这篇万字的长文就够了(二)
|
算法 计算机视觉
熟练掌握CV中最基础的概念:图像特征,看这篇万字的长文就够了(三)
熟练掌握CV中最基础的概念:图像特征,看这篇万字的长文就够了(三)
263 0
熟练掌握CV中最基础的概念:图像特征,看这篇万字的长文就够了(三)