全新激活函数 | 详细解读:HP-x激活函数(附论文下载)(二)

简介: 全新激活函数 | 详细解读:HP-x激活函数(附论文下载)(二)

4具有orthogonal-Padé激活以及函数近似的网络


Orthogonal-Padé网络类似于Padé网络,即将具有PAU或safe PAU的网络替换为OPAU或safe OPAU。在本文中,将safe OPAUs视为不同正交基的激活函数,如表1所示。用(7)中给出的函数形式近似Leaky ReLU对可学习参数(多项式系数)进行初始化,初始化参数值如下表所示。

image.png

利用反向传播方法对网络参数进行了优化。作者对所有的网络都保持了PAU的类似设计,例如每层的权重共享和可学习激活参数。由式(5)可知,每层总共有(k+l)个额外参数。因此,如果网络中有L层,网络中就会有额外的L(k+L)个可学习参数。为了训练网络,作者采用了Leaky ReLU初始化(α=0.01),而不是随机初始化方法。

使用正交基的一个主要优点是,与标准基相比,可以在运行时间上更快地找到多项式系数。此外,目前广泛使用的激活函数在大多数情况下是零中心的。因此作者在Padé和Orthogonal-Padé近似上施加一些条件,以使已知函数近似为零中心,并检查是否有任何对模型性能的优势(一个明显的优势是每一层的参数量减少了)。

为了使Padé以零为中心,将式(4)中的替换,并计算其他参数。为了保证OPAU的safe,会有几个bad case,作者研究了所有可能的bad case。

例如,如果选择HP-1作为基,如果分子中的常数项为零,则安全的OPAU函数近似可以以零为中心。由式(6)和表1可知,。可以推导出以下情况:

case 1:

image.png

case 2:

C1,C2,C4其中一个等于0。例如,如果,那么等等;

case 3:

image.png

在上述PAU和HP-1的所有情况下,作者已经在CIFAR10和CIFAR100数据集上对几个经典的模型进行了实验和测试(Leaky ReLU近似)。作者发现在大多数情况下,模型在top-1准确率下降了0.2%-0.6%。

此外,需要注意的是,具有safe OPAU激活函数的神经网络在C(K)中是dense的,其中K是的一个紧凑子集,而C(K)是K上所有连续函数的空间。

Proposition

  • 设是任意连续函数。设表示一类具有激活函数的神经网络,输入层有n个神经元,输出层有1个神经元,隐层有任意数量的神经元。设是compact的。当且仅当是非多项式时,在C(K)中是dense的。
  • 设是任意连续函数,它至少在一点上是连续可微的,且在这一点上导数为非零。设是compact的。那么在中,是dense的。

5实验


5.1 CIFAR-100

5.2 Tiny Imagenet

5.3 VOC 2007


6参考


[1].ORTHOGONAL-PADÉ ACTIVATION FUNCTIONS: TRAINABLE ACTIVATION FUNCTIONS FOR SMOOTH AND FASTER CONVERGENCE IN DEEP NETWORKS

相关文章
|
8月前
【论文实操】从ACNet中得到启发:非对称卷积块的使用可以有效提高ACC。即插即用!
【论文实操】从ACNet中得到启发:非对称卷积块的使用可以有效提高ACC。即插即用!
370 0
【论文实操】从ACNet中得到启发:非对称卷积块的使用可以有效提高ACC。即插即用!
|
8月前
|
机器学习/深度学习 PyTorch 算法框架/工具
PyTorch基础之激活函数模块中Sigmoid、Tanh、ReLU、LeakyReLU函数讲解(附源码)
PyTorch基础之激活函数模块中Sigmoid、Tanh、ReLU、LeakyReLU函数讲解(附源码)
374 0
|
8月前
|
机器学习/深度学习 计算机视觉
【SPP】来自何凯明在2015年发表的顶刊。一起学习池化层的变形体SPP
【SPP】来自何凯明在2015年发表的顶刊。一起学习池化层的变形体SPP
76 0
【SPP】来自何凯明在2015年发表的顶刊。一起学习池化层的变形体SPP
|
机器学习/深度学习 并行计算 Go
YOLOv5 网络组件与激活函数 代码理解笔记
最近在看YOLOv5 第6个版本的代码,记录了一下笔记,分享一下。首先看了网络结构、网络组件,对应代码models\common.py。然后看了激活函数,对应代码utils\activations.py。
320 0
|
机器学习/深度学习 数据可视化 PyTorch
Softmax简介
Softmax是一种数学函数,通常用于将一组任意实数转换为表示概率分布的实数。其本质上是一种归一化函数,可以将一组任意的实数值转化为在[0, 1]之间的概率值,因为softmax将它们转换为0到1之间的值,所以它们可以被解释为概率。如果其中一个输入很小或为负,softmax将其变为小概率,如果输入很大,则将其变为大概率,但它将始终保持在0到1之间。
362 0
|
机器学习/深度学习 算法 PyTorch
全新激活函数 | 详细解读:HP-x激活函数(附论文下载)(一)
全新激活函数 | 详细解读:HP-x激活函数(附论文下载)(一)
115 0
|
算法 PyTorch 算法框架/工具
pytorch实现空洞卷积+残差网络实验(torch实现)
pytorch实现空洞卷积+残差网络实验(torch实现)
412 0
|
机器学习/深度学习 编解码 计算机视觉
纯卷积Backbone巅峰 | MogaNet登峰造极,超越ConvNeXt、ParC-Net和SWin(一)
纯卷积Backbone巅峰 | MogaNet登峰造极,超越ConvNeXt、ParC-Net和SWin(一)
142 0
|
机器学习/深度学习 编解码 固态存储
纯卷积Backbone巅峰 | MogaNet登峰造极,超越ConvNeXt、ParC-Net和SWin(二)
纯卷积Backbone巅峰 | MogaNet登峰造极,超越ConvNeXt、ParC-Net和SWin(二)
540 0
|
机器学习/深度学习 Dart 算法
暴力涨点 | IC-Conv使用高效空洞搜索Inception卷积带来全领域涨点(文末附论文下载)(一)
暴力涨点 | IC-Conv使用高效空洞搜索Inception卷积带来全领域涨点(文末附论文下载)(一)
196 0