4具有orthogonal-Padé激活以及函数近似的网络
Orthogonal-Padé网络类似于Padé网络,即将具有PAU或safe PAU的网络替换为OPAU或safe OPAU。在本文中,将safe OPAUs视为不同正交基的激活函数,如表1所示。用(7)中给出的函数形式近似Leaky ReLU对可学习参数(多项式系数)进行初始化,初始化参数值如下表所示。
利用反向传播方法对网络参数进行了优化。作者对所有的网络都保持了PAU的类似设计,例如每层的权重共享和可学习激活参数。由式(5)可知,每层总共有(k+l)个额外参数。因此,如果网络中有L层,网络中就会有额外的L(k+L)个可学习参数。为了训练网络,作者采用了Leaky ReLU初始化(α=0.01),而不是随机初始化方法。
使用正交基的一个主要优点是,与标准基相比,可以在运行时间上更快地找到多项式系数。此外,目前广泛使用的激活函数在大多数情况下是零中心的。因此作者在Padé和Orthogonal-Padé近似上施加一些条件,以使已知函数近似为零中心,并检查是否有任何对模型性能的优势(一个明显的优势是每一层的参数量减少了)。
为了使Padé以零为中心,将式(4)中的替换,并计算其他参数。为了保证OPAU的safe,会有几个bad case,作者研究了所有可能的bad case。
例如,如果选择HP-1作为基,如果分子中的常数项为零,则安全的OPAU函数近似可以以零为中心。由式(6)和表1可知,。可以推导出以下情况:
case 1:
case 2:
C1,C2,C4其中一个等于0。例如,如果,那么等等;
case 3:
在上述PAU和HP-1的所有情况下,作者已经在CIFAR10和CIFAR100数据集上对几个经典的模型进行了实验和测试(Leaky ReLU近似)。作者发现在大多数情况下,模型在top-1准确率下降了0.2%-0.6%。
此外,需要注意的是,具有safe OPAU激活函数的神经网络在C(K)中是dense的,其中K是的一个紧凑子集,而C(K)是K上所有连续函数的空间。
Proposition
- 设是任意连续函数。设表示一类具有激活函数的神经网络,输入层有n个神经元,输出层有1个神经元,隐层有任意数量的神经元。设是compact的。当且仅当是非多项式时,在C(K)中是dense的。
- 设是任意连续函数,它至少在一点上是连续可微的,且在这一点上导数为非零。设是compact的。那么在中,是dense的。
5实验
5.1 CIFAR-100
5.2 Tiny Imagenet
5.3 VOC 2007
6参考
[1].ORTHOGONAL-PADÉ ACTIVATION FUNCTIONS: TRAINABLE ACTIVATION FUNCTIONS FOR SMOOTH AND FASTER CONVERGENCE IN DEEP NETWORKS