4.13 采用关联滤波器的卷积神经网络
经典的卷积神经网络模型[1] (CNN), 大体上是由若干个卷积神经层堆叠构成的深度多层次神经网络模型,由于其在图像识别[2] 、视频分类 [3]等计算机视觉领域中所展现的优异性能,CNN 的拓展应用及其优化研究越来越受到广泛关注。
和传统单隐藏层神经网络不同,卷积神经层中的神经元被有序地组织成一张张特征图。相应的,神经元间的关联权值则构成了滤波器(filter),因为卷积层中特征图与卷积核的矩阵卷积本质是对输入特征图进行空域滤波。这种处理能够提取蕴含在输入特征图中多种的视觉特征。单就输出特征图中的某一个神经元而言,它的输出值由线性滤波器与输入特征图中一个小邻域里的神经元进行内积得到。CNN 的这种神经元与神经元的局部连接,与猫视觉系统中神经细胞具有局部敏感性(localsensitive)的发现[4]相一致。
作为卷积神经层中唯一可以被训练的权值,滤波器在提取包括边缘、角点、端点等视觉特征时发挥主要作用。这些被感知到的局部特征在输出特征图中进一步组合生成更抽象的特征,继而被后续的卷积层进一步提取。在大部分情况下,CNN 都是使用随机梯度下降(stochastic gradient descent)方法进行训练。这种训练方法的特点是:在更新权值时,每一个权值都依据代价函数在自身方向的偏导数来决定其更新矢量。由此,从属于同一卷积神经层的滤波器之间并没有显式的逻辑性关联关系,也正是因为这个特点,利用这些滤波器来计算的各个输出神经元间也不具有显性相关性。但是,对灵长类视觉皮层神经元的研究[5]表明,从属于同一皮层区域的部分神经元,具有协作处理视觉信息的能力。这个现象启发我们为 CNN 中归属于同一卷积层的神经元也引入合作关系,其实现途径就是构造具有关联性的滤波器。
本文提出了一种新颖的卷积神经网络优化方法——关联滤波器(Correlative Filters/CF),它在构造网络之初就指定若干滤波器间具有关联关系。这种关联稳定地存在于网络训练的整个过程中,旨在引导网络学习得到一组更具综合性的、针对视觉特征的权值。简单地讲,在训练 CNN 的整个过程中,CF 促使若干滤波器是另外一组滤波器的某种特定线性变换。注意到位于浅层次的滤波器主要提取简单的视觉特征元素,而处于深层次的滤波器则专注于提取更复杂抽象的特征。在构造关联滤波器时,我们也依据这个特性针对不同深度的卷积层使用相异的关联关系。在靠近输入层的层次中,关联滤波器表现为很多对具有相反元素的滤波器。而在深层次的卷积神经层中构造关联时,关联滤波器之间的关系转变为平移。
通过引入关联滤波器,网络模型获得了有益于视觉特征提取的先验知识,有能力在训练中学习得到更综合的网络权值。这是因为关联滤波器促使神经元按照预定准则,协作处理特征图。除此之外,CF 方法只是优化了作为特征提取器的滤波器,所以它能与其他随机正则化方法(stochasticregularization method)结合以防止过拟合,例如Dropout [6] 和 Stochastic Pooling [7] 。