5.25 受神经线路连接模式的启发
单个神经元能完成的功能非常简单,而复杂的任务往往由很多神经元组成的神经网络来完成。视觉系统可以看作一个深层递归神经网络。首先,它是由多个皮层组成的层级结构,沿着层级通路(腹侧通路)由低到高各个皮层编码的特征逐渐由简单变复杂。然后,视觉系统中存在多种类型的连接,包括低层到高层的前馈连接、层内神经元相互之间的递归连接,以及高层神经元到低层神经元的反馈连接[13] 。计算机视觉中常用的卷积神经网络(CNN)往往是纯前馈的。受大脑中广泛存在的递归连接的启发,文献 [5] 提出在普通的前馈 CNN 中加入层内的递归连接(见图 4),构成递归卷积神经网络(RCNN)。递归连接可以捕捉到上下文信息,有助于物体识别,并且采用权值共享,减少了参数量。模型在多个数据集上均取得当时最好的分类结果。文献 [6] 中将 RCNN 应用到场景标注,该任务对上下文信息十分依赖。RCNN 以端对端的方式取得了优异的效果。
层间的反馈连接对于场景标注这种既需要全局信息,又需要局部信息的任务也很有用。文献 [17]在前馈CNN中增加了一条顶层到底层的反馈连接,并将模型用于场景标注。反馈连接可以将高层的上下文信息返回给底层,并和底层的局部信息进行融合。该模型也以端对端的方式来处理场景标注,得到了不错的效果。
层间的反馈连接,通常被认为对于视觉注意力非常有用。人时刻接收海量的视觉输入,视觉系统可以通过注意机制对这些输入进行有效的压缩和选择,从而快速地理解视野中的内容。文献 [7] 向神经网络中加入自顶向下的反馈,在 ImageNet 数据集测试上获得了一定的提升。在测试时,图像会首先经过一次 CNN,在特征图上响应较大处对应的原图位置重新截取片段,输入 CNN 得到结果。也就是 Look and think twice。与此类似,文献 [8] 将自顶向下的结构将物体检测问题转化为迭代进行分类的过程。具体来说,每一次从图片中截取片段进行分类,并且给出下一步的移动信号,去决定下一步注意点应该落在哪里,并再次截取图像片段进行分类,直到最后输出停止信号。
注意可以由自下向上的过程和自上向下的过程产生,一般认为前者由刺激驱动,而后者由目标驱动。但是心理学中有一个理论称为逆层次化理论(reverse hierarchy theory) [18] ,认为即使在没有目标驱动的情况下,注意也是自上向下的。受该理论的启发,文献 [9] 将图像做一个 Laplace 金字塔,从下到上图片的分辨率逐层降低,注意过程从上到下,根据压缩感知的理论和上一层的图片对下一层的图片进行重建,将重建误差图定义为显著图,再用一个链式马尔可夫过程对眼睛的注视点从上到下进行采样,得到注视点在原图上的预测(见图 5)。该方法虽然没有用到显式的自上而下的反馈连接,但可认为受到了这种反馈连接的启发。