在深度计算机视觉领域中,有几种类型的卷积层与我们经常使用的原始卷积层不同。在计算机视觉的深度学习研究方面,许多流行的高级卷积神经网络实现都使用了这些层。这些层中的每一层都有不同于原始卷积层的机制,这使得每种类型的层都有一个特别特殊的功能。
在进入这些高级的卷积层之前,让我们先快速回顾一下原始的卷积层是如何工作的。
原始卷积层
在原始的卷积层中,我们有一个形状为WxHxC的输入,其中W和H是每个feature map的宽度和高度,C是channel的数量,基本上就是feature map的总数。卷积层会有一定数量的核,核会对这个输入进行卷积操作。内核的数量将等于输出feature map中所需通道的数量。基本上,每个内核都对应于输出中的一个特定的feature map,并且每个feature map都是一个通道。
核的高度和宽度是由我们决定的,通常,我们保持3x3。每个内核的深度将等于输入的通道数。因此,对于下面的例子,每个内核的形状将是(wxhx3),其中w和h是内核的宽度和高度,深度是3,因为在这种情况下,输入有3个通道。
在本例中,输入有3个通道,输出有16个通道。因此在这一层共有16个内核,每个内核的形状是(wxhx3)。
高级的卷积层
我们将在本教程中涵盖的高级卷积层的列表如下:
- 深度可分离的卷积
- 反卷积
- 空洞卷积
- 分组卷积
深度可分离的卷积层
在深度可分离卷积层中,我们试图极大地减少在每个卷积层中执行的计算数量。这一整层实际上被分为两部分:
i)深度卷积
ii)逐点卷积
深度卷积
深度卷积的关键点在于,每个核函数都是应用在单个输入通道上,而不是同时应用所有的输入通道。因此,每个内核都是形状(w*h*1)的,因为它将应用于单个通道。内核的数量将等于输入通道的数量,因此,如果我们有W*H*3大小的输入,我们将有3个单独的W*H* 1内核,每个内核将应用于输入的单个通道。因此,输出也将具有与输入相同数量的通道,因为每个内核将输出单个feature map。让我们看看深度卷积部分是如何工作的:
如果我们有一个C通道的输入,那么这一层的深度卷积部分的输出也会有C通道。接下来是下一部分。这一部分的目的是改变频道的数量,因为随着我们深入了解CNN,我们经常希望增加每一层输出的频道数量。
逐点卷积
逐点卷积将把深度卷积的中间C通道输出转换为具有不同数量通道的feature map。为了做到这一点,我们有几个1\s*1的内核,它们在这个中间feature map块的所有通道上进行卷积。因此,每个1*1内核也将有C通道。每个内核将输出一个单独的feature map,因此我们将得到的内核数量与我们希望输出的通道数量相等。让我们看看这是如何工作的。
这就是深度可分离卷积层的整个过程。基本上,在深度卷积的第一步,每个输入通道都有一个核函数然后将它们与输入进行卷积。这样的结果输出将是一个feature map块,它具有与输入相同数量的通道。在逐点卷积的第二步中,我们有几个1*1的核,并将它们与中间特征映射块进行卷积。我们将根据我们希望输出的通道数量来选择内核的数量。
这一层比原来的卷积层要轻量得多。这是因为,在第一步中,我们没有使用巨大的卷积在所有输入通道上的内核,而是使用单通道的内核,这将会小得多。然后在下一步,当我们试图改变通道的数量时,我们使用了对所有通道进行卷积的内核,但是这些内核是1*1的,因此它们也要小得多。本质上,我们可以把深度可分离卷积看作是把原来的卷积层分成两部分。第一部分使用具有较大空间区域(宽度和高度)但只有一个通道的内核,第二部分使用跨越所有通道的内核,但它们有较小的空间区域。
深度可分离的卷积层在移动网络中使用,因为这样CNN有更少的参数,以便他们可以在移动设备上使用。它们也被用于Xception CNN架构中。
反卷积层
通常在卷积层中,feature maps的空间面积(width and height)在每层之后会减小或保持不变。但有时我们想增加空间面积。这些增加空间面积而不是减少空间面积的特殊层称为反卷积层。有两种主要类型的反卷积层:
转置卷积
上采样
两者在某些方面是相似的,但也有一些差异。本质上,其目的是在应用卷积之前,通过在feature map中引入更多的像素来增加空间面积。填充这些新像素值的方式形成了转置卷积和上采样之间的主要区别。添加新像素的方式如下:
在调整feature map的大小时,我们可以改变扩充比例,但通常情况下,我们做的是2倍的扩充。这样,feature map的高度和宽度会翻倍,因此像素的总数是原始feature map的4倍。
转置卷积
在转置卷积中,我们只是用0的值填充所有增加的像素。这有点像在feature map的原始像素之间添加填充。
将所有添加的像素用0代入后,再对放大后的feature map进行普通卷积。这就是我们如何在对feature map执行卷积操作的同时增加它的大小。
上采样
对于上采样层,我们在添加像素的位置复制原始像素值。因此每个像素将被复制4次如果我们做的是一个2倍扩充。从技术上讲,如果我们只考虑上采样层,在对feature map进行放大后就不存在卷积。但是我们通常在上采样层之后加上卷积层这样网络就有了一些学习能力因为上采样层本身没有任何参数。
这两层在网络神经网络中被广泛使用,网络神经网络试图输出与原始输入相同大小的feature map。一般情况下,会有一些普通的卷积和池化层,这会减小feature map的大小。在这之后,我们将引入反卷积层,将大小增加回原来的大小。语义分割CNNs、U-Net、GANs等使用反卷积层。
空洞卷积Dilated (Atrous) Convolution
在研究界中,空洞卷积也被称为伸缩卷积。在空洞卷积中,我们本质上试图增加每个核的面积,同时保持每个核的元素数量完全相同。
对于扩张卷积,我们基本上取核函数在进行卷积运算之前在核函数的元素之间加上间隔。通过这样做,内核的接受区域会增加,而参数的数量会相同。
与普通卷积层相比,它看起来是这样的:
可以看到,内核中的元素数量保持不变,但是应用内核的有效面积从3*3增加到5*5。我们还可以改变核的膨胀率,这本质上意味着核元素之间的间隙将有多宽。对于上面例子中的膨胀核,膨胀率为2。默认的卷积核的膨胀率为1,基本上意味着核元素之间没有间隙。
当我们想让卷积应用于更大的区域,同时又能节省计算成本时,我们就使用了扩张卷积。如果我们想用一个普通的卷积层覆盖5*5的面积,那么我们需要一个5*5面积的核,也就是25个元素。然而,如果我们使用扩张率为2的扩张卷积,我们可以用9个元素覆盖相同的区域。除此之外,内核的接受区域也增加了,使得它们能够捕捉到在输入特征图中出现的更细的细节。
分组卷积
在分组卷积中,基本的概念是我们将输入中的信道分成相等的组。然后,我们将分配相同数量的内核给每一组。每个内核将只应用于其各自组中的通道,而不是应用于输入的所有通道。
例如,如果我们有一个有4个通道的输入特征图,并且我们希望总共有2组,那么每组都将有2个通道。假设每一组有4个内核。每个内核的深度将为2,因为它们将只应用于每个组,而不是整个输入。将两组的输出特征图连接在一起,形成最终的输出特征图。因此,在本例中,每组将输出4个feature map,因此输出的channel总数为8。让我们看看这个例子的可视化解释:
对于分组卷积,我们本质上是在每一层并行地执行卷积。这增加了模型在通过网络进行反向传播时可以采取的路径数量。除此之外,它还减少了该层的计算成本,因为每个内核将拥有更少的参数,并且将应用于输入中的更少的通道。这就是我们使用组合卷积的原因。这些在ResNext架构中使用。