深入卷积神经网络:高级卷积层原理和计算的可视化

简介: 深入卷积神经网络:高级卷积层原理和计算的可视化

在深度计算机视觉领域中,有几种类型的卷积层与我们经常使用的原始卷积层不同。在计算机视觉的深度学习研究方面,许多流行的高级卷积神经网络实现都使用了这些层。这些层中的每一层都有不同于原始卷积层的机制,这使得每种类型的层都有一个特别特殊的功能。

在进入这些高级的卷积层之前,让我们先快速回顾一下原始的卷积层是如何工作的。

原始卷积层

在原始的卷积层中,我们有一个形状为WxHxC的输入,其中W和H是每个feature map的宽度和高度,C是channel的数量,基本上就是feature map的总数。卷积层会有一定数量的核,核会对这个输入进行卷积操作。内核的数量将等于输出feature map中所需通道的数量。基本上,每个内核都对应于输出中的一个特定的feature map,并且每个feature map都是一个通道。

核的高度和宽度是由我们决定的,通常,我们保持3x3。每个内核的深度将等于输入的通道数。因此,对于下面的例子,每个内核的形状将是(wxhx3),其中w和h是内核的宽度和高度,深度是3,因为在这种情况下,输入有3个通道。

640.gif

在本例中,输入有3个通道,输出有16个通道。因此在这一层共有16个内核,每个内核的形状是(wxhx3)。

高级的卷积层

我们将在本教程中涵盖的高级卷积层的列表如下:

  • 深度可分离的卷积
  • 反卷积
  • 空洞卷积
  • 分组卷积

深度可分离的卷积层

在深度可分离卷积层中,我们试图极大地减少在每个卷积层中执行的计算数量。这一整层实际上被分为两部分:

i)深度卷积

ii)逐点卷积

深度卷积

深度卷积的关键点在于,每个核函数都是应用在单个输入通道上,而不是同时应用所有的输入通道。因此,每个内核都是形状(w*h*1)的,因为它将应用于单个通道。内核的数量将等于输入通道的数量,因此,如果我们有W*H*3大小的输入,我们将有3个单独的W*H* 1内核,每个内核将应用于输入的单个通道。因此,输出也将具有与输入相同数量的通道,因为每个内核将输出单个feature map。让我们看看深度卷积部分是如何工作的:

640.gif

如果我们有一个C通道的输入,那么这一层的深度卷积部分的输出也会有C通道。接下来是下一部分。这一部分的目的是改变频道的数量,因为随着我们深入了解CNN,我们经常希望增加每一层输出的频道数量。

逐点卷积

逐点卷积将把深度卷积的中间C通道输出转换为具有不同数量通道的feature map。为了做到这一点,我们有几个1\s*1的内核,它们在这个中间feature map块的所有通道上进行卷积。因此,每个1*1内核也将有C通道。每个内核将输出一个单独的feature map,因此我们将得到的内核数量与我们希望输出的通道数量相等。让我们看看这是如何工作的。

640.gif

这就是深度可分离卷积层的整个过程。基本上,在深度卷积的第一步,每个输入通道都有一个核函数然后将它们与输入进行卷积。这样的结果输出将是一个feature map块,它具有与输入相同数量的通道。在逐点卷积的第二步中,我们有几个1*1的核,并将它们与中间特征映射块进行卷积。我们将根据我们希望输出的通道数量来选择内核的数量。

这一层比原来的卷积层要轻量得多。这是因为,在第一步中,我们没有使用巨大的卷积在所有输入通道上的内核,而是使用单通道的内核,这将会小得多。然后在下一步,当我们试图改变通道的数量时,我们使用了对所有通道进行卷积的内核,但是这些内核是1*1的,因此它们也要小得多。本质上,我们可以把深度可分离卷积看作是把原来的卷积层分成两部分。第一部分使用具有较大空间区域(宽度和高度)但只有一个通道的内核,第二部分使用跨越所有通道的内核,但它们有较小的空间区域。

深度可分离的卷积层在移动网络中使用,因为这样CNN有更少的参数,以便他们可以在移动设备上使用。它们也被用于Xception CNN架构中。

反卷积层

通常在卷积层中,feature maps的空间面积(width and height)在每层之后会减小或保持不变。但有时我们想增加空间面积。这些增加空间面积而不是减少空间面积的特殊层称为反卷积层。有两种主要类型的反卷积层:

转置卷积

上采样

两者在某些方面是相似的,但也有一些差异。本质上,其目的是在应用卷积之前,通过在feature map中引入更多的像素来增加空间面积。填充这些新像素值的方式形成了转置卷积和上采样之间的主要区别。添加新像素的方式如下:

640.jpg

在调整feature map的大小时,我们可以改变扩充比例,但通常情况下,我们做的是2倍的扩充。这样,feature map的高度和宽度会翻倍,因此像素的总数是原始feature map的4倍。

转置卷积

在转置卷积中,我们只是用0的值填充所有增加的像素。这有点像在feature map的原始像素之间添加填充。

将所有添加的像素用0代入后,再对放大后的feature map进行普通卷积。这就是我们如何在对feature map执行卷积操作的同时增加它的大小。

640.jpg

上采样

对于上采样层,我们在添加像素的位置复制原始像素值。因此每个像素将被复制4次如果我们做的是一个2倍扩充。从技术上讲,如果我们只考虑上采样层,在对feature map进行放大后就不存在卷积。但是我们通常在上采样层之后加上卷积层这样网络就有了一些学习能力因为上采样层本身没有任何参数。

640.jpg

这两层在网络神经网络中被广泛使用,网络神经网络试图输出与原始输入相同大小的feature map。一般情况下,会有一些普通的卷积和池化层,这会减小feature map的大小。在这之后,我们将引入反卷积层,将大小增加回原来的大小。语义分割CNNs、U-Net、GANs等使用反卷积层。

空洞卷积Dilated (Atrous) Convolution

在研究界中,空洞卷积也被称为伸缩卷积。在空洞卷积中,我们本质上试图增加每个核的面积,同时保持每个核的元素数量完全相同。

对于扩张卷积,我们基本上取核函数在进行卷积运算之前在核函数的元素之间加上间隔。通过这样做,内核的接受区域会增加,而参数的数量会相同。

与普通卷积层相比,它看起来是这样的:

640.gif

可以看到,内核中的元素数量保持不变,但是应用内核的有效面积从3*3增加到5*5。我们还可以改变核的膨胀率,这本质上意味着核元素之间的间隙将有多宽。对于上面例子中的膨胀核,膨胀率为2。默认的卷积核的膨胀率为1,基本上意味着核元素之间没有间隙。

640.jpg

当我们想让卷积应用于更大的区域,同时又能节省计算成本时,我们就使用了扩张卷积。如果我们想用一个普通的卷积层覆盖5*5的面积,那么我们需要一个5*5面积的核,也就是25个元素。然而,如果我们使用扩张率为2的扩张卷积,我们可以用9个元素覆盖相同的区域。除此之外,内核的接受区域也增加了,使得它们能够捕捉到在输入特征图中出现的更细的细节。

分组卷积

在分组卷积中,基本的概念是我们将输入中的信道分成相等的组。然后,我们将分配相同数量的内核给每一组。每个内核将只应用于其各自组中的通道,而不是应用于输入的所有通道。

例如,如果我们有一个有4个通道的输入特征图,并且我们希望总共有2组,那么每组都将有2个通道。假设每一组有4个内核。每个内核的深度将为2,因为它们将只应用于每个组,而不是整个输入。将两组的输出特征图连接在一起,形成最终的输出特征图。因此,在本例中,每组将输出4个feature map,因此输出的channel总数为8。让我们看看这个例子的可视化解释:

640.gif

对于分组卷积,我们本质上是在每一层并行地执行卷积。这增加了模型在通过网络进行反向传播时可以采取的路径数量。除此之外,它还减少了该层的计算成本,因为每个内核将拥有更少的参数,并且将应用于输入中的更少的通道。这就是我们使用组合卷积的原因。这些在ResNext架构中使用。

目录
相关文章
|
3月前
|
机器学习/深度学习 PyTorch TensorFlow
卷积神经网络深度解析:从基础原理到实战应用的完整指南
蒋星熠Jaxonic,深度学习探索者。深耕TensorFlow与PyTorch,分享框架对比、性能优化与实战经验,助力技术进阶。
|
3月前
|
监控 负载均衡 安全
WebSocket网络编程深度实践:从协议原理到生产级应用
蒋星熠Jaxonic,技术宇宙中的星际旅人,以代码为舟、算法为帆,探索实时通信的无限可能。本文深入解析WebSocket协议原理、工程实践与架构设计,涵盖握手机制、心跳保活、集群部署、安全防护等核心内容,结合代码示例与架构图,助你构建稳定高效的实时应用,在二进制星河中谱写极客诗篇。
WebSocket网络编程深度实践:从协议原理到生产级应用
|
4月前
|
机器学习/深度学习 人工智能 算法
卷积神经网络深度解析:从基础原理到实战应用的完整指南
蒋星熠Jaxonic带你深入卷积神经网络(CNN)核心技术,从生物启发到数学原理,详解ResNet、注意力机制与模型优化,探索视觉智能的演进之路。
503 11
|
4月前
|
机器学习/深度学习 算法 搜索推荐
从零开始构建图注意力网络:GAT算法原理与数值实现详解
本文详细解析了图注意力网络(GAT)的算法原理和实现过程。GAT通过引入注意力机制解决了图卷积网络(GCN)中所有邻居节点贡献相等的局限性,让模型能够自动学习不同邻居的重要性权重。
883 0
从零开始构建图注意力网络:GAT算法原理与数值实现详解
|
4月前
|
安全 测试技术 虚拟化
VMware-三种网络模式原理
本文介绍了虚拟机三种常见网络模式(桥接模式、NAT模式、仅主机模式)的工作原理与适用场景。桥接模式让虚拟机如同独立设备接入局域网;NAT模式共享主机IP,适合大多数WiFi环境;仅主机模式则构建封闭的内部网络,适用于测试环境。内容简明易懂,便于理解不同模式的优缺点与应用场景。
672 0
|
8月前
|
机器学习/深度学习 人工智能 算法
深度解析:基于卷积神经网络的宠物识别
宠物识别技术随着饲养规模扩大而兴起,传统手段存在局限性,基于卷积神经网络的宠物识别技术应运而生。快瞳AI通过优化MobileNet-SSD架构、多尺度特征融合及动态网络剪枝等技术,实现高效精准识别。其在智能家居、宠物医疗和防走失领域展现广泛应用前景,为宠物管理带来智能化解决方案,推动行业迈向新高度。
|
6月前
|
机器学习/深度学习 人工智能 PyTorch
零基础入门CNN:聚AI卷积神经网络核心原理与工业级实战指南
卷积神经网络(CNN)通过局部感知和权值共享两大特性,成为计算机视觉的核心技术。本文详解CNN的卷积操作、架构设计、超参数调优及感受野计算,结合代码示例展示其在图像分类、目标检测等领域的应用价值。
380 7
|
8月前
|
监控 应用服务中间件 Linux
掌握并发模型:深度揭露网络IO复用并发模型的原理。
总结,网络 I/O 复用并发模型通过实现非阻塞 I/O、引入 I/O 复用技术如 select、poll 和 epoll,以及采用 Reactor 模式等技巧,为多任务并发提供了有效的解决方案。这样的模型有效提高了系统资源利用率,以及保证了并发任务的高效执行。在现实中,这种模型在许多网络应用程序和分布式系统中都取得了很好的应用成果。
257 35
|
8月前
|
机器学习/深度学习 算法 测试技术
图神经网络在信息检索重排序中的应用:原理、架构与Python代码解析
本文探讨了基于图的重排序方法在信息检索领域的应用与前景。传统两阶段检索架构中,初始检索速度快但结果可能含噪声,重排序阶段通过强大语言模型提升精度,但仍面临复杂需求挑战
290 0
图神经网络在信息检索重排序中的应用:原理、架构与Python代码解析
|
7月前
|
安全 Java 程序员
分析Muduo网络库源码中的TcpServer组件工作原理
简言之,TcpServer 在 Muduo 中的角色,就是一位终极交通指挥员,它利用现代计算机网络的魔法,确保数据如同车辆一般,在信息高速公路上自由、安全、高效地流动。
98 0

热门文章

最新文章