深入卷积神经网络:高级卷积层原理和计算的可视化

简介: 深入卷积神经网络:高级卷积层原理和计算的可视化

在深度计算机视觉领域中,有几种类型的卷积层与我们经常使用的原始卷积层不同。在计算机视觉的深度学习研究方面,许多流行的高级卷积神经网络实现都使用了这些层。这些层中的每一层都有不同于原始卷积层的机制,这使得每种类型的层都有一个特别特殊的功能。

在进入这些高级的卷积层之前,让我们先快速回顾一下原始的卷积层是如何工作的。

原始卷积层

在原始的卷积层中,我们有一个形状为WxHxC的输入,其中W和H是每个feature map的宽度和高度,C是channel的数量,基本上就是feature map的总数。卷积层会有一定数量的核,核会对这个输入进行卷积操作。内核的数量将等于输出feature map中所需通道的数量。基本上,每个内核都对应于输出中的一个特定的feature map,并且每个feature map都是一个通道。

核的高度和宽度是由我们决定的,通常,我们保持3x3。每个内核的深度将等于输入的通道数。因此,对于下面的例子,每个内核的形状将是(wxhx3),其中w和h是内核的宽度和高度,深度是3,因为在这种情况下,输入有3个通道。

640.gif

在本例中,输入有3个通道,输出有16个通道。因此在这一层共有16个内核,每个内核的形状是(wxhx3)。

高级的卷积层

我们将在本教程中涵盖的高级卷积层的列表如下:

  • 深度可分离的卷积
  • 反卷积
  • 空洞卷积
  • 分组卷积

深度可分离的卷积层

在深度可分离卷积层中,我们试图极大地减少在每个卷积层中执行的计算数量。这一整层实际上被分为两部分:

i)深度卷积

ii)逐点卷积

深度卷积

深度卷积的关键点在于,每个核函数都是应用在单个输入通道上,而不是同时应用所有的输入通道。因此,每个内核都是形状(w*h*1)的,因为它将应用于单个通道。内核的数量将等于输入通道的数量,因此,如果我们有W*H*3大小的输入,我们将有3个单独的W*H* 1内核,每个内核将应用于输入的单个通道。因此,输出也将具有与输入相同数量的通道,因为每个内核将输出单个feature map。让我们看看深度卷积部分是如何工作的:

640.gif

如果我们有一个C通道的输入,那么这一层的深度卷积部分的输出也会有C通道。接下来是下一部分。这一部分的目的是改变频道的数量,因为随着我们深入了解CNN,我们经常希望增加每一层输出的频道数量。

逐点卷积

逐点卷积将把深度卷积的中间C通道输出转换为具有不同数量通道的feature map。为了做到这一点,我们有几个1\s*1的内核,它们在这个中间feature map块的所有通道上进行卷积。因此,每个1*1内核也将有C通道。每个内核将输出一个单独的feature map,因此我们将得到的内核数量与我们希望输出的通道数量相等。让我们看看这是如何工作的。

640.gif

这就是深度可分离卷积层的整个过程。基本上,在深度卷积的第一步,每个输入通道都有一个核函数然后将它们与输入进行卷积。这样的结果输出将是一个feature map块,它具有与输入相同数量的通道。在逐点卷积的第二步中,我们有几个1*1的核,并将它们与中间特征映射块进行卷积。我们将根据我们希望输出的通道数量来选择内核的数量。

这一层比原来的卷积层要轻量得多。这是因为,在第一步中,我们没有使用巨大的卷积在所有输入通道上的内核,而是使用单通道的内核,这将会小得多。然后在下一步,当我们试图改变通道的数量时,我们使用了对所有通道进行卷积的内核,但是这些内核是1*1的,因此它们也要小得多。本质上,我们可以把深度可分离卷积看作是把原来的卷积层分成两部分。第一部分使用具有较大空间区域(宽度和高度)但只有一个通道的内核,第二部分使用跨越所有通道的内核,但它们有较小的空间区域。

深度可分离的卷积层在移动网络中使用,因为这样CNN有更少的参数,以便他们可以在移动设备上使用。它们也被用于Xception CNN架构中。

反卷积层

通常在卷积层中,feature maps的空间面积(width and height)在每层之后会减小或保持不变。但有时我们想增加空间面积。这些增加空间面积而不是减少空间面积的特殊层称为反卷积层。有两种主要类型的反卷积层:

转置卷积

上采样

两者在某些方面是相似的,但也有一些差异。本质上,其目的是在应用卷积之前,通过在feature map中引入更多的像素来增加空间面积。填充这些新像素值的方式形成了转置卷积和上采样之间的主要区别。添加新像素的方式如下:

640.jpg

在调整feature map的大小时,我们可以改变扩充比例,但通常情况下,我们做的是2倍的扩充。这样,feature map的高度和宽度会翻倍,因此像素的总数是原始feature map的4倍。

转置卷积

在转置卷积中,我们只是用0的值填充所有增加的像素。这有点像在feature map的原始像素之间添加填充。

将所有添加的像素用0代入后,再对放大后的feature map进行普通卷积。这就是我们如何在对feature map执行卷积操作的同时增加它的大小。

640.jpg

上采样

对于上采样层,我们在添加像素的位置复制原始像素值。因此每个像素将被复制4次如果我们做的是一个2倍扩充。从技术上讲,如果我们只考虑上采样层,在对feature map进行放大后就不存在卷积。但是我们通常在上采样层之后加上卷积层这样网络就有了一些学习能力因为上采样层本身没有任何参数。

640.jpg

这两层在网络神经网络中被广泛使用,网络神经网络试图输出与原始输入相同大小的feature map。一般情况下,会有一些普通的卷积和池化层,这会减小feature map的大小。在这之后,我们将引入反卷积层,将大小增加回原来的大小。语义分割CNNs、U-Net、GANs等使用反卷积层。

空洞卷积Dilated (Atrous) Convolution

在研究界中,空洞卷积也被称为伸缩卷积。在空洞卷积中,我们本质上试图增加每个核的面积,同时保持每个核的元素数量完全相同。

对于扩张卷积,我们基本上取核函数在进行卷积运算之前在核函数的元素之间加上间隔。通过这样做,内核的接受区域会增加,而参数的数量会相同。

与普通卷积层相比,它看起来是这样的:

640.gif

可以看到,内核中的元素数量保持不变,但是应用内核的有效面积从3*3增加到5*5。我们还可以改变核的膨胀率,这本质上意味着核元素之间的间隙将有多宽。对于上面例子中的膨胀核,膨胀率为2。默认的卷积核的膨胀率为1,基本上意味着核元素之间没有间隙。

640.jpg

当我们想让卷积应用于更大的区域,同时又能节省计算成本时,我们就使用了扩张卷积。如果我们想用一个普通的卷积层覆盖5*5的面积,那么我们需要一个5*5面积的核,也就是25个元素。然而,如果我们使用扩张率为2的扩张卷积,我们可以用9个元素覆盖相同的区域。除此之外,内核的接受区域也增加了,使得它们能够捕捉到在输入特征图中出现的更细的细节。

分组卷积

在分组卷积中,基本的概念是我们将输入中的信道分成相等的组。然后,我们将分配相同数量的内核给每一组。每个内核将只应用于其各自组中的通道,而不是应用于输入的所有通道。

例如,如果我们有一个有4个通道的输入特征图,并且我们希望总共有2组,那么每组都将有2个通道。假设每一组有4个内核。每个内核的深度将为2,因为它们将只应用于每个组,而不是整个输入。将两组的输出特征图连接在一起,形成最终的输出特征图。因此,在本例中,每组将输出4个feature map,因此输出的channel总数为8。让我们看看这个例子的可视化解释:

640.gif

对于分组卷积,我们本质上是在每一层并行地执行卷积。这增加了模型在通过网络进行反向传播时可以采取的路径数量。除此之外,它还减少了该层的计算成本,因为每个内核将拥有更少的参数,并且将应用于输入中的更少的通道。这就是我们使用组合卷积的原因。这些在ResNext架构中使用。

目录
相关文章
|
11天前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习的奥秘:探索神经网络的核心原理
本文将深入浅出地介绍深度学习的基本概念,包括神经网络的结构、工作原理以及训练过程。我们将从最初的感知机模型出发,逐步深入到现代复杂的深度网络架构,并探讨如何通过反向传播算法优化网络权重。文章旨在为初学者提供一个清晰的深度学习入门指南,同时为有经验的研究者回顾和巩固基础知识。
34 11
|
1天前
|
机器学习/深度学习 算法 TensorFlow
动物识别系统Python+卷积神经网络算法+TensorFlow+人工智能+图像识别+计算机毕业设计项目
动物识别系统。本项目以Python作为主要编程语言,并基于TensorFlow搭建ResNet50卷积神经网络算法模型,通过收集4种常见的动物图像数据集(猫、狗、鸡、马)然后进行模型训练,得到一个识别精度较高的模型文件,然后保存为本地格式的H5格式文件。再基于Django开发Web网页端操作界面,实现用户上传一张动物图片,识别其名称。
15 1
动物识别系统Python+卷积神经网络算法+TensorFlow+人工智能+图像识别+计算机毕业设计项目
|
10天前
|
机器学习/深度学习 人工智能 自然语言处理
深度剖析深度神经网络(DNN):原理、实现与应用
本文详细介绍了深度神经网络(DNN)的基本原理、核心算法及其具体操作步骤。DNN作为一种重要的人工智能工具,通过多层次的特征学习和权重调节,实现了复杂任务的高效解决。文章通过理论讲解与代码演示相结合的方式,帮助读者理解DNN的工作机制及实际应用。
|
6天前
|
网络协议 Linux 应用服务中间件
Socket通信之网络协议基本原理
【9月更文挑战第14天】网络协议是机器间交流的约定格式,确保信息准确传达。主要模型有OSI七层与TCP/IP模型,通过分层简化复杂网络环境。IP地址全局定位设备,MAC地址则在本地网络中定位。网络分层后,数据包层层封装,经由不同层次协议处理,最终通过Socket系统调用在应用层解析和响应。
|
7天前
|
网络协议 网络架构 数据格式
TCP/IP基础:工作原理、协议栈与网络层
TCP/IP(传输控制协议/互联网协议)是互联网通信的基础协议,支持数据传输和网络连接。本文详细阐述了其工作原理、协议栈构成及网络层功能。TCP/IP采用客户端/服务器模型,通过四个层次——应用层、传输层、网络层和数据链路层,确保数据可靠传输。网络层负责IP寻址、路由选择、分片重组及数据包传输,是TCP/IP的核心部分。理解TCP/IP有助于深入掌握互联网底层机制。
34 2
|
11天前
|
机器学习/深度学习 数据采集 数据可视化
深度学习实践:构建并训练卷积神经网络(CNN)对CIFAR-10数据集进行分类
本文详细介绍如何使用PyTorch构建并训练卷积神经网络(CNN)对CIFAR-10数据集进行图像分类。从数据预处理、模型定义到训练过程及结果可视化,文章全面展示了深度学习项目的全流程。通过实际操作,读者可以深入了解CNN在图像分类任务中的应用,并掌握PyTorch的基本使用方法。希望本文为您的深度学习项目提供有价值的参考与启示。
|
20天前
|
存储 监控 安全
|
20天前
|
机器学习/深度学习 人工智能 TensorFlow
深度学习中的卷积神经网络(CNN)原理与实践
【8月更文挑战第31天】在人工智能的浪潮中,深度学习技术以其强大的数据处理能力脱颖而出。本文将深入浅出地探讨卷积神经网络(CNN)这一核心组件,解析其在图像识别等领域的应用原理,并通过Python代码示例带领读者步入实践。我们将从CNN的基本概念出发,逐步深入到架构设计,最后通过一个简易项目展示如何将理论应用于实际问题解决。无论你是深度学习的初学者还是希望深化理解的实践者,这篇文章都将为你提供有价值的洞见和指导。
|
2天前
|
SQL 安全 网络安全
网络安全与信息安全:保护你的数字世界##
网络安全和信息安全是现代社会中至关重要的话题。随着数字化进程的加速,网络攻击和数据泄露事件频发,给个人、企业乃至国家安全带来了巨大威胁。本文将探讨网络安全漏洞、加密技术以及安全意识等方面的关键知识,帮助你提升对网络安全的认知,保护自己的数字资产。 ##
19 5
|
1天前
|
SQL 安全 算法
网络安全与信息安全:保护你的数字世界
【9月更文挑战第18天】在这个数字信息时代,网络安全和信息安全的重要性不言而喻。从网络漏洞的发现到加密技术的应用,再到安全意识的提升,每一个环节都至关重要。本文将深入探讨这些主题,并提供实用的建议和代码示例,以帮助读者更好地保护自己的数字世界。
21 11