即插即用系列|Make FCN Great Again: 全局感受野助力全卷积神经网络涅槃重生!

简介: 即插即用系列|Make FCN Great Again: 全局感受野助力全卷积神经网络涅槃重生!

90a4b990418e660a31c3dca7e2f17b94.png

Title: FCN+ : Global Receptive Convolution Makes FCN Great Again

Paper: https://arxiv.org/pdf/2303.04589v1.pdf

导读

全卷积神经网络Fully Convolutional Neural Network,FCN)是在 2014 年被提出的,应用在语义分割领域的开创性工作。其基本思想是将全连接层转换为卷积层,从而使得网络可以接受任意尺寸的输入,并输出相应尺寸的像素级别的预测结果。

然而,由于其有限的感受野,FCN无法有效地捕获全局上下文信息,这对于语义分割十分重要。因此,近几年许多工作都是通过设计多种不同滤波尺寸,实现获取更大感受野。但是,这种策略通常会引入更多参数并增加计算成本。

本文针对此这两个难点:(1) 全局感受野,(2) 额外的计算开销进行了一系列的思考,并设计出了一种新颖的卷积,名为全局感受野卷积(Global Receptive Convolution, GRC)。此外,通过将 GRC 助力 FCN,获得了改进版本的 FCN,本文命令其为 FCN+。GRC 不仅能为 FCN 提供全局感受野,而且不会引入额外参数。FCN+ 可以在 PASCAL VOC 2012CityscapesADE20K上实现与最先进方法相当的性能,这有力验证了其语义分割任务的有效性和通用性。

创作背景

图1. 全局感受野卷积与其他卷积的对比

语义分割Semantic segmentation)是计算机视觉中的基础但又十分具有挑战性的任务,其目的是为每个像素分配一个类别标签。这种任务在场景理解、自动驾驶和医学图像诊断等领域都有广泛的应用。然而,该任务的主要挑战在于目标与场景具有非常大的尺度差异,以及不同的目标之间的视觉外观非常相似,这会导致在同一目标上产生不一致的分割结果或者边界分割不准确。

FCN 是语义分割任务的经典工作,通过利用 CNN 提取目标和场景的特征,并从分层层次结构中汇总不同空间分辨率的特征图作为多尺度表示。得益于这一特性,FCN 在一定程度上能够应对目标的尺度变化。然而,由于它的感受野有限,FCN 很难捕获丰富的全局上下文信息。

为了解决这些问题,研究人员提出了许多方法,包括多尺度特征表示全局上下文信息编码。然而,这些方法仍然存在一些局限性,如池化层可能会丢失更细致的空间信息,导致某些像素的表示不准确;大的扩张率可能会导致网格状伪影;注意力机制中的矩阵乘法会显著增加计算复杂度等,而且如图1(a, b)所示,所有这些方法都假定过滤器的不同通道共享完全相同的网格采样位置,这种局限性可能会妨碍它们集成全局上下文信息的效能和效率。

多尺度特征表示

U-Net、U-Net++

将从编码器中提取的多个低层特征图与解码器中的高层特征融合。

PSP-Net

采用金字塔池化模块,利用不同的池化网格聚合多尺度特征图。

Deeplab 系列

采用多个卷积滤波器,每个滤波器具有不同的膨胀率,用于多尺度表示。

全局上下文信息

Pyramid scene parsing network

通过全局平均池化获取全局上下文,但无法有效地将全局上下文信息整合到每个像素的表示中。

Non-local、DA-Net

利用自注意力机制建模像素间长距离依赖关系。

与上述的提到的方法不同,本文提出了一种全新的采样策略 GRC,其核心思想是通过不同通道的卷积核在不同网格采样位置捕捉全局上下文信息。进一步地,将 GRC 应用于 FCN 特征提取器,把标准卷积替换为 GRC,从而得到了一种新的网络架构 FCN+。本文提出的 FCN+ 是一种简单且有效的方法,其不仅可以解决上述提到的挑战,同时还避免了繁琐的解码器和更多的 ParamsFLOPs

方法

全局感受野卷积

图2. kernel为3x3的全局感受野卷积

通过将卷积滤波器的不同通道在整个输入特征映射上有不同的网格采样位置,GRC 实现了无需引入额外参数,为卷积滤波器提供了全局感受野

具体地,将卷积滤波器的通道分为两组,对于每一组,假设原始位置信息和全局上下文信息同等重要。在第一组通道中,采用标准卷积的方法捕捉原始位置信息;在第二组通道中,精心设计网格采样位置,以获得全局感受野。最终,将这两部分信息相加以集成全局上下文信息。

GRC 的关键在于使卷积滤波器的不同通道在整个输入特征图中具有不同的网格采样位置。为了实现这一点,作者将第二组通道分为  个子组,每个子组有  个通道。在空间维度上,将特征映射划分为  个 patch,每个 patch 包含  个像素。下面是偏移量的定义公式:

其中和是 patch 的索引。通过这种方式,可以控制偏移量并获得不同的网格采样位置。

下面的公式定义了所有可能的偏移量坐标组合,覆盖了整个输入特征映射,提供了GRC的全局感受野:

最后,根据通道索引,选择不同的偏移坐标来实现不同通道的不同网格采样位置。这种方法可以应用于各种卷积神经网络的架构中,通过增强卷积滤波器的感受野来提高网络性能。

优化 GRC 效率

GRC 包含  个滤波器,需要对所有滤波器进行移位,但移位操作对于并行计算来说既占用内存又低效。因此,该方法假设移位的偏移量对于这些滤波器是相同的,即它们是通道相关但滤波器无关的。

具体地,对于每个子组要进行的移位,该方法将保持中央采样位置与标准卷积相同,但根据偏移量移动这些子组的特征图。该方法首先将原始特征图的一半通道进行移位,然后对移位后的特征图应用标准卷积。由于移位操作更少且可进行并行计算,因此特征图移位的效率更高。

FCN+

图3. FCN+ 框架图

通过将 GRC 应用于 FCN,文本提出了 FCN+。 FCN+ 与 FCN 拥有相同的架构,都利用深度卷积神经网络提取对象和场景特征,并通过聚合来自分层级别的不同空间分辨率的特征图以获得多尺度表示。FCN+ 的主干特征提取器包括四个阶段,每个阶段包含几个残差块。如图3所示,通过将 GRC 应用于最后一个阶段(第5阶段),用 GRC 替换残差块中的第二个卷积,创建了一个称为 GRC 块的新块。在实验部分,本文对 GRC 块进行了详细的性能评估。

实验

  • 表1:GRC 及其变体在 ResNet 的第五个 stage 的性能表现最好。
  • 表2:GRC 性能比可变形卷积高 1.5%。

  • 表3:GRC 在残差块中的 Conv2 位置表现最好,这可能跟卷积核大小相关。
  • 表4:GRC 的分组数量为16的性能最好,但与分组数量为4差异不大。

  • 表5:与 SOTA 分割模型相比,FCN+ 在 VOC 与 ADE20K 数据集上均获得最优精度,在 Cityspaces 数据集上仅比 DeepLab V3+ 精度低0.4%。

总结

由于常规卷积核的网格采样位置受限于固定的局部空间坐标因此使用一个大小固定的卷积核不能捕捉全局感受野。为解决这个问题,本文基于卷积的网格采样位置应该依赖于空间坐标和不同通道这一思路,提出了一种全新的全局感受野卷积GRC),以提供全局感受野的卷积。此外,GRC 可以将全局上下文集成到每个像素的原始位置信息中,以获得更好的密集预测结果。作者将 GRC 应用于 FCN,提出了 FCN+。实验结果表明,FCN+ 在一些流行的语义分割数据集上(如 PASCAL VOC 2012CityscapesADE20K优于现有的先进方法

写在最后

如果您也对人工智能和计算机视觉全栈领域感兴趣,强烈推荐您关注有料、有趣、有爱的公众号『CVHub』,每日为大家带来精品原创、多领域、有深度的前沿科技论文解读及工业成熟解决方案!欢迎扫码与我交流,一起探讨更多有趣的话题!

目录
相关文章
|
1月前
|
机器学习/深度学习 PyTorch TensorFlow
卷积神经网络深度解析:从基础原理到实战应用的完整指南
蒋星熠Jaxonic,深度学习探索者。深耕TensorFlow与PyTorch,分享框架对比、性能优化与实战经验,助力技术进阶。
|
2月前
|
机器学习/深度学习 人工智能 算法
卷积神经网络深度解析:从基础原理到实战应用的完整指南
蒋星熠Jaxonic带你深入卷积神经网络(CNN)核心技术,从生物启发到数学原理,详解ResNet、注意力机制与模型优化,探索视觉智能的演进之路。
399 11
|
5月前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于PSO粒子群优化TCN-LSTM时间卷积神经网络时间序列预测算法matlab仿真
本内容展示了一种基于粒子群优化(PSO)与时间卷积神经网络(TCN)的时间序列预测方法。通过 MATLAB2022a 实现,完整程序运行无水印,核心代码附详细中文注释及操作视频。算法利用 PSO 优化 TCN 的超参数(如卷积核大小、层数等),提升非线性时间序列预测性能。TCN 结构包含因果卷积层与残差连接,结合 LSTM 构建混合模型,经多次迭代选择最优超参数,最终实现更准确可靠的预测效果,适用于金融、气象等领域。
|
2月前
|
机器学习/深度学习 传感器 数据采集
【故障识别】基于CNN-SVM卷积神经网络结合支持向量机的数据分类预测研究(Matlab代码实现)
【故障识别】基于CNN-SVM卷积神经网络结合支持向量机的数据分类预测研究(Matlab代码实现)
220 0
|
4月前
|
机器学习/深度学习 人工智能 PyTorch
零基础入门CNN:聚AI卷积神经网络核心原理与工业级实战指南
卷积神经网络(CNN)通过局部感知和权值共享两大特性,成为计算机视觉的核心技术。本文详解CNN的卷积操作、架构设计、超参数调优及感受野计算,结合代码示例展示其在图像分类、目标检测等领域的应用价值。
283 7
|
6月前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于PSO粒子群优化TCN时间卷积神经网络时间序列预测算法matlab仿真
本内容介绍了一种基于PSO(粒子群优化)改进TCN(时间卷积神经网络)的时间序列预测方法。使用Matlab2022a运行,完整程序无水印,附带核心代码中文注释及操作视频。TCN通过因果卷积层与残差连接处理序列数据,PSO优化其卷积核权重等参数以降低预测误差。算法中,粒子根据个体与全局最优位置更新速度和位置,逐步逼近最佳参数组合,提升预测性能。
|
5月前
|
机器学习/深度学习 数据采集 监控
基于CNN卷积神经网络和GEI步态能量提取的步态识别算法matlab仿真,对比不同角度下的步态识别性能
本项目基于CNN卷积神经网络与GEI步态能量提取技术,实现高效步态识别。算法使用不同角度(0°、45°、90°)的步态数据库进行训练与测试,评估模型在多角度下的识别性能。核心流程包括步态图像采集、GEI特征提取、数据预处理及CNN模型训练与评估。通过ReLU等激活函数引入非线性,提升模型表达能力。项目代码兼容Matlab2022a/2024b,提供完整中文注释与操作视频,助力研究与应用开发。
|
5月前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于WOA鲸鱼优化的TCN-GRU时间卷积神经网络时间序列预测算法matlab仿真
本内容包含时间序列预测算法的相关资料,涵盖以下几个方面:1. 算法运行效果预览(无水印);2. 运行环境为Matlab 2022a/2024b;3. 提供部分核心程序,完整版含中文注释及操作视频;4. 理论概述:结合时间卷积神经网络(TCN)与鲸鱼优化算法(WOA),优化TCN超参数以提升非线性时间序列预测性能。通过因果卷积层与残差连接构建TCN模型,并用WOA调整卷积核大小、层数等参数,实现精准预测。适用于金融、气象等领域决策支持。
|
5月前
|
机器学习/深度学习 数据采集 并行计算
基于WOA鲸鱼优化的TCN时间卷积神经网络时间序列预测算法matlab仿真
本内容介绍了一种基于TCN(Temporal Convolutional Network)与WOA(Whale Optimization Algorithm)的时间序列预测算法。TCN通过扩张卷积捕捉时间序列长距离依赖关系,结合批归一化和激活函数提取特征;WOA用于优化TCN网络参数,提高预测精度。算法流程包括数据归一化、种群初始化、适应度计算及参数更新等步骤。程序基于Matlab2022a/2024b开发,完整版含详细中文注释与操作视频,运行效果无水印展示。适用于函数优化、机器学习调参及工程设计等领域复杂任务。
|
5月前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于PSO粒子群优化TCN-GRU时间卷积神经网络时间序列预测算法matlab仿真
本内容涵盖基于粒子群优化(PSO)与时间卷积神经网络(TCN)的时间序列预测算法。完整程序运行效果无水印,适用于Matlab2022a版本。核心代码配有详细中文注释及操作视频。理论部分阐述了传统方法(如ARIMA)在非线性预测中的局限性,以及TCN结合PSO优化超参数的优势。模型由因果卷积层和残差连接组成,通过迭代训练与评估选择最优超参数,最终实现高精度预测,广泛应用于金融、气象等领域。