暴力涨点 | IC-Conv使用高效空洞搜索Inception卷积带来全领域涨点(文末附论文下载)(一)

简介: 暴力涨点 | IC-Conv使用高效空洞搜索Inception卷积带来全领域涨点(文末附论文下载)(一)

1 简介


空洞卷积(Dilation convolution)是标准卷积神经网络的关键变体,可以控制有效的感受野并处理对象的大尺度方差,而无需引入额外的计算。但是,在文献中很少讨论将有效感受野适合于具有卷积的数据。为了充分挖掘其潜力,我们提出了一种新的空洞卷积变体,即inception (dilated)卷积,其中卷积在不同轴,通道和层之间具有独立的空洞。为了探索一种将复杂的初始卷积拟合到数据的实用方法,开发了一种基于统计优化的简单而高效的空洞搜索算法(EDO,effective dilation search)。该搜索方法以零成本方式运行,该方法极其快速地应用于大规模数据集。

实证结果表明,本文方法在广泛的Baseline测试中获得了一致的性能提升。例如,通过简单地将ResNet-50主干中的3x3标准卷积替换为Inception Conv,将Faster-RCNN在MS-COCO上的mAP从36.4%提高到39.2%。此外,在ResNet-101骨干网中使用相同的替代方法,在自下而上的人体姿势估计上将AP得分从COCO val2017的AP得分从60.2%大幅提高到68.5%。


2 前人铺路


感受野是卷积神经网络的一个重要概念,也得到了广泛的研究。有学者证明了感受野的激活强度分布大致为高斯分布,只有感受野中心部分周围的少数像素有效地有助于输出神经元的响应。此外,有效感受野(ERF)已经在不同的任务中得到了测试和使用。

在不同的任务中,由于输入图像的大小差异和感兴趣对象的尺度范围不同,对ERF的要求也不同。例如,在图像分类中,输入的尺寸往往比较小(例如:而在目标检测中,输入的尺寸要大得多,目标尺度范围也很大。即使对于固定网络的同一任务,某一卷积层的最优ERF也可能与标准卷积运算不同。由于ERF的要求不断变化,需要针对不同的任务提出一种通用的、实用的ERF优化算法。

膨胀卷积核的膨胀系数是一个非常有效的超参数,可以调节不同任务之间的ERFs分布。LG等人的工作提出在一个CNN的不同阶段分配不同的膨胀值,并取得了一致的改进。NATS更进一步,将卷积分成不同的组,每个组都有独立的扩张值。但是在相对粗糙的搜索空间中使用骨架网络架构的搜索方法,忽略了扩张卷积的细粒度内部结构。因此,在本研究中重点探讨了在膨胀域的搜索问题,以有效地调整ERFs。


3 本文方法动机


3.1 Inception卷积

首先,希望有一个更灵活的搜索空间,可以使得模型能够具备将ERFs拟合到不同数据集的能力。于是本文提出一种新的膨胀卷积突变体,即Inception卷积,它包含尽可能多的膨胀模式,如图1所示。

在Inception卷积空间中,每个轴、每个通道和每个卷积层的膨胀都是独立定义的。Inception卷积提供了一个密集的ERF范围。

3.2 搜索空间优化

对于搜索空间的优化,本文主要参考了神经结构搜索(NAS)中的工作,它能够自动优化神经网络操作符组合。DARTS和single path one-shot(SPOS)是NAS方法的两大主要家族。

DART训练一个超网络,其中离散操作选择被放松为所有候选操作输出的连续加权和。训练后,在每个块中选择体系结构权重最大的操作。

SPOS在超网络的每个训练步骤中随机选择一个操作序列(子网),不同序列中的相同操作具有相同的权值。训练后,SPOS通过对多个继承sharedweights的序列进行采样和评估,选择最佳的操作序列。

然而,DART和SPOS都不适合本文方法的搜索空间。在DART中,Block中的所有操作在训练期间应用到输入,以使体系结构权值意识到每个操作的重要性,但卷积层(block)的膨胀模式的数量很大,即16个,如果两个轴各有4个选择。这意味着DART需要16次连续计算,因此具有较低的GPU效用和较大的计算成本。

SPOS在训练过程中对操作序列进行采样。然而,在本文方法的搜索空间中,即使在单个卷积层中,膨胀模式的数量也是巨大的,其中是通道数,是最大膨胀。大量的膨胀模式给为SPOS设计好的的抽样策略带来了极大的困难。

本文提出了一种简单而高效的膨胀优化算法(EDO)。在EDO中,超网络的每一层都是一个标准的卷积操作,其内核覆盖了所有可能的膨胀模式。在对超网络进行预训练后,通过求解一个统计优化问题,为每个卷积层中的每个通道选择膨胀模式。对于每一层,通过原始卷积层的输出期望与裁剪出来的与所选膨胀模式的膨胀卷积的L1误差最小,使用预先训练好的权值来解决选择问题。

EDO以一种非常简单的方式支持完全扩张域搜索空间进行高效的通道扩张优化。与基于搜索的方法相比,EDO的搜索代价几乎为零。与差分方法相比EDO将不同模式的顺序计算转换为并行方式,计算成本更低,GPU利用率更高。此外,与SPOS相比,EDO不需要设计复杂的机制来保证抽样的公平性和子网的准确排序。

相关文章
|
3月前
|
机器学习/深度学习 数据可视化 测试技术
YOLO11实战:新颖的多尺度卷积注意力(MSCA)加在网络不同位置的涨点情况 | 创新点如何在自己数据集上高效涨点,解决不涨点掉点等问题
本文探讨了创新点在自定义数据集上表现不稳定的问题,分析了不同数据集和网络位置对创新效果的影响。通过在YOLO11的不同位置引入MSCAAttention模块,展示了三种不同的改进方案及其效果。实验结果显示,改进方案在mAP50指标上分别提升了至0.788、0.792和0.775。建议多尝试不同配置,找到最适合特定数据集的解决方案。
1026 0
|
6月前
|
机器学习/深度学习 存储 测试技术
【YOLOv10改进-注意力机制】iRMB: 倒置残差移动块 (论文笔记+引入代码)
YOLOv10专栏介绍了融合CNN与Transformer的iRMB模块,用于轻量级模型设计。iRMB在保持高效的同时结合了局部和全局信息处理,减少了资源消耗,提升了移动端性能。在ImageNet等基准上超越SOTA,且在目标检测等任务中表现优秀。代码示例展示了iRMB的实现细节,包括自注意力机制和卷积操作的整合。更多配置信息见相关链接。
|
8月前
|
机器学习/深度学习 存储 测试技术
【YOLOv8改进】iRMB: 倒置残差移动块 (论文笔记+引入代码)
该专栏聚焦YOLO目标检测的创新改进与实战案例,提出了一种融合CNN和Transformer优点的轻量级模型——倒置残差移动块(iRMB)。iRMB旨在平衡参数、运算效率与性能,适用于资源有限的移动端。通过集成多头自注意力和卷积,iRMB在ImageNet-1K等基准上超越SOTA,同时在iPhone14上展现出比EdgeNeXt快2.8-4.0倍的速度。此外,iRMB设计简洁,适用于各种计算机视觉任务,展示出良好的泛化能力。代码示例展示了iRMB模块的实现细节。更多详细信息和配置可在相关链接中找到。
|
6月前
|
机器学习/深度学习 计算机视觉
【YOLOv10改进-注意力机制】 MSDA:多尺度空洞注意力 (论文笔记+引入代码)
YOLO目标检测专栏探讨了ViT的改进,提出DilateFormer,它结合多尺度扩张注意力(MSDA)来平衡计算效率和关注域大小。MSDA利用局部稀疏交互减少冗余,通过不同头部的扩张率捕获多尺度特征。DilateFormer在保持高性能的同时,计算成本降低70%,在ImageNet-1K、COCO和ADE20K任务上取得领先结果。YOLOv8引入了MultiDilatelocalAttention模块,用于实现膨胀注意力。更多详情及配置见相关链接。
|
7月前
|
机器学习/深度学习 编解码 计算机视觉
【YOLOv8改进】D-LKA Attention:可变形大核注意力 (论文笔记+引入代码)
YOLO目标检测专栏探讨了Transformer在医学图像分割的进展,但计算需求限制了模型的深度和分辨率。为此,提出了可变形大核注意力(D-LKA Attention),它使用大卷积核捕捉上下文信息,通过可变形卷积适应数据模式变化。D-LKA Net结合2D和3D版本的D-LKA Attention,提升了医学分割性能。YOLOv8引入了可变形卷积层以增强目标检测的准确性。相关代码和任务配置可在作者博客找到。
|
8月前
|
计算机视觉
【YOLOv8改进】 MSDA:多尺度空洞注意力 (论文笔记+引入代码)
该文介绍了DilateFormer,一种新提出的视觉变换器,它在计算效率和关注接受域之间取得平衡。通过分析ViTs,发现浅层的局部性和稀疏性,提出了多尺度扩张注意力(MSDA),用于局部、稀疏的块交互。DilateFormer结合MSDA块和全局多头自注意力块,形成金字塔架构,实现各视觉任务的顶尖性能。与现有最佳模型相比,在ImageNet-1K分类任务上,DilateFormer性能相当但计算成本降低70%,同时在COCO检测/分割和ADE20K语义分割任务上表现优秀。文章还展示了MSDA的创新点,包括多尺度聚合、局部稀疏交互和减少自注意力冗余。此外,
|
7月前
|
机器学习/深度学习
【保姆级教程|YOLOv8改进】【7】多尺度空洞注意力(MSDA),DilateFormer实现暴力涨点
【保姆级教程|YOLOv8改进】【7】多尺度空洞注意力(MSDA),DilateFormer实现暴力涨点
|
8月前
|
机器学习/深度学习 测试技术 网络架构
【YOLOv8改进】MSCA: 多尺度卷积注意力 (论文笔记+引入代码).md
SegNeXt是提出的一种新的卷积网络架构,专注于语义分割任务,它证明了卷积注意力在编码上下文信息上优于自注意力机制。该模型通过结合深度卷积、多分支深度卷积和1x1逐点卷积实现高效性能提升。在多个基准测试中,SegNeXt超越了现有最佳方法,如在Pascal VOC 2012上达到90.6%的mIoU,参数量仅为EfficientNet-L2 w/ NAS-FPN的1/10。此外,它在ADE20K数据集上的mIoU平均提高了2.0%,同时保持相同的计算量。YOLOv8中引入了名为MSCAAttention的模块,以利用这种多尺度卷积注意力机制。更多详情和配置可参考相关链接。
|
8月前
|
机器学习/深度学习 计算机视觉
【YOLOv8改进-论文笔记】RFAConv:感受野注意力卷积,创新空间注意力
【YOLO目标检测专栏】探索空间注意力局限,提出感受野注意力(RFA)机制,解决卷积核参数共享问题。RFAConv增强大尺寸卷积核处理能力,不增加计算成本,提升网络性能。已在YOLOv8中实现,详情见YOLO目标检测创新改进与实战案例专栏。
|
8月前
YOLOv8改进 | Neck篇 | 2024.1最新MFDS-DETR的HS-FPN改进特征融合层(降低100W参数,全网独家首发)
YOLOv8改进 | Neck篇 | 2024.1最新MFDS-DETR的HS-FPN改进特征融合层(降低100W参数,全网独家首发)
431 2