暴力涨点 | IC-Conv使用高效空洞搜索Inception卷积带来全领域涨点(文末附论文下载)(二)

简介: 暴力涨点 | IC-Conv使用高效空洞搜索Inception卷积带来全领域涨点(文末附论文下载)(二)

4. 方法原理


4.1 问题数学描述

为了充分探索ERF拟合中膨胀的灵活性,本文考虑一个完整的膨胀域,即Inception卷积。Inception卷积对每个通道中的两个轴有独立的膨胀,其形式上表示为:

image.png

其中和是滤波器在第个输出通道的轴和轴上从1到的膨胀, 为输出通道数。单个Inception卷积的候选结构号是。

本文的目标是开发出一种新的算法,通过选择集合来有效地拟合不同任务之间的ERF。

4.2 问题的解决之道

DART和SPOS是NAS方法的两大主流家族。然而,由于Inception卷积包含种膨胀模式和个候选项,因此DART和SPOS都不能像前面所讨论的那样应用在本方法的领域中进行有效的搜索。

有实验证明DART在两个单独的数据集上交替训练体系结构权重和操作权重,并使用体系结构权重来表示相应操作的重要性。尽管得到的体系结构权重可能在操作之间均匀分布,但以这种方式获得的操作仍然包含一个良好的网络。预先训练的超网络中的权值具有指导操作选择的信息。在这项工作中作者遵循这一思想,并制定一个统计优化问题。

1 超网络

给定一个网络体系结构和它需要适应的任务,用设计超网络保留它的体系结构,同时改变内核大小以覆盖所有候选膨胀模式。形式上,对于核大小为的卷积层,在超网络中将其替换为,这是所有候选膨胀模式的最大宽度和高度。超网络在给定的任务上进行了预训练。

2 统计优化

对于每一个权值为的卷积层,将定义为在超网络中展开的第个卷积核的权值,表示从裁剪出来的膨胀式卷积核,其位置由和确定。这里将膨胀选择表述为一个优化问题,在此问题中,预训练的膨胀权值的输出期望与裁剪的膨胀权值之间的误差最小,正式表达为:

上式,是Batch为、高为、宽为卷积层的输入,由于和与无关,优化目标进一步表示为:

要准确地解决上述问题,需要进行进一步的计算,在整个训练数据集上平均。假设经过了BN操作,并且每个通道的都有相同的和值来参与计算和训练。结合和之间的移位不变性以及之间的置换不变性,可以得出在所有位置之间的分布相同,目标也可以更加简化:

其中为中所有位置的期望,为与shape相同的全1矩阵。通过以上推导,可以通过独立遍历所有的膨胀模式。

4.3 方法讨论

1、与DART的关系

在DART算法种操作是串行计算的,总cost为。然而,在EDO算法中操作是并行计算的,总cost为。对于大多数CNN来说通常为1,于是仅为在设置为时的56%。

因此,EDO比DART的计算效率更高。此外,在某些情况下,由于结构参数的矩阵主特征值较大,使得DART退化为随机抽样。然而EDO在预训练的网络权值上直接定义了统计优化问题,而不是引入不鲁棒的结构参数。

2、与NATS和CRNAS的关系

CRNAS在每个阶段独立搜索扩张,因此是基于SPOS的。

NATS将卷积分成若干组,并在几个扩张模式(通常为5个模式)中为每组用DART搜索。

Inception卷积是通道式的,包含所有在最大膨胀下的膨胀模式(至少16种)。提议的方法的流程如图所示:

5 实验

5.1 图像识别

5.2 目标检测

5.3 实例分割

5.4 人体姿态估计

5.5 与其他dilation search对比

只想说一句话总结,太厉害了,全领域提升!!!!

相关文章
|
3月前
|
机器学习/深度学习 数据可视化 测试技术
YOLO11实战:新颖的多尺度卷积注意力(MSCA)加在网络不同位置的涨点情况 | 创新点如何在自己数据集上高效涨点,解决不涨点掉点等问题
本文探讨了创新点在自定义数据集上表现不稳定的问题,分析了不同数据集和网络位置对创新效果的影响。通过在YOLO11的不同位置引入MSCAAttention模块,展示了三种不同的改进方案及其效果。实验结果显示,改进方案在mAP50指标上分别提升了至0.788、0.792和0.775。建议多尝试不同配置,找到最适合特定数据集的解决方案。
1026 0
|
6月前
|
机器学习/深度学习 存储 测试技术
【YOLOv10改进-注意力机制】iRMB: 倒置残差移动块 (论文笔记+引入代码)
YOLOv10专栏介绍了融合CNN与Transformer的iRMB模块,用于轻量级模型设计。iRMB在保持高效的同时结合了局部和全局信息处理,减少了资源消耗,提升了移动端性能。在ImageNet等基准上超越SOTA,且在目标检测等任务中表现优秀。代码示例展示了iRMB的实现细节,包括自注意力机制和卷积操作的整合。更多配置信息见相关链接。
|
8月前
|
机器学习/深度学习 存储 测试技术
【YOLOv8改进】iRMB: 倒置残差移动块 (论文笔记+引入代码)
该专栏聚焦YOLO目标检测的创新改进与实战案例,提出了一种融合CNN和Transformer优点的轻量级模型——倒置残差移动块(iRMB)。iRMB旨在平衡参数、运算效率与性能,适用于资源有限的移动端。通过集成多头自注意力和卷积,iRMB在ImageNet-1K等基准上超越SOTA,同时在iPhone14上展现出比EdgeNeXt快2.8-4.0倍的速度。此外,iRMB设计简洁,适用于各种计算机视觉任务,展示出良好的泛化能力。代码示例展示了iRMB模块的实现细节。更多详细信息和配置可在相关链接中找到。
|
6月前
|
机器学习/深度学习 计算机视觉
【YOLOv10改进-注意力机制】 MSDA:多尺度空洞注意力 (论文笔记+引入代码)
YOLO目标检测专栏探讨了ViT的改进,提出DilateFormer,它结合多尺度扩张注意力(MSDA)来平衡计算效率和关注域大小。MSDA利用局部稀疏交互减少冗余,通过不同头部的扩张率捕获多尺度特征。DilateFormer在保持高性能的同时,计算成本降低70%,在ImageNet-1K、COCO和ADE20K任务上取得领先结果。YOLOv8引入了MultiDilatelocalAttention模块,用于实现膨胀注意力。更多详情及配置见相关链接。
|
7月前
|
机器学习/深度学习 编解码 计算机视觉
【YOLOv8改进】D-LKA Attention:可变形大核注意力 (论文笔记+引入代码)
YOLO目标检测专栏探讨了Transformer在医学图像分割的进展,但计算需求限制了模型的深度和分辨率。为此,提出了可变形大核注意力(D-LKA Attention),它使用大卷积核捕捉上下文信息,通过可变形卷积适应数据模式变化。D-LKA Net结合2D和3D版本的D-LKA Attention,提升了医学分割性能。YOLOv8引入了可变形卷积层以增强目标检测的准确性。相关代码和任务配置可在作者博客找到。
|
8月前
|
计算机视觉
【YOLOv8改进】 MSDA:多尺度空洞注意力 (论文笔记+引入代码)
该文介绍了DilateFormer,一种新提出的视觉变换器,它在计算效率和关注接受域之间取得平衡。通过分析ViTs,发现浅层的局部性和稀疏性,提出了多尺度扩张注意力(MSDA),用于局部、稀疏的块交互。DilateFormer结合MSDA块和全局多头自注意力块,形成金字塔架构,实现各视觉任务的顶尖性能。与现有最佳模型相比,在ImageNet-1K分类任务上,DilateFormer性能相当但计算成本降低70%,同时在COCO检测/分割和ADE20K语义分割任务上表现优秀。文章还展示了MSDA的创新点,包括多尺度聚合、局部稀疏交互和减少自注意力冗余。此外,
|
7月前
|
机器学习/深度学习
【保姆级教程|YOLOv8改进】【7】多尺度空洞注意力(MSDA),DilateFormer实现暴力涨点
【保姆级教程|YOLOv8改进】【7】多尺度空洞注意力(MSDA),DilateFormer实现暴力涨点
|
8月前
|
机器学习/深度学习 测试技术 网络架构
【YOLOv8改进】MSCA: 多尺度卷积注意力 (论文笔记+引入代码).md
SegNeXt是提出的一种新的卷积网络架构,专注于语义分割任务,它证明了卷积注意力在编码上下文信息上优于自注意力机制。该模型通过结合深度卷积、多分支深度卷积和1x1逐点卷积实现高效性能提升。在多个基准测试中,SegNeXt超越了现有最佳方法,如在Pascal VOC 2012上达到90.6%的mIoU,参数量仅为EfficientNet-L2 w/ NAS-FPN的1/10。此外,它在ADE20K数据集上的mIoU平均提高了2.0%,同时保持相同的计算量。YOLOv8中引入了名为MSCAAttention的模块,以利用这种多尺度卷积注意力机制。更多详情和配置可参考相关链接。
|
8月前
|
机器学习/深度学习 计算机视觉
【YOLOv8改进-论文笔记】RFAConv:感受野注意力卷积,创新空间注意力
【YOLO目标检测专栏】探索空间注意力局限,提出感受野注意力(RFA)机制,解决卷积核参数共享问题。RFAConv增强大尺寸卷积核处理能力,不增加计算成本,提升网络性能。已在YOLOv8中实现,详情见YOLO目标检测创新改进与实战案例专栏。
|
8月前
YOLOv8改进 | Neck篇 | 2024.1最新MFDS-DETR的HS-FPN改进特征融合层(降低100W参数,全网独家首发)
YOLOv8改进 | Neck篇 | 2024.1最新MFDS-DETR的HS-FPN改进特征融合层(降低100W参数,全网独家首发)
431 2