即插即用模块 | CompConv卷积让模型不丢精度还可以提速(附论文下载)

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 即插即用模块 | CompConv卷积让模型不丢精度还可以提速(附论文下载)

1简介


卷积神经网络(CNN)在各种计算机视觉任务中取得了显著的成功,但其也依赖于巨大的计算成本。为了解决这个问题,现有的方法要么压缩训练大规模模型,要么学习具有精心设计的网络结构的轻量级模型。在这项工作中,作者仔细研究了卷积算子以减少其计算负载。特别是,本文提出了一个紧凑的卷积模块,称为CompConv,以促进高效的特征学习。通过分治法的策略,CompConv能够节省大量的计算和参数来生成特定维度的特征图。

此外,CompConv将输入特征集成到输出中以有效地继承输入信息。更重要的是CompConv是一个即插即用模块,可以直接应用于CNN结构,无需进一步设计即可替换普通卷积层。大量的实验结果表明,CompConv可以充分压缩baseline CNN结构,同时几乎不牺牲性能。

本文主要贡献

  • 提出了一种紧凑的卷积模块CompConv,它利用了分治法策略和精心设计的相同映射大大降低了CNN的计算代价。
  • 通过研究递归计算对学习能力的影响,对所提出的CompConv进行了详尽的分析。进一步提出了一个切实可行的压缩率控制方案。
  • 作为传统卷积层的方便替代作者将CompConv应用于各种benchmark。结果表明,CompConv可以大幅节省计算负载,但几乎不牺牲模型在分类和检测任务上的性能的情况下,CompConv方法优于现有的方法。

2本文方法


2.1 动机何在?

卷积可以被视为一种将特征从一个空间映射到另一个空间的操作。在某种程度上,这个过程类似于离散傅里叶变换(DFT),将信号序列从时域映射到频域。快速傅里叶变换(FFT)被广泛用于提高DFT的计算速度。所以本文通过分治策略来压缩普通的卷积模块:CompConv。

回顾一下FFT的公式。在时域对个信号序列进行DFT时,FFT提出将其分割成2个个子序列,分别记为和,并对每个子序列进行DFT。这里和分别代表“偶”和“奇”。据此,由中间变换结果和得到频域的最终结果:

其中是一个乘数。在此基础上,可将分解后的结果和进一步划分为更小的分组,形成递归计算的方式。

2.2 CompConv核心单元

在FFT的启发下,作者将分治策略引入到卷积模块中以提高其计算效率。通过类比,将由CNN生成的中间特征映射视为通道轴的序列。更具体地说,要开发带有C通道的特性映射,可以选择开发2个特性映射和,每个特性映射都使用个通道,然后将它们组合在一起:

其中+表示沿通道轴的拼接操作,W是用于变换特征映射的可学习参数。

上式体现了CompConv的核心思想。具体来说,CompConv的核心单元由2部分实现,如图2所示。其中一个部分(即)从输入通道的子集完全映射过来,它能够轻松地从输入中继承信息。另一部分(即)通过卷积模块从输入特征转化而来。

2.3 递归计算

根据式(2)中的公式,将进一步分解为2部分,可递归计算出CompConv:

其中d为递归深度。

Tailing Channels

将第1个分离步骤与其他步骤区别对待,如图2所示。具体来说,不是直接从输入中来的,而是从转化而来的。

这样做主要有2个原因:

  • 一方面,在所有相同的部件中,的通道最多。如果直接将一些输入通道复制为,那么输入特征映射和输出特征映射之间会有过多的冗余,严重限制了该模块的学习能力。
  • 另一方面,除了从转换之外,还有一些其他方法可以获得,例如从整个输入特征映射或构建另一个递归。其中,从开发是计算成本最低的一种方法。同时,的推导已经从输入特征中收集了足够的信息,因此学习能力也可以保证。

整合递归结果

为了更好地利用递归过程中的计算,最终的输出不仅通过分组两个最大的子特征得到,并综合了所有中间结果,如图2所示。这样就可以充分利用所有的计算操作来产生最终的输出。此外,在这些特征映射的连接之后会添加一个shuffle block。

2.4 Adaptive Separation策略

CompConv采用分治策略进行高效的特征学习。因此,如何对通道进行递归分割是影响通道计算效率和学习能力的关键。这里分别用和表示输入通道数和输出通道数。为图2中d=3时最小计算单元的通道数,如。考虑到递归计算过程中通道数的指数增长,可以预期:

可以很容易得到以下结果:

其中[]表示使为整数的上限函数。如果所有单元的通道之和大于,就简单地放入最后一些通道以确保输出特征具有适当的尺寸。

递归计算深度的选择

由式(5)可知高度依赖于递归深度d,这是CompConv模块中的一个超参数。较大的d对应较高的压缩率,其中d=0表示没有压缩。针对现代神经网络不同的结构和不同的模型尺度,作者提出了一种自适应的深度选择策略:

在这里,是一个特定于模型的设计选择,由目标压缩率和模型大小决定([32;64;128;256;512;···])。从直觉上看,越大,d越小,压缩越轻。从这个角度来看,可以用来控制计算效率和学习能力之间的权衡。

值得注意的是,递归深度d与Eq.(6)中输入通道的数量有关,这意味着自适应策略会在不同层动态调整计算深度。同时,为了保证最小单元有足够的学习能力,要给它分配了足够的通道。换句话说,不能太小。从Eq.(5)可以看出,当d=3时,只占输出通道的约8%。因此,作者将深度d限定为最大值3。

推荐配置

对于最受欢迎的CNN网络,如VGG和ResNet,建议设置=128。作者将此配置表示为CompConv128

2.5 复杂度分析

假设输入和输出特征图的分辨率都是H×W,那么普通卷积和CompConv的计算复杂度分别是:

其中k为卷积核的大小。

在和d=3的配置下,与传统卷积相比,CompConv只需要约20%的计算资源就可以开发具有相同通道数的输出特征。


3实验


3.1 ImageNet分类

模型结构为使用CompConv替换普通CNN的ResNet50模型,实验结果如下:

可以看出,性价比很高的!!!

3.2 COCO目标检测


4参考


[1].CompConv: A Compact Convolution Module for Efficient Feature Learning

相关文章
|
22天前
|
机器学习/深度学习 自然语言处理 并行计算
社区供稿 | Para-Former:DUAT理论指导下的CV神经网络并行化,提速多层模型推理
神经网络正越来越多地朝着使用大数据训练大型模型的方向发展,这种解决方案在许多任务中展现出了卓越的性能。然而,这种方法也引入了一个迫切需要解决的问题:当前的深度学习模型基于串行计算,这意味着随着网络层数的增加,训练和推理时间也会随之增长。
|
1月前
|
机器学习/深度学习
苹果发布高效双EMA梯度优化方法,适配Transformer、Mamba模型
苹果公司在arXiv上发布论文《The AdEMAMix Optimizer: Better, Faster, Older》,提出了一种基于双指数移动平均(EMA)的新型优化器AdEMAMix。该优化器通过使用快速和慢速EMA,同时利用近期和远期梯度信息,显著提升了模型训练的速度和效果。实验表明,AdEMAMix在语言建模和图像分类等任务上表现出色,尤其在大型语言模型的训练中,相比传统优化器如AdamW,训练效率提高了95%。
76 32
|
29天前
|
机器学习/深度学习 人工智能 计算机视觉
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
字节跳动豆包大模型团队提出“超连接”创新方法,突破残差连接局限,引入可学习的深度和宽度连接,动态调整网络层间连接强度。该方法在大型语言模型预训练中实现最快收敛速度,加速80%,并在图像生成、分类等任务中表现出色,显著提升准确率和稳定性。论文链接:https://arxiv.org/pdf/2409.19606
61 5
|
6月前
|
机器学习/深度学习 计算机视觉
【YOLOv8改进- Backbone主干】YOLOv8更换主干网络之ConvNexts,纯卷积神经网络,更快更准,,降低参数量!
YOLOv8专栏探讨了针对目标检测的ConvNet创新,提出ConvNeXt模型,它挑战Transformer在视觉任务中的主导地位。ConvNeXt通过增大卷积核、使用GeLU激活、切换到LayerNorm和改进下采样层,提升了纯ConvNet性能,达到与Transformer相当的准确率和效率。论文和代码已公开。
|
8月前
|
机器学习/深度学习 自然语言处理 测试技术
SUPRA:无须额外训练,将Transformer变为高效RNN,推理速度倍增
`Transformers`模型因其在多种任务上的优秀性能而广泛采用,但其内存需求和推理成本随词元数量指数增长。为解决这一问题,论文《Linearizing Large Language Models》提出`SUPRA`方法,将预训练的`Transformers`转换为递归神经网络(RNN),实现有效推理并降低训练成本至原来的5%。`SUPRA`通过将注意力机制线性化并用`GroupNorm`替代`softmax`,保持预训练模型的优势。经过微调,转换后的模型在标准语言理解和长上下文任务中保持高性能,展示了在长序列处理方面的潜力,但仍有改进空间。
163 2
|
8月前
|
机器学习/深度学习 算法 PyTorch
【SAHI】即插即用| SAHI操作可有效解决小目标检测过程中的难点!实现涨点
【SAHI】即插即用| SAHI操作可有效解决小目标检测过程中的难点!实现涨点
493 1
|
8月前
|
机器学习/深度学习 算法 数据可视化
YOLO+混合注意力机制 | YOLOv5再加4.3%才可以做对手,Transformer混合设计依旧可以卷
YOLO+混合注意力机制 | YOLOv5再加4.3%才可以做对手,Transformer混合设计依旧可以卷
252 0
|
8月前
|
机器学习/深度学习 并行计算 算法
模型压缩部署神技 | CNN与Transformer通用,让ConvNeXt精度几乎无损,速度提升40%
模型压缩部署神技 | CNN与Transformer通用,让ConvNeXt精度几乎无损,速度提升40%
162 0
|
机器学习/深度学习 负载均衡 关系型数据库
详细解读 Transformer的即插即用模块 | MoE插件让ViT模型更宽、更快、精度更高
详细解读 Transformer的即插即用模块 | MoE插件让ViT模型更宽、更快、精度更高
854 0
|
机器学习/深度学习 PyTorch 算法框架/工具
即插即用 | 超越CBAM,全新注意力机制,GAM不计成本提高精度(附Pytorch实现)
即插即用 | 超越CBAM,全新注意力机制,GAM不计成本提高精度(附Pytorch实现)
915 0

热门文章

最新文章