【YOLOv8改进】 ParameterNet:DynamicConv(Dynamic Convolution):2024最新动态卷积

简介: **摘要**ParameterNet是新提出的框架,旨在让低FLOPs模型也能受益于大规模视觉预训练,通过动态卷积在增加参数量的同时控制计算量。动态卷积利用条件生成的卷积核增强模型适应性。在ImageNet上,ParameterNet-600M在准确性上超过Swin Transformer,且FLOPs更低。该方法也被拓展至语言领域,提升LLaMA模型性能。代码可在<https://parameternet.github.io/>获取。

摘要

大规模视觉预训练显著提高了大型视觉模型的性能。然而,我们观察到现有的低FLOPs模型无法从大规模预训练中受益。在本文中,我们引入了一种新的设计原则,称为ParameterNet,旨在在大规模视觉预训练模型中增加参数数量的同时,将FLOPs的增加最小化。我们利用动态卷积在网络中引入额外参数,而FLOPs的增加仅为微量。ParameterNet方法使低FLOPs网络能够利用大规模视觉预训练。此外,我们将ParameterNet概念扩展到语言领域,以在保持推理速度的同时增强推理结果。在大规模ImageNet-22K数据集上的实验表明了ParameterNet方案的优越性。例如,ParameterNet-600M在ImageNet上的准确率比广泛使用的Swin Transformer更高(81.6% vs. 80.9%),且其FLOPs更低(0.6G vs. 4.5G)。在语言领域,增强了ParameterNet的LLaMA-1B比原始LLaMA提高了2%的准确率。代码将发布在 https://parameternet.github.io/。

文章链接

论文地址:论文地址

代码地址:代码地址

基本原理

动态卷积

动态卷积(Dynamic Convolution)是一种卷积操作的变体,旨在增强卷积神经网络(CNN)的表达能力和适应性。与传统的静态卷积不同,动态卷积通过生成一组动态变化的卷积核来处理输入数据。这些卷积核在每次前向传播时都根据输入数据或特定的条件进行调整,从而使网络能够更好地适应不同的输入特征。

具体来说,动态卷积有以下几个特点:

  1. 条件生成卷积核:卷积核的权重不再是固定的,而是根据输入特征生成的。通常会使用一个辅助网络(如一个小型的MLP)来生成这些卷积核。

  2. 自适应性强:由于卷积核是根据每个输入数据生成的,这使得动态卷积能够更好地捕捉不同输入之间的差异,增强模型的表达能力和泛化能力。

  3. 计算效率:尽管动态卷积引入了额外的计算量,但通过适当的设计,这些额外的计算开销通常是可以接受的,特别是在考虑其带来的性能提升时。

  4. 应用场景广泛:动态卷积已经在多个任务中展示了其有效性,包括图像分类、目标检测、语义分割等。

动态卷积的一种典型实现方式如下:

  • 首先,对输入特征进行处理,生成一组用于卷积的权重。
  • 然后,使用这些动态生成的权重进行卷积操作,从而得到输出特征。

例如,在图像分类任务中,动态卷积可以通过根据输入图像的特征动态生成卷积核,从而使模型在处理不同类型的图像时更具适应性和鲁棒性。

ParameterNet

本文提出了一种名为ParameterNet的方案,旨在解决低FLOPs陷阱(low FLOPs pitfall)问题。其设计原则是在增加模型参数数量的同时,尽量保持低FLOPs特性。本文主要探讨了一种高效的方法,即动态卷积(Dynamic Convolution),它能够在几乎不增加额外FLOPs的情况下增加参数数量。

设输入特征为 $X \in \mathbb{R}^{C{\text{in}} \times H \times W}$,权重特征为 $W \in \mathbb{R}^{C{\text{out}} \times C_{\text{in}} \times K \times K}$,卷积操作可以表示为:

$$ Y = X * W $$

其中,$Y \in \mathbb{R}^{C_{\text{out}} \times H' \times W'}$ 是输出特征。

具有 $M$ 个动态专家的动态卷积操作可以表示为:
$$ Y = X * W' $$

$$ Y = \sum_{i=1}^{M} \alpha_i (X * W_i) $$

其中,$Wi \in \mathbb{R}^{C{\text{out}} \times C_{\text{in}} \times K \times K}$ 是第 $i$ 个动态卷积核的参数,$\alpha_i$ 是对应的动态超参数,随不同的输入而动态生成。典型的生成策略如下:对于输入 $X$,应用全局平均池化将信息融合到一个向量中,然后使用具有softmax激活的两层MLP模块动态生成系数 $\alpha$。

$$ \alpha = \text{softmax}(\text{MLP}(\text{GAP}(X))) $$

其中,$\alpha \in \mathbb{R}^M$。

复杂度分析

计算动态卷积和普通卷积的参数量之比:

$$ \begin{aligned} R_{param}& =\frac{C_{in}^2+C_{in}M+M\cdot C_{out}\cdot C_{in}\cdot K\cdot K}{C_{out}\cdot C_{in}\cdot K\cdot K} \\ &=\frac{C_{in}}{C_{out}\cdot K\cdot K}+\frac M{C_{out}\cdot K\cdot K}+M \\ &\approx\frac{1}{K^{2}}+M.\quad(M<

计算动态卷积和普通卷积的FLOPs之比:
$$ \begin{aligned} R_{flops}& =\frac{C_{in}^2+C_{in}M+M\cdot C_{out}\cdot C_{in}\cdot K\cdot K+H^{\prime}\cdot W^{\prime}\cdot C_{out}\cdot C_{in}\cdot K\cdot K}{H^{\prime}\cdot W^{\prime}\cdot C_{out}\cdot C_{in}\cdot K\cdot K} \\ &=\frac{C_{in}}{H^{\prime}\cdot W^{\prime}\cdot C_{out}\cdot K\cdot K}+\frac M{H^{\prime}\cdot W^{\prime}\cdot C_{out}\cdot K\cdot K}+\frac M{H^{\prime}\cdot W^{\prime}}+1 \\ &\approx1.\quad(1

可以看到,动态卷积和普通卷积的参数量之比为 $M$,而其FLOPs基本一致。这表明,每个动态卷积的参数量大约为常规卷积的 $M$ 倍,且计算量的增加可以忽略不计。

yolov8 代码引入

class DynamicConv(nn.Module):
    """动态卷积层,使用条件卷积(CondConv2d)实现。"""
    def __init__(self, in_features, out_features, kernel_size=1, stride=1, padding='', dilation=1,
                 groups=1, bias=False, num_experts=4):
        """
        初始化动态卷积层。
        参数:
        in_features : 输入特征通道数
        out_features : 输出特征通道数
        kernel_size : 卷积核大小
        stride : 步长
        padding : 填充
        dilation : 膨胀系数
        groups : 组数
        bias : 是否使用偏置
        num_experts : 专家数量(用于CondConv2d)
        """
        super().__init__()
        # 路由层,用于计算每个专家的权重
        self.routing = nn.Linear(in_features, num_experts)
        # 条件卷积层,实现动态卷积
        self.cond_conv = CondConv2d(in_features, out_features, kernel_size, stride, padding, dilation,
                                    groups, bias, num_experts)

    def forward(self, x):
        """前向传播函数,实现动态路由和条件卷积的应用。"""
        # 先对输入进行全局平均池化,并展平
        pooled_inputs = F.adaptive_avg_pool2d(x, 1).flatten(1)
        # 计算路由权重
        routing_weights = torch.sigmoid(self.routing(pooled_inputs))
        # 应用条件卷积
        x = self.cond_conv(x, routing_weights)
        return x

task与yaml配置

详见:https://blog.csdn.net/shangyanaf/article/details/139395420

相关文章
|
机器学习/深度学习 算法 Python
【DYConv】CVPR2020 | 即插即用的动态卷积模块助力你涨点
【DYConv】CVPR2020 | 即插即用的动态卷积模块助力你涨点
1616 1
【DYConv】CVPR2020 | 即插即用的动态卷积模块助力你涨点
|
7月前
|
计算机视觉
YOLOv11改进策略【卷积层】| CVPR-2024 利用DynamicConv 动态卷积 结合C3k2进行二次创新,提高精度
YOLOv11改进策略【卷积层】| CVPR-2024 利用DynamicConv 动态卷积 结合C3k2进行二次创新,提高精度
551 0
|
机器学习/深度学习 并行计算 算法
YOLOv8改进 | 卷积篇 |手把手教你添加动态蛇形卷积(Dynamic Snake Convolution)
YOLOv8改进 | 卷积篇 |手把手教你添加动态蛇形卷积(Dynamic Snake Convolution)
1318 0
|
11月前
|
机器学习/深度学习 数据可视化 测试技术
YOLO11实战:新颖的多尺度卷积注意力(MSCA)加在网络不同位置的涨点情况 | 创新点如何在自己数据集上高效涨点,解决不涨点掉点等问题
本文探讨了创新点在自定义数据集上表现不稳定的问题,分析了不同数据集和网络位置对创新效果的影响。通过在YOLO11的不同位置引入MSCAAttention模块,展示了三种不同的改进方案及其效果。实验结果显示,改进方案在mAP50指标上分别提升了至0.788、0.792和0.775。建议多尝试不同配置,找到最适合特定数据集的解决方案。
2609 0
|
7月前
|
计算机视觉
RT-DETR改进策略【卷积层】| CVPR-2024 利用DynamicConv 动态卷积 结合ResNetLayer进行二次创新,提高精度
RT-DETR改进策略【卷积层】| CVPR-2024 利用DynamicConv 动态卷积 结合ResNetLayer进行二次创新,提高精度
234 9
|
机器学习/深度学习 编解码 PyTorch
CVPR 2023 | 主干网络FasterNet 核心解读 代码分析
本文分享来自CVPR 2023的论文,提出了一种快速的主干网络,名为FasterNet。核心算子是PConv,partial convolution,部分卷积,通过减少冗余计算和内存访问来更有效地提取空间特征。
9725 58
|
10月前
|
机器学习/深度学习 编解码 Java
YOLO11创新改进系列:卷积,主干 注意力,C3k2融合,检测头等创新机制(已更新100+)
《YOLO11目标检测创新改进与实战案例》专栏已更新100+篇文章,涵盖注意力机制、卷积优化、检测头创新、损失与IOU优化、轻量级网络设计等多方面内容。每周更新3-10篇,提供详细代码和实战案例,帮助您掌握最新研究和实用技巧。[专栏链接](https://blog.csdn.net/shangyanaf/category_12810477.html)
YOLO11创新改进系列:卷积,主干 注意力,C3k2融合,检测头等创新机制(已更新100+)
|
11月前
|
机器学习/深度学习 人工智能 文字识别
ultralytics YOLO11 全新发布!(原理介绍+代码详见+结构框图)
本文详细介绍YOLO11,包括其全新特性、代码实现及结构框图,并提供如何使用NEU-DET数据集进行训练的指南。YOLO11在前代基础上引入了新功能和改进,如C3k2、C2PSA模块和更轻量级的分类检测头,显著提升了模型的性能和灵活性。文中还对比了YOLO11与YOLOv8的区别,并展示了训练过程和结果的可视化
17781 0
|
并行计算 数据挖掘 PyTorch
【YOLOv8改进 - 特征融合】DySample :超轻量级且高效的动态上采样器
【YOLOv8改进 - 特征融合】DySample :超轻量级且高效的动态上采样器
【YOLOv8改进 - 特征融合】DySample :超轻量级且高效的动态上采样器
|
机器学习/深度学习 移动开发 自然语言处理
【YOLOv8改进- 多模块融合改进】GhostConv + ContextAggregation 幽灵卷积与上下文聚合模块融合改进,助力小目标高效涨点
【YOLOv8改进- 多模块融合改进】GhostConv + ContextAggregation 幽灵卷积与上下文聚合模块融合改进,助力小目标高效涨点