摘要
大规模视觉预训练显著提高了大型视觉模型的性能。然而,我们观察到现有的低FLOPs模型无法从大规模预训练中受益。在本文中,我们引入了一种新的设计原则,称为ParameterNet,旨在在大规模视觉预训练模型中增加参数数量的同时,将FLOPs的增加最小化。我们利用动态卷积在网络中引入额外参数,而FLOPs的增加仅为微量。ParameterNet方法使低FLOPs网络能够利用大规模视觉预训练。此外,我们将ParameterNet概念扩展到语言领域,以在保持推理速度的同时增强推理结果。在大规模ImageNet-22K数据集上的实验表明了ParameterNet方案的优越性。例如,ParameterNet-600M在ImageNet上的准确率比广泛使用的Swin Transformer更高(81.6% vs. 80.9%),且其FLOPs更低(0.6G vs. 4.5G)。在语言领域,增强了ParameterNet的LLaMA-1B比原始LLaMA提高了2%的准确率。代码将发布在 https://parameternet.github.io/。
文章链接
论文地址:论文地址
代码地址:代码地址
基本原理
动态卷积
动态卷积(Dynamic Convolution)是一种卷积操作的变体,旨在增强卷积神经网络(CNN)的表达能力和适应性。与传统的静态卷积不同,动态卷积通过生成一组动态变化的卷积核来处理输入数据。这些卷积核在每次前向传播时都根据输入数据或特定的条件进行调整,从而使网络能够更好地适应不同的输入特征。
具体来说,动态卷积有以下几个特点:
条件生成卷积核:卷积核的权重不再是固定的,而是根据输入特征生成的。通常会使用一个辅助网络(如一个小型的MLP)来生成这些卷积核。
自适应性强:由于卷积核是根据每个输入数据生成的,这使得动态卷积能够更好地捕捉不同输入之间的差异,增强模型的表达能力和泛化能力。
计算效率:尽管动态卷积引入了额外的计算量,但通过适当的设计,这些额外的计算开销通常是可以接受的,特别是在考虑其带来的性能提升时。
应用场景广泛:动态卷积已经在多个任务中展示了其有效性,包括图像分类、目标检测、语义分割等。
动态卷积的一种典型实现方式如下:
- 首先,对输入特征进行处理,生成一组用于卷积的权重。
- 然后,使用这些动态生成的权重进行卷积操作,从而得到输出特征。
例如,在图像分类任务中,动态卷积可以通过根据输入图像的特征动态生成卷积核,从而使模型在处理不同类型的图像时更具适应性和鲁棒性。
ParameterNet
本文提出了一种名为ParameterNet的方案,旨在解决低FLOPs陷阱(low FLOPs pitfall)问题。其设计原则是在增加模型参数数量的同时,尽量保持低FLOPs特性。本文主要探讨了一种高效的方法,即动态卷积(Dynamic Convolution),它能够在几乎不增加额外FLOPs的情况下增加参数数量。
设输入特征为 $X \in \mathbb{R}^{C{\text{in}} \times H \times W}$,权重特征为 $W \in \mathbb{R}^{C{\text{out}} \times C_{\text{in}} \times K \times K}$,卷积操作可以表示为:
$$ Y = X * W $$
其中,$Y \in \mathbb{R}^{C_{\text{out}} \times H' \times W'}$ 是输出特征。
具有 $M$ 个动态专家的动态卷积操作可以表示为:
$$ Y = X * W' $$
$$ Y = \sum_{i=1}^{M} \alpha_i (X * W_i) $$
其中,$Wi \in \mathbb{R}^{C{\text{out}} \times C_{\text{in}} \times K \times K}$ 是第 $i$ 个动态卷积核的参数,$\alpha_i$ 是对应的动态超参数,随不同的输入而动态生成。典型的生成策略如下:对于输入 $X$,应用全局平均池化将信息融合到一个向量中,然后使用具有softmax激活的两层MLP模块动态生成系数 $\alpha$。
$$ \alpha = \text{softmax}(\text{MLP}(\text{GAP}(X))) $$
其中,$\alpha \in \mathbb{R}^M$。
复杂度分析
计算动态卷积和普通卷积的参数量之比:
$$ \begin{aligned} R_{param}& =\frac{C_{in}^2+C_{in}M+M\cdot C_{out}\cdot C_{in}\cdot K\cdot K}{C_{out}\cdot C_{in}\cdot K\cdot K} \\ &=\frac{C_{in}}{C_{out}\cdot K\cdot K}+\frac M{C_{out}\cdot K\cdot K}+M \\ &\approx\frac{1}{K^{2}}+M.\quad(M<
计算动态卷积和普通卷积的FLOPs之比:
$$ \begin{aligned} R_{flops}& =\frac{C_{in}^2+C_{in}M+M\cdot C_{out}\cdot C_{in}\cdot K\cdot K+H^{\prime}\cdot W^{\prime}\cdot C_{out}\cdot C_{in}\cdot K\cdot K}{H^{\prime}\cdot W^{\prime}\cdot C_{out}\cdot C_{in}\cdot K\cdot K} \\ &=\frac{C_{in}}{H^{\prime}\cdot W^{\prime}\cdot C_{out}\cdot K\cdot K}+\frac M{H^{\prime}\cdot W^{\prime}\cdot C_{out}\cdot K\cdot K}+\frac M{H^{\prime}\cdot W^{\prime}}+1 \\ &\approx1.\quad(1
可以看到,动态卷积和普通卷积的参数量之比为 $M$,而其FLOPs基本一致。这表明,每个动态卷积的参数量大约为常规卷积的 $M$ 倍,且计算量的增加可以忽略不计。
yolov8 代码引入
class DynamicConv(nn.Module):
"""动态卷积层,使用条件卷积(CondConv2d)实现。"""
def __init__(self, in_features, out_features, kernel_size=1, stride=1, padding='', dilation=1,
groups=1, bias=False, num_experts=4):
"""
初始化动态卷积层。
参数:
in_features : 输入特征通道数
out_features : 输出特征通道数
kernel_size : 卷积核大小
stride : 步长
padding : 填充
dilation : 膨胀系数
groups : 组数
bias : 是否使用偏置
num_experts : 专家数量(用于CondConv2d)
"""
super().__init__()
# 路由层,用于计算每个专家的权重
self.routing = nn.Linear(in_features, num_experts)
# 条件卷积层,实现动态卷积
self.cond_conv = CondConv2d(in_features, out_features, kernel_size, stride, padding, dilation,
groups, bias, num_experts)
def forward(self, x):
"""前向传播函数,实现动态路由和条件卷积的应用。"""
# 先对输入进行全局平均池化,并展平
pooled_inputs = F.adaptive_avg_pool2d(x, 1).flatten(1)
# 计算路由权重
routing_weights = torch.sigmoid(self.routing(pooled_inputs))
# 应用条件卷积
x = self.cond_conv(x, routing_weights)
return x
task与yaml配置
详见:https://blog.csdn.net/shangyanaf/article/details/139395420