还在用传统卷积吗?Facebook等提出全新卷积操作OctConv

简介: 论文一作陈云鹏现于新加坡国立大学读博士,师从颜水成和冯佳时,两人也是这篇论文的作者。其他作者来自Facebook AI。

整理自新智元

Facebook AI、新加坡国立大学、360 人工智能研究院的研究人员提出一种新的卷积操作OctConv,可以直接替代传统卷积,持续提高图像和视频识别任务的精度,同时降低内存和计算成本。
传统卷积运算,有了一种全新的替代方法。

image.png

论文地址:

https://export.arxiv.org/pdf/1904.05049

其中,论文一作陈云鹏现于新加坡国立大学读博士,师从颜水成和冯佳时,两人也是这篇论文的作者。其他作者来自Facebook AI。

作者表示,OctConv 是一种即插即用的卷积单元,可以直接替代传统的卷积,而无需对网络架构进行任何调整。

在自然的图像中,信息以不同的频率传递,其中较高的频率通常以精细的细节编码,较低的频率通常以全局结构编码。

类似地,卷积层的输出特征图也可以看做是不同频率的信息的混合。

在这项工作中,作者提出将混合特征映射根据其频率进行分解,并设计了一种全新的卷积运算:Octave Convolution (OctConv),用以存储和处理在较低空间分辨率下空间变化 “较慢” 的特征图,从而降低了内存和计算成本。

Octave 一词表示 “八音阶” 或 “八度”,音乐里降 8 个音阶表示频率减半。通过降低低频特征的分辨率,从而节省内存和计算。

实验表明,通过简单地用 OctConv 替代卷积,我们可以持续提高图像和视频识别任务的精度,同时降低内存和计算成本。

采用 OctConv 的 ResNet-152 仅用 22.2 GFLOPs 就能在 ImageNet 上实现 82.9% 的top-1 分类精度。

完美替代传统卷积,即插即用无需调参

卷积神经网络 (CNNs) 在许多计算机视觉任务中都取得了显著的成功,并且随着最近的研究在降低密集模型参数和特征图通道维数的固有冗余,它们的效率不断提高。然而,CNN 生成的特征图在空间维度上也存在大量冗余,其中每个位置独立存储自己的特征描述符,忽略了可以一起存储和处理的相邻位置之间的公共信息。

image.png

图 1:(a) 动机。视觉的空间频率模型的相关研究表明,自然图像可以分解为低空间频率和高空间频率两个部分。(b) 卷积层的输出图也可以根据其空间频率进行分解和分组。(c) 所提出的多频特征表示将平滑变化的低频映射存储在低分辨率张量中,以减少空间冗余。(d) 所提出的 Octave Convolution 直接作用于这个表示。它会更新每个组的信息,并进一步支持组之间的信息交换。

如图 1(a) 所示,自然图像可以分解为描述平稳变化结构的低空间频率分量和描述快速变化的精细细节的高空间频率分量。

类似地,我们认为卷积层的输出特征映射也可以分解为不同空间频率的特征,并提出了一种新的多频特征表示方法,将高频和低频特征映射存储到不同的组中,如图 1(b) 所示。因此,通过相邻位置间的信息共享,可以安全地降低低频组的空间分辨率,减少空间冗余,如图 1(c) 所示。

为了适应新的特征表示,我们提出 Octave Convolution (OctConv),它接收包含两个频率的特征映射,并直接从低频映射中提取信息,而无需解码回到高频,如图 1(d) 所示。

作为传统卷积的替代,OctConv 消耗的内存和计算资源都大大减少。此外,OctConv利用相应的 (低频) 卷积处理低频信息,有效地扩大了原始像素空间的感受野,从而提高识别性能。

我们以一种通用的方式设计 OctConv,使它成为卷积的替代,而且即插即用。由于OctConv 主要侧重于处理多空间频率的特征映射并减少其空间冗余,它与现有的方法是相交且互补的,现有的方法侧重于构建更好的 CNN 拓扑结构,减少卷积特征映射中的信道冗余和密集模型参数中的冗余。

此外,与利用多尺度信息的方法不同,OctConv 可以很容易地部署为即插即用单元,以替代卷积,而不需要改变网络结构或需要超参数调优。

我们的实验证明,通过简单地用 OctConv 代替传统卷积,可以持续提高流行的 2D CNN 模型的 ImageNet 图像识别性能,包括 ResNet ResNeXt, DenseNet, MobileNet,以及 SE-Net。

采用 OctConv 的 Oct-ResNet-152 超过了手工设计的 state-of-the-art 网络,并且所需的内存和计算成本更低。

我们的贡献可以总结如下:

  • 我们提出将卷积特征映射分解成不同空间频率的两个组,并分别以相应的频率处理不同的卷积,相隔一个八度 (octave)。由于可以降低低频图的分辨率,因此能够节省存储和计算。这也有助于每一层获得更大的感受野,以捕获更多的上下文信息。
  • 我们设计了一种即插即用的运算,名为 OctConv,用来代替传统的卷积运算。OctConv直接对新的特征表示进行运算,减少了空间冗余。更重要的是,OctConv 在实践中速度很快,达到了接近理论极限的加速。
  • 我们广泛研究了所提出的 OctConv 在用于图像和视频任务的各种骨干 CNN 上的特性,并获得了显著的性能提高,甚至可以与最好的 AutoML 网络相媲美。

文章来源:微信公众号 机器学习算法与Python学习

目录
相关文章
|
12月前
|
计算机视觉
迟到的 HRViT | Facebook提出多尺度高分辨率ViT,这才是原汁原味的HRNet思想(二)
迟到的 HRViT | Facebook提出多尺度高分辨率ViT,这才是原汁原味的HRNet思想(二)
168 0
|
12月前
|
机器学习/深度学习 编解码 数据可视化
超越 Swin、ConvNeXt | Facebook提出Neighborhood Attention Transformer
超越 Swin、ConvNeXt | Facebook提出Neighborhood Attention Transformer
106 0
|
12月前
|
机器学习/深度学习 编解码 vr&ar
迟到的 HRViT | Facebook提出多尺度高分辨率ViT,这才是原汁原味的HRNet思想(一)
迟到的 HRViT | Facebook提出多尺度高分辨率ViT,这才是原汁原味的HRNet思想(一)
163 0
|
12月前
最快ViT | FaceBook提出LeViT,0.077ms的单图处理速度却拥有ResNet50的精度(文末附论文与源码)(二)
最快ViT | FaceBook提出LeViT,0.077ms的单图处理速度却拥有ResNet50的精度(文末附论文与源码)(二)
61 0
|
12月前
|
机器学习/深度学习 编解码 数据挖掘
最快ViT | FaceBook提出LeViT,0.077ms的单图处理速度却拥有ResNet50的精度(文末附论文与源码)(一)
最快ViT | FaceBook提出LeViT,0.077ms的单图处理速度却拥有ResNet50的精度(文末附论文与源码)(一)
142 0
|
12月前
|
编解码
Facebook提出FP-NAS:搜索速度是EfficientNet的132倍且精度更高(文末获取论文)(二)
Facebook提出FP-NAS:搜索速度是EfficientNet的132倍且精度更高(文末获取论文)(二)
114 0
|
12月前
|
机器学习/深度学习 编解码 人工智能
Facebook提出FP-NAS:搜索速度是EfficientNet的132倍且精度更高(文末获取论文)(一)
Facebook提出FP-NAS:搜索速度是EfficientNet的132倍且精度更高(文末获取论文)(一)
131 0
|
机器学习/深度学习 运维 算法
华裔女博士生一作:Facebook提出用于超参数调整的自我监督学习框架
Facebook的研究人员近日提出了一种用于超参数调整的自我监督学习框架。这个新模型实现了准确预测的结果,估计超参数的速度快了6到20倍。
134 0
华裔女博士生一作:Facebook提出用于超参数调整的自我监督学习框架
|
机器学习/深度学习 自然语言处理
480万标记样本:Facebook提出「预微调」,持续提高语言模型性能
近日,Facebook的研究人员提出了一种能够改善训练语言模型性能的方法——预微调,在大约50个分类、摘要、问答和常识推理数据集上进行了480万个标记样本。
148 0
480万标记样本:Facebook提出「预微调」,持续提高语言模型性能
|
机器学习/深度学习 算法 数据挖掘
ResNet压缩20倍,Facebook提出新型无监督模型压缩量化方法
怎样用量化方法解决模型压缩问题?Facebook 近日提出了一个基于向量的量化方法,无需标注数据即可对 ResNet 模型进行20倍压缩,还能够获得很高的准确率。
360 0
ResNet压缩20倍,Facebook提出新型无监督模型压缩量化方法