一、本文介绍
这次给大家带来的改进机制是EfficientNetV2,其在其V1版本通过均衡地缩放网络的深度、宽度和分辨率,以提高卷积神经网络的性能的基础上,又提出了一种改进的渐进式学习方法,通过在训练过程中逐步增加图像尺寸并适应性调整正则化来加快训练速度,同时保持准确性。所以其相对于V1版本的改进主要是在速度和效率上的改进(但是经过我实验我觉得V2不如V1快,可能是我使用的不是同一等级的版本,大家也可以进行一下对比)。本文通过介绍其主要框架原理,然后教大家如何添加该网络结构到网络模型中。
专栏回顾:YOLOv8改进系列专栏——本专栏持续复习各种顶会内容——科研必备
二、EfficientNetV2的框架原理
这篇论文主要介绍了EfficientNetV2,这是一种新型的卷积神经网络,它的特点是训练速度更快、参数效率更高。通过结合训练感知的神经架构搜索和缩放,这些模型在训练速度和参数效率上都得到了优化。文章还提出了一种改进的渐进式学习方法,通过在训练过程中逐步增加图像尺寸并适应性调整正则化来加快训练速度,同时保持准确性。
EfficientNetV2的主要创新点包括:
1. 结构创新:EfficientNetV2在早期层中采用了fused-MBConv结构,这有助于降低内存访问开销。此外,EfficientNetV2倾向于使用较小的扩展比例和3x3的卷积核大小,同时增加更多的层次来补偿由于使用较小卷积核导致的接收域减小。最后,EfficientNetV2完全移除了原始EfficientNet中的最后一个stride-1阶段,可能是因为它的大参数尺寸和内存访问开销。
2. 训练速度的优化:您的研究比较了EfficientNetV2与其他模型在固定图像大小下的训练步骤时间。EfficientNetV2通过训练感知的神经架构搜索和模型缩放,实现了比其他最新模型更快的训练速度。
3.渐进式学习与自适应正则化:EfficientNetV2采用了改进的渐进式学习方法,该方法在训练早期使用较小的图像尺寸和较弱的正则化,使得网络可以更容易、更快地学习简单的表示。随着训练的进行,逐渐增加图像尺寸,并通过增强正则化来提高学习难度。
4. 自适应正则化的重要性:您的研究强调了自适应正则化的重要性,这种方法根据图像大小动态调整正则化强度。该方法简单但有效,并且可以与其他方法结合使用。
图片展示了两种卷积神经网络中的模块:MBConv和Fused-MBConv的结构。
MBConv:这是一种包含了深度可分离卷积(depthwise conv3x3)的模块,其包括1x1的卷积用于调整通道数,随后是深度可分离卷积用于捕捉空间特征,最后又是一个1x1的卷积来恢复通道数。此外,它还包含一个SE模块(Squeeze-and-Excitation),用于通过学习重要通道的权重来提高网络的表示能力。
Fused-MBConv:与MBConv类似,这种结构也包含了SE模块和1x1的卷积,但它将深度可分离卷积替换为了一个标准的3x3卷积,这通常可以减少运算量并提高性能。
这两种结构通常用于构建高效的深度学习模型,特别是在计算资源有限的情况下。Fused-MBConv因为其结构简会带来计算效率的提升。