【YOLOv8改进- Backbone主干】YOLOv8更换主干网络之ConvNexts，纯卷积神经网络，更快更准，，降低参数量！

2024-07-19 851

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： YOLOv8专栏探讨了针对目标检测的ConvNet创新，提出ConvNeXt模型，它挑战Transformer在视觉任务中的主导地位。ConvNeXt通过增大卷积核、使用GeLU激活、切换到LayerNorm和改进下采样层，提升了纯ConvNet性能，达到与Transformer相当的准确率和效率。论文和代码已公开。

YOLOv8目标检测创新改进与实战案例专栏

专栏目录： YOLOv8有效改进系列及项目实战目录包含卷积，主干注意力，检测头等创新机制以及各种目标检测分割项目实战案例

专栏链接: YOLOv8基础解析+创新改进+实战案例

介绍

摘要

视觉识别的“咆哮20年代”开始于视觉Transformer（ViTs）的引入，ViTs迅速取代了卷积神经网络（ConvNets）成为最先进的图像分类模型。然而，普通的ViT在应用于诸如目标检测和语义分割等一般计算机视觉任务时面临困难。分层Transformer（例如Swin Transformer）重新引入了几种ConvNet先验知识，使得Transformer在实际应用中成为通用的视觉骨干，并在各种视觉任务中表现出色。然而，这种混合方法的有效性很大程度上仍归因于Transformer的内在优势，而不是卷积的固有归纳偏差。在这项工作中，我们重新审视了设计空间，并测试了纯ConvNet的极限。我们逐步将标准的ResNet“现代化”，朝着视觉Transformer的设计方向发展，并在此过程中发现了几个关键组件，这些组件对性能差异有贡献。经过这一探索，我们推出了一系列纯ConvNet模型，命名为ConvNeXt。这些模型完全由标准的ConvNet模块构建，与Transformer在准确性和可扩展性方面竞争，达到了87.8%的ImageNet top-1准确率，并在COCO检测和ADE20K分割中超过了Swin Transformer，同时保持了标准ConvNets的简单性和效率。

文章链接

论文地址：论文地址

代码地址：代码地址

基本原理

Transformer在视觉领域大放异彩？以后卷积怎么办呢？facebook 的研究人员就探究了这样一个问题。首先，SwinTransformer采用分层和窗口的设计，取得了非常好的性能。这说明卷积这种窗口的设计也是有用的，因此，研究人员通过对比卷积和Transformer的体系结构，设计了ConvNext。

（1）提升感受野，使用更大的卷积核（33-->77），但是更大的卷积核带来了更多的运算量，这就需要使用1*1的卷积调整通道和分组卷积了。

（2）将ReLU替换为GeLU,并设计了一个类似于Transformer的FFN层的结构，即在两层1*1的卷积中间使用激活函数

（3）归一化由BN变为LN，并类似于Transformer，使用更少的归一化层。

（4）降采样层：类似于Swin Transformer，使用2*2的卷积，stride为2，并使用LN稳定训练。

核心代码


class ConvNeXt_Stem(nn.Module):
    def __init__(self, c1, c2, k=1, s=1, p=None, g=1, d=1, act=True):
        super().__init__()
        self.conv = nn.Conv2d(c1, c2, k, s, groups=g, dilation=d)
        self.ln = LayerNorm(c2, eps=1e-6, data_format="channels_first")

    def forward(self, x):
        return self.ln(self.conv(x))


class ConvNeXt_Downsample(nn.Module):
    def __init__(self, c1, c2, k=1, s=1, p=None, g=1, d=1, act=True):
        super().__init__()
        self.conv = nn.Conv2d(c1, c2, k, s, groups=g, dilation=d)
        self.ln = LayerNorm(c1, eps=1e-6, data_format="channels_first")

    def forward(self, x):
        return self.conv(self.ln(x))

task与yaml配置

详见： https://blog.csdn.net/shangyanaf/article/details/140451741

【YOLOv8改进- Backbone主干】YOLOv8更换主干网络之ConvNexts，纯卷积神经网络，更快更准，，降低参数量！

YOLOv8目标检测创新改进与实战案例专栏

介绍

摘要

文章链接

基本原理

核心代码

task与yaml配置

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【YOLOv8改进- Backbone主干】YOLOv8更换主干网络之ConvNexts，纯卷积神经网络，更快更准，，降低参数量！

YOLOv8目标检测创新改进与实战案例专栏

介绍

摘要

文章链接

基本原理

核心代码

task与yaml配置

热门文章

最新文章

相关课程

相关电子书