YOLOv5改进 | 卷积模块 | 用ShuffleNetV2卷积替换Conv【轻量化网络】

简介: 本文介绍了如何在YOLOv5中用ShuffleNetV2替换卷积以减少计算量。ShuffleNetV2是一个轻量级网络,采用深度可分离卷积、通道重组和多尺度特征融合技术。文中提供了一个逐步教程,包括ShuffleNetV2模块的代码实现和在YOLOv5配置文件中的添加方法。此外,还分享了完整的代码链接和GFLOPs的比较,显示了GFLOPs的显著减少。该教程适合初学者实践,以提升深度学习目标检测技能。


💡💡💡本专栏所有程序均经过测试,可成功执行💡💡💡

在YOLOv5的GFLOPs计算量中,卷积占了其中大多数的比列,为了减少计算量,研究人员提出了用ShuffleNetV2代替Conv。本文给大家带来的教程是将原来的Conv替换为ShuffleNetV2。文章在介绍主要的原理后,将手把手教学如何进行模块的代码添加和修改,并将修改后的完整代码放在文章的最后,方便大家一键运行,小白也可轻松上手实践。以帮助您更好地学习深度学习目标检测YOLO系列的挑战。

专栏地址:YOLOv5改进+入门——持续更新各种有效涨点方法

1.原理


​​​​​​image.png

关于ShuffleNetV1的原理查看:ShuffleNetV1点击即可跳转

ShuffleNetV2是一种用于图像分类和目标检测任务的神经网络架构,它是对ShuffleNet的改进版本。ShuffleNetV2旨在提高模型的性能和效率,同时保持低延迟和低计算成本。

下面是对ShuffleNetV2的一些关键点的解释:

  1. 轻量级设计:ShuffleNetV2专注于轻量级设计,旨在在保持模型准确性的同时降低计算成本和内存占用。这使得ShuffleNetV2成为在资源受限环境下进行图像处理任务的理想选择,比如移动设备或边缘设备。

  2. 深度可分离卷积:ShuffleNetV2使用了深度可分离卷积(Depthwise Separable Convolution),这种卷积操作将通道间的相关性和空间特征分开处理,从而降低了参数数量和计算量。这一特性使得模型更加轻量化。

  3. 通道重组(Channel Shuffle):ShuffleNetV2通过通道重组技术,将特征图的通道重新排列,以促进信息交流和特征融合,同时减少了参数量和计算复杂度。这对于提高模型性能和减少内存占用都起到了积极作用。

  4. 基础单元:ShuffleNetV2的基础单元是一种特殊的模块,结合了深度可分离卷积、通道重组和残差连接等技术。这些基础单元可以有效地在网络中传递信息,并保持特征的丰富性。

  5. 多尺度特征融合:ShuffleNetV2在设计上考虑了多尺度特征融合的需求,以提高模型对不同尺度下物体的检测和识别能力。这通过在网络中引入多个分支或模块来实现。

总的来说,ShuffleNetV2是一种轻量级而高效的神经网络架构,适用于在计算资源有限的环境下进行图像分类和目标检测任务。它通过深度可分离卷积、通道重组和多尺度特征融合等技术,实现了在保持模型性能的同时减少计算成本和内存占用的目标。

2.代码实现

2.1 将ShuffleNetV2添加到YOLOv5中

class ShuffleNetV2_InvertedResidual(nn.Module):
    def __init__(self, inp, oup, stride):  # ch_in, ch_out, stride
        super().__init__()

        self.stride = stride

        branch_features = oup // 2
        assert (self.stride != 1) or (inp == branch_features << 1)

        if self.stride == 2:
            # copy input
            self.branch1 = nn.Sequential(
                nn.Conv2d(inp, inp, kernel_size=3, stride=self.stride, padding=1, groups=inp),
                nn.BatchNorm2d(inp),
                nn.Conv2d(inp, branch_features, kernel_size=1, stride=1, padding=0, bias=False),
                nn.BatchNorm2d(branch_features),
                nn.ReLU(inplace=True))
        else:
            self.branch1 = nn.Sequential()

        self.branch2 = nn.Sequential(
            nn.Conv2d(inp if (self.stride == 2) else branch_features, branch_features, kernel_size=1, stride=1, padding=0, bias=False),
            nn.BatchNorm2d(branch_features),
            nn.ReLU(inplace=True),

            nn.Conv2d(branch_features, branch_features, kernel_size=3, stride=self.stride, padding=1, groups=branch_features),
            nn.BatchNorm2d(branch_features),

            nn.Conv2d(branch_features, branch_features, kernel_size=1, stride=1, padding=0, bias=False),
            nn.BatchNorm2d(branch_features),
            nn.ReLU(inplace=True),
        )

    def forward(self, x):
        if self.stride == 1:
            x1, x2 = x.chunk(2, dim=1)
            out = torch.cat((x1, self.branch2(x2)), dim=1)
        else:
            out = torch.cat((self.branch1(x), self.branch2(x)), dim=1)

        out = self.channel_shuffle(out, 2)

        return out

ShuffleNetV2的主要流程可以简单地描述为以下几个步骤:

  1. 输入:输入是一张图像,经过预处理后传递给网络。

  2. 特征提取:图像通过一系列卷积层进行特征提取。ShuffleNetV2使用深度可分离卷积来减少参数数量和计算成本,同时保留有效的特征信息。这些卷积操作在不同层级上捕获图像的不同抽象级别的特征。

  3. 通道重组:在特征提取过程中,ShuffleNetV2通过通道重组操作,将特征图的通道进行重排,以促进特征之间的信息交流和融合。这有助于提高模型的表达能力和准确性。

  4. 多尺度特征融合:为了增强模型对不同尺度下物体的检测和识别能力,ShuffleNetV2可能在网络中引入多个分支或模块来实现多尺度特征融合。这些分支可能具有不同的感受野和分辨率,以捕获不同尺度下的特征信息,并将它们融合在一起以获得更加全面的特征表示。

  5. 分类/检测:最后,经过特征提取和融合后的特征被传递给分类器或检测头部,进行图像分类或目标检测任务。对于分类任务,通常会在最后添加全局平均池化层和全连接层来生成类别预测。对于目标检测任务,可能会在特征图上应用卷积层来预测目标的位置和类别。

整个流程中,ShuffleNetV2的关键在于利用深度可分离卷积、通道重组和多尺度特征融合等技术,实现了在保持模型性能的同时降低计算成本和内存占用的目标。

2.2 新增yaml文件

# YOLOv5 🚀 by Ultralytics, GPL-3.0 license

# Parameters
nc: 80  # number of classes
depth_multiple: 1.0  # model depth multiple
width_multiple: 1.0  # layer channel multiple
anchors:
  - [10,13, 16,30, 33,23]  # P3/8
  - [30,61, 62,45, 59,119]  # P4/16
  - [116,90, 156,198, 373,326]  # P5/32

# ShuffleNetV2 backbone
backbone:
  # [from, number, module, args]
  [[-1, 1, Conv_maxpool, [24]],    # 0-P2/4

   [-1, 1, ShuffleNetV2_InvertedResidual, [116, 2]], # 1-P3/8
   [-1, 3, ShuffleNetV2_InvertedResidual, [116, 1]], # 2

   [-1, 1, ShuffleNetV2_InvertedResidual, [232, 2]], # 3-P4/16
   [-1, 7, ShuffleNetV2_InvertedResidual, [232, 1]], # 4

...

# YOLOv5 v6.0 head
head:
  [[-1, 1, Conv, [512, 1, 1]], # 8
   [-1, 1, nn.Upsample, [None, 2, 'nearest']],
   [[-1, 4], 1, Concat, [1]],  # cat backbone P4
   [-1, 3, C3, [512, False]],  # 11

   [-1, 1, Conv, [256, 1, 1]], # 12
   [-1, 1, nn.Upsample, [None, 2, 'nearest']],
   [[-1, 2], 1, Concat, [1]],  # cat backbone P3
   [-1, 3, C3, [256, False]],  # 15 (P3/8-small)

   [-1, 1, Conv, [256, 3, 2]],
   [[-1, 12], 1, Concat, [1]], # cat head P4
   [-1, 3, C3, [512, False]],  # 18 (P4/16-medium)

   [-1, 1, Conv, [512, 3, 2]],
   [[-1, 8], 1, Concat, [1]],  # cat head P5
   [-1, 3, C3, [1024, False]],  # 21 (P5/32-large)

   [[15, 18, 21], 1, Detect, [nc, anchors]],  # Detect(P3, P4, P5)
  ]

温馨提示:本文只是对yolov5l基础上添加swin模块,如果要对yolov8n/l/m/x进行添加则只需要指定对应的depth_multiple 和 width_multiple。

# YOLOv5n
depth_multiple: 0.33  # model depth multiple
width_multiple: 0.25  # layer channel multiple

# YOLOv5s
depth_multiple: 0.33  # model depth multiple
width_multiple: 0.50  # layer channel multiple

# YOLOv5l 
depth_multiple: 1.0  # model depth multiple
width_multiple: 1.0  # layer channel multiple

# YOLOv5m
depth_multiple: 0.67  # model depth multiple
width_multiple: 0.75  # layer channel multiple

# YOLOv5x
depth_multiple: 1.33  # model depth multiple
width_multiple: 1.25  # layer channel multiple

2.3 注册模块

image.png

2.4 执行程序

在train.py中,将cfg的参数路径设置为yolov5_shuffle.yaml的路径
建议大家写绝对路径,确保一定能找到

🚀运行程序,如果出现下面的内容则说明添加成功🚀
image.png

3. 完整代码分享

YOLOv5改进 | 卷积模块 | 用ShuffleNetV2卷积替换Conv【轻量化网络】点击即可跳转

👆我修改后的代码, 提取码: 79es

4.GFLOPs对比

未改进的YOLOv5l的GFLOPs
image.png

改进的YOLOv5l的GFLOPs
image.png

GFLOPs大约减少三分之二

5. 总结

ShuffleNetV2是一种专注于轻量级设计的神经网络架构,其核心技术包括深度可分离卷积和通道重组,通过这些技术降低了参数数量和计算成本,同时利用多尺度特征融合提高了模型的检测和识别能力。该架构在图像分类和目标检测任务中表现出色,特别适用于资源受限的环境,如移动设备或边缘计算设备。ShuffleNetV2的设计目标在于在保持模型性能的同时降低内存占用,为图像处理任务提供了高效且可行的解决方案。

相关文章
|
5月前
|
机器学习/深度学习 PyTorch TensorFlow
卷积神经网络深度解析:从基础原理到实战应用的完整指南
蒋星熠Jaxonic,深度学习探索者。深耕TensorFlow与PyTorch,分享框架对比、性能优化与实战经验,助力技术进阶。
|
6月前
|
机器学习/深度学习 人工智能 算法
卷积神经网络深度解析:从基础原理到实战应用的完整指南
蒋星熠Jaxonic带你深入卷积神经网络(CNN)核心技术,从生物启发到数学原理,详解ResNet、注意力机制与模型优化,探索视觉智能的演进之路。
600 11
|
9月前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于PSO粒子群优化TCN-LSTM时间卷积神经网络时间序列预测算法matlab仿真
本内容展示了一种基于粒子群优化(PSO)与时间卷积神经网络(TCN)的时间序列预测方法。通过 MATLAB2022a 实现,完整程序运行无水印,核心代码附详细中文注释及操作视频。算法利用 PSO 优化 TCN 的超参数(如卷积核大小、层数等),提升非线性时间序列预测性能。TCN 结构包含因果卷积层与残差连接,结合 LSTM 构建混合模型,经多次迭代选择最优超参数,最终实现更准确可靠的预测效果,适用于金融、气象等领域。
|
6月前
|
机器学习/深度学习 传感器 数据采集
【故障识别】基于CNN-SVM卷积神经网络结合支持向量机的数据分类预测研究(Matlab代码实现)
【故障识别】基于CNN-SVM卷积神经网络结合支持向量机的数据分类预测研究(Matlab代码实现)
434 0
|
10月前
|
机器学习/深度学习 人工智能 算法
深度解析:基于卷积神经网络的宠物识别
宠物识别技术随着饲养规模扩大而兴起,传统手段存在局限性,基于卷积神经网络的宠物识别技术应运而生。快瞳AI通过优化MobileNet-SSD架构、多尺度特征融合及动态网络剪枝等技术,实现高效精准识别。其在智能家居、宠物医疗和防走失领域展现广泛应用前景,为宠物管理带来智能化解决方案,推动行业迈向新高度。
|
8月前
|
机器学习/深度学习 人工智能 PyTorch
零基础入门CNN:聚AI卷积神经网络核心原理与工业级实战指南
卷积神经网络(CNN)通过局部感知和权值共享两大特性,成为计算机视觉的核心技术。本文详解CNN的卷积操作、架构设计、超参数调优及感受野计算,结合代码示例展示其在图像分类、目标检测等领域的应用价值。
477 7
|
10月前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于PSO粒子群优化TCN时间卷积神经网络时间序列预测算法matlab仿真
本内容介绍了一种基于PSO(粒子群优化)改进TCN(时间卷积神经网络)的时间序列预测方法。使用Matlab2022a运行,完整程序无水印,附带核心代码中文注释及操作视频。TCN通过因果卷积层与残差连接处理序列数据,PSO优化其卷积核权重等参数以降低预测误差。算法中,粒子根据个体与全局最优位置更新速度和位置,逐步逼近最佳参数组合,提升预测性能。
|
11月前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于GA遗传优化TCN-GRU时间卷积神经网络时间序列预测算法matlab仿真
本项目基于MATLAB2022a开发,提供无水印算法运行效果预览及核心程序(含详细中文注释与操作视频)。通过结合时间卷积神经网络(TCN)和遗传算法(GA),实现复杂非线性时间序列的高精度预测。TCN利用因果卷积层与残差连接提取时间特征,GA优化超参数(如卷积核大小、层数等),显著提升模型性能。项目涵盖理论概述、程序代码及完整实现流程,适用于金融、气象、工业等领域的时间序列预测任务。
|
9月前
|
机器学习/深度学习 数据采集 监控
基于CNN卷积神经网络和GEI步态能量提取的步态识别算法matlab仿真,对比不同角度下的步态识别性能
本项目基于CNN卷积神经网络与GEI步态能量提取技术,实现高效步态识别。算法使用不同角度(0°、45°、90°)的步态数据库进行训练与测试,评估模型在多角度下的识别性能。核心流程包括步态图像采集、GEI特征提取、数据预处理及CNN模型训练与评估。通过ReLU等激活函数引入非线性,提升模型表达能力。项目代码兼容Matlab2022a/2024b,提供完整中文注释与操作视频,助力研究与应用开发。
|
9月前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于WOA鲸鱼优化的TCN-GRU时间卷积神经网络时间序列预测算法matlab仿真
本内容包含时间序列预测算法的相关资料,涵盖以下几个方面:1. 算法运行效果预览(无水印);2. 运行环境为Matlab 2022a/2024b;3. 提供部分核心程序,完整版含中文注释及操作视频;4. 理论概述:结合时间卷积神经网络(TCN)与鲸鱼优化算法(WOA),优化TCN超参数以提升非线性时间序列预测性能。通过因果卷积层与残差连接构建TCN模型,并用WOA调整卷积核大小、层数等参数,实现精准预测。适用于金融、气象等领域决策支持。

热门文章

最新文章