【YOLOv8改进】MobileViT 更换主干网络: 轻量级、通用且适合移动设备的视觉变压器 (论文笔记+引入代码)

简介: MobileViT是针对移动设备的轻量级视觉Transformer网络,结合CNN的局部特征、Transformer的全局注意力和ViT的表示学习。在ImageNet-1k上,它以600万参数实现78.4%的top-1准确率,超越MobileNetv3和DeiT。MobileViT不仅适用于图像分类,还在目标检测等任务中表现出色,且优化简单,代码已开源。YOLOv8引入了MobileViT块,整合卷积和Transformer结构,提升模型性能。更多详情可参考相关专栏和链接。

YOLO目标检测创新改进与实战案例专栏

专栏目录: YOLO有效改进系列及项目实战目录 包含卷积,主干 注意力,检测头等创新机制 以及 各种目标检测分割项目实战案例

专栏链接: YOLO基础解析+创新改进+实战案例

摘要

轻量级卷积神经网络(CNNs)已成为移动视觉任务的事实标准。它们的空间归纳偏差使它们能够跨不同视觉任务学习具有更少参数的表示。然而,这些网络在空间上是局部的。为了学习全局表示,基于自注意力的视觉Transformer(ViTs)已被采纳。与CNNs不同,ViTs是重量级的。在本文中,我们提出以下问题:是否可能结合CNNs和ViTs的优势构建一个轻量级且低延迟的网络用于移动视觉任务?为此,我们介绍了MobileViT,一个面向移动设备的轻量级通用视觉Transformer。MobileViT以不同的视角呈现了使用Transformer进行信息全局处理的方式。我们的结果表明,MobileViT在不同任务和数据集上明显优于基于CNN和ViT的网络。在ImageNet-1k数据集上,MobileViT以约600万参数实现了78.4%的top-1准确率,比MobileNetv3(基于CNN)和DeIT(基于ViT)准确率高出3.2%和6.2%。在MS-COCO目标检测任务中,MobileViT比MobileNetv3准确率高出5.7%,参数数量相近。我们的源代码是开源的,可在以下链接获取:https://github.com/apple/ml-cvnets。

创新点

MobileViT 是一种轻量级、通用且适用于移动设备的视觉Transformer网络

  1. 结合CNN、Transformer和ViTs的优势:MobileViT将CNN的空间局部性特征学习、Transformer的全局自注意力机制以及ViTs的视觉表示学习相结合,充分利用三者的优势,旨在构建轻量级、通用且适用于移动设备的视觉处理网络。
  2. 出色的性能表现:在ImageNet-1k数据集上,MobileViT在参数约为250万时优于MobileNetv2、ShuffleNetv2和MobileNetv3等传统CNNs,甚至比ResNet、DenseNet、EfficientNet等重量级CNNs表现更好。
  3. 通用用途:MobileViT不仅适用于图像分类任务,还在目标检测和语义分割等移动视觉任务中展现出优异的性能,表现出其通用性和多功能性。
  4. 简单且易于优化:与许多ViT变体需要复杂数据增强相比,MobileViT在基本数据增强下表现出更好的性能,易于优化和应用于新任务和数据集中。

MobileViT的创新设计使其成为当前领先的移动视觉处理网络之一,为移动设备上的视觉任务提供了全新的解决方案。

yolov8 引入


# MobileViT块的定义,整合了卷积和Transformer结构
class MobileViTBlock(nn.Module):
    def __init__(self, dim, depth, channel, kernel_size, patch_size, mlp_dim, dropout=0.):
        super().__init__()
        self.ph = patch_size  # 设置patch的高度
        self.pw = patch_size  # 设置patch的宽度
        self.conv1 = conv_nxn_bn(channel, channel, kernel_size)  # 第一个卷积层,用于提取特征
        self.conv2 = conv_1x1_bn(channel, dim)  # 通过1x1卷积调整通道数
        self.transformer = Transformer(dim, depth, 4, 8, mlp_dim, dropout)  # Transformer模块,用于处理序列化的patch
        self.conv3 = conv_1x1_bn(dim, channel)  # 通过1x1卷积恢复通道数
        self.conv4 = conv_nxn_bn(2 * channel, channel, kernel_size)  # 最后的卷积层,融合特征

    def forward(self, x):
        y = x.clone()  # 复制输入,用于后续与Transformer的输出融合
        x = self.conv1(x)  # 应用第一个卷积层
        x = self.conv2(x)  # 通过1x1卷积调整通道数
        _, _, h, w = x.shape  # 获取特征图的高度和宽度
        # 重组特征图以适应Transformer的输入格式
        x = rearrange(x, 'b d (h ph) (w pw) -> b (ph pw) (h w) d', ph=self.ph, pw=self.pw)
        x = self.transformer(x)  # 通过Transformer处理
        # 重新排列输出以恢复原始的特征图结构
        x = rearrange(x, 'b (ph pw) (h w) d -> b d (h ph) (w pw)', h=h // self.ph, w=w // self.pw, ph=self.ph,
                      pw=self.pw)
        x = self.conv3(x)  # 通过1x1卷积恢复通道数
        x = torch.cat((x, y), 1)  # 将Transformer的输出与原始特征图融合
        x = self.conv4(x)  # 应用最后的卷积层融合特征
        return x

task与yaml配置

详见:https://blog.csdn.net/shangyanaf/article/details/136962297

相关文章
|
11天前
|
机器学习/深度学习 编解码 人工智能
一种基于YOLOv8改进的高精度表面缺陷检测网络, NEU-DET和GC10-DET涨点明显(原创自研)
【7月更文挑战第3天】一种基于YOLOv8改进的高精度表面缺陷检测, 在NEU-DET和GC10-DET任务中涨点明显;
33 1
|
20天前
|
机器学习/深度学习 计算机视觉 网络架构
【YOLOv8改进-卷积Conv】DualConv( Dual Convolutional):用于轻量级深度神经网络的双卷积核
**摘要:** 我们提出DualConv,一种融合$3\times3$和$1\times1$卷积的轻量级DNN技术,适用于资源有限的系统。它通过组卷积结合两种卷积核,减少计算和参数量,同时增强准确性。在MobileNetV2上,参数减少54%,CIFAR-100精度仅降0.68%。在YOLOv3中,DualConv提升检测速度并增4.4%的PASCAL VOC准确性。论文及代码已开源。
|
17天前
|
机器学习/深度学习 编解码 数据可视化
图神经网络版本的Kolmogorov Arnold(KAN)代码实现和效果对比
目前我们看到有很多使用KAN替代MLP的实验,但是目前来说对于图神经网络来说还没有类似的实验,今天我们就来使用KAN创建一个图神经网络Graph Kolmogorov Arnold(GKAN),来测试下KAN是否可以在图神经网络方面有所作为。
50 0
|
19天前
|
机器学习/深度学习 PyTorch 算法框架/工具
【YOLOv8改进 - 注意力机制】SimAM:轻量级注意力机制,解锁卷积神经网络新潜力
YOLO目标检测专栏介绍了SimAM,一种无参数的CNN注意力模块,基于神经科学理论优化能量函数,提升模型表现。SimAM通过计算3D注意力权重增强特征表示,无需额外参数。文章提供论文链接、Pytorch实现代码及详细配置,展示了如何在目标检测任务中应用该模块。
|
6天前
|
机器学习/深度学习 TensorFlow API
Keras是一个高层神经网络API,由Python编写,并能够在TensorFlow、Theano或CNTK之上运行。Keras的设计初衷是支持快速实验,能够用最少的代码实现想法,并且能够方便地在CPU和GPU上运行。
Keras是一个高层神经网络API,由Python编写,并能够在TensorFlow、Theano或CNTK之上运行。Keras的设计初衷是支持快速实验,能够用最少的代码实现想法,并且能够方便地在CPU和GPU上运行。
|
10天前
|
网络协议 网络性能优化 网络虚拟化
《计算机网络》期末复习笔记
《计算机网络》期末复习笔记
|
14天前
|
网络协议 安全 网络安全
软考中级之数据库系统工程师笔记总结(五)网络基础
软考中级之数据库系统工程师笔记总结(五)网络基础
10 0
|
22天前
|
Web App开发 自然语言处理 算法
一文搞懂:【论文笔记】BINE:二分网络嵌入
一文搞懂:【论文笔记】BINE:二分网络嵌入
15 0
|
2天前
|
存储 安全 网络安全
云计算与网络安全:技术挑战与解决方案
【7月更文挑战第17天】在数字化时代,云计算已成为企业和个人数据存储、处理和计算的重要工具。然而,随着云服务的广泛应用,网络安全问题也日益突出。本文将探讨云计算环境下的网络安全挑战,包括数据泄露、服务中断和恶意软件攻击等,并提出相应的解决策略,如加强身份验证、实施加密措施和采用分布式拒绝服务(DDoS)防护。文章旨在为读者提供对云计算网络安全风险的深入理解和有效防御手段。

热门文章

最新文章