【YOLOv8改进】MobileViT 更换主干网络: 轻量级、通用且适合移动设备的视觉变压器 (论文笔记+引入代码)

简介: MobileViT是针对移动设备的轻量级视觉Transformer网络,结合CNN的局部特征、Transformer的全局注意力和ViT的表示学习。在ImageNet-1k上,它以600万参数实现78.4%的top-1准确率,超越MobileNetv3和DeiT。MobileViT不仅适用于图像分类,还在目标检测等任务中表现出色,且优化简单,代码已开源。YOLOv8引入了MobileViT块,整合卷积和Transformer结构,提升模型性能。更多详情可参考相关专栏和链接。

YOLO目标检测创新改进与实战案例专栏

专栏目录: YOLO有效改进系列及项目实战目录 包含卷积,主干 注意力,检测头等创新机制 以及 各种目标检测分割项目实战案例

专栏链接: YOLO基础解析+创新改进+实战案例

摘要

轻量级卷积神经网络(CNNs)已成为移动视觉任务的事实标准。它们的空间归纳偏差使它们能够跨不同视觉任务学习具有更少参数的表示。然而,这些网络在空间上是局部的。为了学习全局表示,基于自注意力的视觉Transformer(ViTs)已被采纳。与CNNs不同,ViTs是重量级的。在本文中,我们提出以下问题:是否可能结合CNNs和ViTs的优势构建一个轻量级且低延迟的网络用于移动视觉任务?为此,我们介绍了MobileViT,一个面向移动设备的轻量级通用视觉Transformer。MobileViT以不同的视角呈现了使用Transformer进行信息全局处理的方式。我们的结果表明,MobileViT在不同任务和数据集上明显优于基于CNN和ViT的网络。在ImageNet-1k数据集上,MobileViT以约600万参数实现了78.4%的top-1准确率,比MobileNetv3(基于CNN)和DeIT(基于ViT)准确率高出3.2%和6.2%。在MS-COCO目标检测任务中,MobileViT比MobileNetv3准确率高出5.7%,参数数量相近。我们的源代码是开源的,可在以下链接获取:https://github.com/apple/ml-cvnets。

创新点

MobileViT 是一种轻量级、通用且适用于移动设备的视觉Transformer网络

  1. 结合CNN、Transformer和ViTs的优势:MobileViT将CNN的空间局部性特征学习、Transformer的全局自注意力机制以及ViTs的视觉表示学习相结合,充分利用三者的优势,旨在构建轻量级、通用且适用于移动设备的视觉处理网络。
  2. 出色的性能表现:在ImageNet-1k数据集上,MobileViT在参数约为250万时优于MobileNetv2、ShuffleNetv2和MobileNetv3等传统CNNs,甚至比ResNet、DenseNet、EfficientNet等重量级CNNs表现更好。
  3. 通用用途:MobileViT不仅适用于图像分类任务,还在目标检测和语义分割等移动视觉任务中展现出优异的性能,表现出其通用性和多功能性。
  4. 简单且易于优化:与许多ViT变体需要复杂数据增强相比,MobileViT在基本数据增强下表现出更好的性能,易于优化和应用于新任务和数据集中。

MobileViT的创新设计使其成为当前领先的移动视觉处理网络之一,为移动设备上的视觉任务提供了全新的解决方案。

yolov8 引入


# MobileViT块的定义,整合了卷积和Transformer结构
class MobileViTBlock(nn.Module):
    def __init__(self, dim, depth, channel, kernel_size, patch_size, mlp_dim, dropout=0.):
        super().__init__()
        self.ph = patch_size  # 设置patch的高度
        self.pw = patch_size  # 设置patch的宽度
        self.conv1 = conv_nxn_bn(channel, channel, kernel_size)  # 第一个卷积层,用于提取特征
        self.conv2 = conv_1x1_bn(channel, dim)  # 通过1x1卷积调整通道数
        self.transformer = Transformer(dim, depth, 4, 8, mlp_dim, dropout)  # Transformer模块,用于处理序列化的patch
        self.conv3 = conv_1x1_bn(dim, channel)  # 通过1x1卷积恢复通道数
        self.conv4 = conv_nxn_bn(2 * channel, channel, kernel_size)  # 最后的卷积层,融合特征

    def forward(self, x):
        y = x.clone()  # 复制输入,用于后续与Transformer的输出融合
        x = self.conv1(x)  # 应用第一个卷积层
        x = self.conv2(x)  # 通过1x1卷积调整通道数
        _, _, h, w = x.shape  # 获取特征图的高度和宽度
        # 重组特征图以适应Transformer的输入格式
        x = rearrange(x, 'b d (h ph) (w pw) -> b (ph pw) (h w) d', ph=self.ph, pw=self.pw)
        x = self.transformer(x)  # 通过Transformer处理
        # 重新排列输出以恢复原始的特征图结构
        x = rearrange(x, 'b (ph pw) (h w) d -> b d (h ph) (w pw)', h=h // self.ph, w=w // self.pw, ph=self.ph,
                      pw=self.pw)
        x = self.conv3(x)  # 通过1x1卷积恢复通道数
        x = torch.cat((x, y), 1)  # 将Transformer的输出与原始特征图融合
        x = self.conv4(x)  # 应用最后的卷积层融合特征
        return x

task与yaml配置

详见:https://blog.csdn.net/shangyanaf/article/details/136962297

相关文章
|
4月前
|
机器学习/深度学习 数据采集 存储
概率神经网络的分类预测--基于PNN的变压器故障诊断(Matlab代码实现)
概率神经网络的分类预测--基于PNN的变压器故障诊断(Matlab代码实现)
634 0
|
4月前
|
机器学习/深度学习 人工智能 算法
【基于TTNRBO优化DBN回归预测】基于瞬态三角牛顿-拉夫逊优化算法(TTNRBO)优化深度信念网络(DBN)数据回归预测研究(Matlab代码实现)
【基于TTNRBO优化DBN回归预测】基于瞬态三角牛顿-拉夫逊优化算法(TTNRBO)优化深度信念网络(DBN)数据回归预测研究(Matlab代码实现)
230 0
|
4月前
|
传感器 机器学习/深度学习 数据采集
【航空发动机寿命预测】基于SE-ResNet网络的发动机寿命预测,C-MAPSS航空发动机寿命预测研究(Matlab代码实现)
【航空发动机寿命预测】基于SE-ResNet网络的发动机寿命预测,C-MAPSS航空发动机寿命预测研究(Matlab代码实现)
343 0
|
SQL 监控 安全
网络安全与信息安全:漏洞、加密与安全意识
随着互联网的迅猛发展,网络安全和信息安全问题日益受到关注。本文深入探讨了网络安全漏洞、加密技术以及提高个人和组织的安全意识的重要性。通过分析常见的网络攻击手段如缓冲区溢出、SQL注入等,揭示了计算机系统中存在的缺陷及其潜在威胁。同时,详细介绍了对称加密和非对称加密算法的原理及应用场景,强调了数字签名和数字证书在验证信息完整性中的关键作用。此外,还讨论了培养良好上网习惯、定期备份数据等提升安全意识的方法,旨在帮助读者更好地理解和应对复杂的网络安全挑战。
|
SQL 安全 网络安全
网络安全与信息安全:知识分享####
【10月更文挑战第21天】 随着数字化时代的快速发展,网络安全和信息安全已成为个人和企业不可忽视的关键问题。本文将探讨网络安全漏洞、加密技术以及安全意识的重要性,并提供一些实用的建议,帮助读者提高自身的网络安全防护能力。 ####
355 17
|
SQL 安全 网络安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
随着互联网的普及,网络安全问题日益突出。本文将从网络安全漏洞、加密技术和安全意识三个方面进行探讨,旨在提高读者对网络安全的认识和防范能力。通过分析常见的网络安全漏洞,介绍加密技术的基本原理和应用,以及强调安全意识的重要性,帮助读者更好地保护自己的网络信息安全。
279 10
|
存储 SQL 安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
随着互联网的普及,网络安全问题日益突出。本文将介绍网络安全的重要性,分析常见的网络安全漏洞及其危害,探讨加密技术在保障网络安全中的作用,并强调提高安全意识的必要性。通过本文的学习,读者将了解网络安全的基本概念和应对策略,提升个人和组织的网络安全防护能力。
|
SQL 安全 网络安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
在数字化时代,网络安全和信息安全已成为我们生活中不可或缺的一部分。本文将介绍网络安全漏洞、加密技术和安全意识等方面的内容,并提供一些实用的代码示例。通过阅读本文,您将了解到如何保护自己的网络安全,以及如何提高自己的信息安全意识。
275 10
|
监控 安全 网络安全
网络安全与信息安全:漏洞、加密与意识的交织
在数字时代的浪潮中,网络安全与信息安全成为维护数据完整性、保密性和可用性的关键。本文深入探讨了网络安全中的漏洞概念、加密技术的应用以及提升安全意识的重要性。通过实际案例分析,揭示了网络攻击的常见模式和防御策略,强调了教育和技术并重的安全理念。旨在为读者提供一套全面的网络安全知识框架,从而在日益复杂的网络环境中保护个人和组织的资产安全。
|
存储 监控 安全
云计算与网络安全:云服务、网络安全、信息安全等技术领域的融合与挑战
本文将探讨云计算与网络安全之间的关系,以及它们在云服务、网络安全和信息安全等技术领域中的融合与挑战。我们将分析云计算的优势和风险,以及如何通过网络安全措施来保护数据和应用程序。我们还将讨论如何确保云服务的可用性和可靠性,以及如何处理网络攻击和数据泄露等问题。最后,我们将提供一些关于如何在云计算环境中实现网络安全的建议和最佳实践。

热门文章

最新文章