YOLOv11改进策略【模型轻量化】| 替换骨干网络为 MobileViTv1高效的信息编码与融合模块,获取局部和全局信息

简介: YOLOv11改进策略【模型轻量化】| 替换骨干网络为 MobileViTv1高效的信息编码与融合模块,获取局部和全局信息

一、本文介绍

本文记录的是基于MobileNet V4的YOLOv11目标检测轻量化改进方法研究。其中MobileViT块旨在以较少的参数对输入张量中的局部和全局信息进行建模,结合卷积与 Transformer 的优势,并实现有效的信息编码与融合,。本文配置了原论文中MobileViT-SMobileViT-XSMobileViT-XXS三种模型,以满足不同的需求。

模型 参数量 计算量 推理速度
YOLOv11m 20.0M 67.6GFLOPs 3.5ms
Improved 12.0M 32.3GFLOPs 2.1ms

专栏目录:YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:YOLOv11改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

二、MobileViT V1模型轻量化设计

MOBILEVIT: LIGHT-WEIGHT, GENERAL-PURPOSE, AND MOBILE-FRIENDLY VISION TRANSFORMER

2.1 出发点

  • 轻量级卷积神经网络(CNNs)虽在移动视觉任务中有应用,但存在空间局限性。基于自注意力的视觉Transformer(ViTs)虽可学习全局表示,但模型较重。因此需要结合两者优势,构建适用于移动视觉任务的轻量级、低延迟网络。

    2.2 原理

  • Transformer视为卷积,学习全局表示的同时,隐式地结合卷积的特性(如空间偏差),并能用简单的训练方法(如基本的数据增强)学习表示,还能轻松与下游架构集成。

    2.3 结构

    2.3.1 MobileViT块

    • 对于输入张量$x\in\mathbb{R}^{H\times W\times C}$,先应用$n\times n$标准卷积层,再用点式(或$1\times1$)卷积层得到$X_{L}\in\mathbb{R}^{H\times W\times d}$。
    • 将$X{L}$展开为$N$个非重叠的扁平块$X{U}\in\mathbb{R}^{P\times N\times d}$,对每个块应用Transformer得到$X_{G}\in\mathbb{R}^{P\times N\times d}$。
    • 折叠$X{G}$得到$X{F}\in\mathbb{R}^{H\times W\times d}$,经点式卷积投影到低维空间后与$X$通过拼接操作合并,再用一个$n\times n$卷积层融合这些拼接特征。

      2.3.2 整体架构

    • 受轻量级CNNs启发,网络在不同参数预算下有不同配置。初始层是步长为$3\times3$的标准卷积,接着是MobileNetv2块MobileViT块。使用Swish作为激活函数,在MobileViT块中$n = 3$,特征图的空间维度通常是$2$的倍数且$h, w\leq n$,设置$h = w = 2$。

在这里插入图片描述

2.4 优势

  • 性能更好:在不同移动视觉任务中,对于给定的参数预算,MobileViT比现有的轻量级CNNs性能更好。例如在ImageNet - 1k数据集上,约600万个参数时,MobileViT的top - 1准确率比MobileNetv3高3.2%。
    • 泛化能力强:泛化能力指训练和评估指标之间的差距。与之前的ViT变体相比,MobileViT显示出更好的泛化能力
    • 鲁棒性好:对超参数(如数据增强和L2正则化)不敏感,用基本的数据增强方法训练,对L2正则化不太敏感。
    • 计算成本:理论上,MobileViT多头自注意力计算成本为$O(N^{2}Pd)$,比ViT的$O(N^{2}d)$低效,但实际上更高效。例如在ImageNet - 1K数据集上,MobileViT比DeIT的FLOP少$2X$,准确率高1.8%。

论文:https://arxiv.org/pdf/2110.02178
源码:https://github.com/apple/ml-cvnets

三、实现代码及YOLOv11修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:

https://blog.csdn.net/qq_42591591/article/details/143076632

相关文章
|
9月前
|
机器学习/深度学习 自然语言处理 数据可视化
基于图神经网络的自然语言处理:融合LangGraph与大型概念模型的情感分析实践
本文探讨了在企业数字化转型中,大型概念模型(LCMs)与图神经网络结合处理非结构化文本数据的技术方案。LCMs突破传统词汇级处理局限,以概念级语义理解为核心,增强情感分析、实体识别和主题建模能力。通过构建基于LangGraph的混合符号-语义处理管道,整合符号方法的结构化优势与语义方法的理解深度,实现精准的文本分析。具体应用中,该架构通过预处理、图构建、嵌入生成及GNN推理等模块,完成客户反馈的情感分类与主题聚类。最终,LangGraph工作流编排确保各模块高效协作,为企业提供可解释性强、业务价值高的分析结果。此技术融合为挖掘非结构化数据价值、支持数据驱动决策提供了创新路径。
569 6
基于图神经网络的自然语言处理:融合LangGraph与大型概念模型的情感分析实践
|
7月前
|
机器学习/深度学习 数据采集 算法
贝叶斯状态空间神经网络:融合概率推理和状态空间实现高精度预测和可解释性
本文将BSSNN扩展至反向推理任务,即预测X∣y,这种设计使得模型不仅能够预测结果,还能够探索特定结果对应的输入特征组合。在二元分类任务中,这种反向推理能力有助于识别导致正负类结果的关键因素,从而显著提升模型的可解释性和决策支持能力。
568 42
贝叶斯状态空间神经网络:融合概率推理和状态空间实现高精度预测和可解释性
|
编解码 异构计算
RT-DETR改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
RT-DETR改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
898 10
RT-DETR改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
|
机器学习/深度学习 计算机视觉
RT-DETR改进策略【Neck】| ASF-YOLO 注意力尺度序列融合模块改进颈部网络,提高小目标检测精度
RT-DETR改进策略【Neck】| ASF-YOLO 注意力尺度序列融合模块改进颈部网络,提高小目标检测精度
420 3
RT-DETR改进策略【Neck】| ASF-YOLO 注意力尺度序列融合模块改进颈部网络,提高小目标检测精度
|
机器学习/深度学习 编解码 自动驾驶
RT-DETR改进策略【模型轻量化】| 替换骨干网络为MoblieNetV1,用于移动视觉应用的高效卷积神经网络
RT-DETR改进策略【模型轻量化】| 替换骨干网络为MoblieNetV1,用于移动视觉应用的高效卷积神经网络
511 3
RT-DETR改进策略【模型轻量化】| 替换骨干网络为MoblieNetV1,用于移动视觉应用的高效卷积神经网络
|
机器学习/深度学习 移动开发 测试技术
RT-DETR改进策略【模型轻量化】| 替换骨干网络为MoblieNetV2,含模型详解和完整配置步骤
RT-DETR改进策略【模型轻量化】| 替换骨干网络为MoblieNetV2,含模型详解和完整配置步骤
530 1
RT-DETR改进策略【模型轻量化】| 替换骨干网络为MoblieNetV2,含模型详解和完整配置步骤
|
11月前
|
机器学习/深度学习 测试技术 网络架构
FANformer:融合傅里叶分析网络的大语言模型基础架构
近期大语言模型(LLM)的基准测试结果显示,OpenAI的GPT-4.5在某些关键评测中表现不如规模较小的模型,如DeepSeek-V3。这引发了对现有LLM架构扩展性的思考。研究人员提出了FANformer架构,通过将傅里叶分析网络整合到Transformer的注意力机制中,显著提升了模型性能。实验表明,FANformer在处理周期性模式和数学推理任务上表现出色,仅用较少参数和训练数据即可超越传统Transformer。这一创新为解决LLM扩展性挑战提供了新方向。
332 5
FANformer:融合傅里叶分析网络的大语言模型基础架构
RT-DETR改进策略【模型轻量化】| 替换骨干网络为 GhostNet V3 2024华为的重参数轻量化模型
RT-DETR改进策略【模型轻量化】| 替换骨干网络为 GhostNet V3 2024华为的重参数轻量化模型
491 2
RT-DETR改进策略【模型轻量化】| 替换骨干网络为 GhostNet V3 2024华为的重参数轻量化模型
|
12月前
|
人工智能 监控 物联网
写在2025 MWC前夕:AI与移动网络融合的“奇点时刻”
2025年MWC前夕,AI与移动网络融合迎来“奇点时刻”。上海东方医院通过“思维链提示”快速诊断罕见病,某金融机构借助AI识别新型欺诈模式,均展示了AI在推理和学习上的飞跃。5G-A时代,低时延、大带宽特性支持端云协同,推动多模态AI感知能力提升,数字孪生技术打通物理与数字世界,助力各行业智能化转型。AI赋能移动网络,实现智能动态节能和优化用户体验,预示着更聪明、绿色、高效的未来。
254 1
|
机器学习/深度学习
RT-DETR改进策略【Neck】| GSConv+Slim Neck:混合深度可分离卷积和标准卷积的轻量化网络设计
RT-DETR改进策略【Neck】| GSConv+Slim Neck:混合深度可分离卷积和标准卷积的轻量化网络设计
628 11

热门文章

最新文章