YOLOv11 改进 - 主干网络| 集成Mamba-YOLO(AAAI 2025),Mamba-YOLOv11-T 替换骨干,破解全局依赖建模难题,实现高效实时检测

简介: Mamba YOLO提出将状态空间模型(SSM)引入实时目标检测,融合YOLO架构优势,实现“又快又准”。其通过ODMamba骨干网络解决自注意力二次复杂度问题,无需预训练;设计RG块增强局部细节建模,提升定位精度;结合多尺度融合策略,在COCO上小模型达1.5毫秒推理、mAP提升7.5%,兼顾高效与性能。

前言

本文介绍Mamba YOLO,为图片物体识别提供了“又快又准”的新方案。传统CNN架构运行快但难以捕捉远距离关联物体,Transformer架构精度高但计算量呈平方级增长,而SSM虽计算量为线性级且能抓全局关联,但用于图片识别时细节定位不准。为此,Mamba YOLO做了三项关键优化:引入ODMamba骨干网络,解决自注意力的二次复杂度问题,且无需预训练;设计ODMamba宏观结构确定最佳阶段比例和缩放大小;采用多分支结构的RG块建模通道维度,解决SSM在序列建模中的不足。在COCO数据集测试中,其小版本推理时间达1.5毫秒,mAP提高7.5%。

文章目录: YOLOv11改进大全:卷积层、轻量化、注意力机制、损失函数、Backbone、SPPF、Neck、检测头全方位优化汇总

专栏链接: YOLOv11改进专栏

介绍

image-20251219230514248

摘要

在深度学习技术的快速发展推动下,YOLO系列为实时目标检测器设立了新的基准。此外,基于Transformer的结构已成为该领域最强大的解决方案,大大扩展了模型的感受野并实现了显著的性能提升。然而,这种改进是有代价的,因为自注意力机制的二次复杂度增加了模型的计算负担。为解决这一问题,我们提出了一种简单而有效的基线方法,称为Mamba YOLO。我们的贡献如下:

1) 我们提出在ODMamba骨干网络中引入状态空间模型(SSM),以线性复杂度解决自注意力的二次复杂度问题。与其他基于Transformer和SSM的方法不同,ODMamba易于训练,不需要预训练。

2) 针对实时性要求,我们设计了ODMamba的宏观结构,确定了最佳阶段比例和缩放大小。

3) 我们设计了采用多分支结构的RG块来建模通道维度,这解决了SSM在序列建模中可能存在的限制,如感受野不足和图像定位能力弱等问题。这种设计更准确且显著地捕捉了局部图像依赖关系。

在公开的COCO基准数据集上进行的广泛实验表明,与先前的方法相比,Mamba YOLO实现了最先进的性能。具体来说,Mamba YOLO的微型版本在单个4090 GPU上实现了1.5毫秒的推理时间,mAP提高了7.5%。PyTorch代码可在以下链接获取:https://github.com/HZAIZJNU/Mamba-YOLO

文章链接

论文地址:论文地址

代码地址:代码地址

基本原理

Mamba YOLO,简单说就是给“识别图片里物体”的技术搞了个“又快又准”的新方案,解决了之前同类模型的痛点。

1. 为啥要搞这个新模型?

之前做“图片物体识别”(比如识别照片里的车、人、动物)的模型有两个大问题,有点“鱼和熊掌不可兼得”:

  • 一类是老款CNN架构(比如早期YOLO):跑起来快,但只能关注图片局部,对“远距离关联的物体”(比如左上角和右下角的两只猫)捕捉不好,容易漏判或误判;
  • 另一类是Transformer架构:能看清全局关联,精度高,但计算量是“平方级”的——图片越大、内容越复杂,计算量就暴涨,跑起来特别慢,没法满足“实时识别”(比如监控抓拍、自动驾驶)的需求。

后来出现了一种叫“SSM(状态空间模型)”的技术(比如Mamba架构),计算量是“线性级”的(图片变大,计算量稳步增加,不暴涨),还能抓全局关联,但它原本是用来处理文字的,直接套在图片识别上就“水土不服”——对图片的细节定位不准,也不会利用图片的多通道信息。

所以研究者就想:把SSM和YOLO结合,搞个“取长补短”的新模型,既快又准。

2. 新模型厉害在哪?(3个核心设计)

为了让SSM适配图片识别,研究者做了3个关键优化,相当于给模型“量身定制”了装备:

  • 装备1:ODMamba骨干网络:把SSM改成了适合图片检测的结构,不用像Transformer那样先在超大数据集上“预热训练”(省了很多时间和资源),计算量还是线性的,解决了“慢”的问题;
  • 装备2:RG Block(残差门控模块):SSM擅长看全局,但看不清局部细节(比如物体的边角、纹理),这个模块就像“双摄像头”——一个分支抓全局特征,一个分支抓局部细节,还能通过“筛选机制”留下有用信息,让物体定位更准;
  • 装备3:Vision Clue Merge(视觉线索融合):之前的模型缩小图片尺寸时,容易丢很多关键细节(比如小物体的轮廓),这个设计能在缩小图片的同时,保住更多视觉信息,帮模型更好地识别物体。

另外还做了个贴心设计:搞了“小(Tiny)、中(Base)、大(Large)”三个版本——手机端用小版本(省电快),服务器端用大版本(精度高),适配不同场景。

3. 实际测试效果咋样?(真·又快又准)

在公开的COCO数据集(相当于图片识别的“高考”)上测试,结果很亮眼:

  • 小版本(Mamba YOLO-T):在单块4090显卡上,1.5毫秒就能处理一张图(比眨眼睛快多了),精度比同级别其他模型高7.5%左右,而且需要的参数少了近一半(更轻量化);
  • 中版本(Mamba YOLO-B):和同参数的模型比,精度高3.7%,跑起来还快1.8毫秒;
  • 大版本(Mamba YOLO-L):和当前最顶尖的模型比,精度差不多甚至更高,但参数更少、跑起来更快,而且图片越大,优势越明显(其他模型图片变大后会变慢,它还是稳步高效)。

更厉害的是,在复杂场景下(比如物体重叠多、背景乱、有遮挡),它也能准确识别,比其他模型表现更稳。

4. 总结一下

Mamba YOLO是第一个把Mamba(SSM架构)用到“实时物体识别”的模型,核心就是“让文字领域的高效技术适配图片任务”。它不用复杂的预热训练,还能灵活适配不同设备,既解决了老模型“慢”或“不准”的问题,又填补了SSM在图片检测上的空白,给监控、自动驾驶、手机拍照识别等需要“又快又准”的场景,提供了一个更好的选择。

image.png

相关文章
|
2月前
|
机器学习/深度学习 编解码 计算机视觉
YOLOv11改进 - C3k2融合 | C3k2融合 IIA信息整合注意力(Information Integration Attention )平衡精度与计算成本 | TGRS2025
本文提出信息整合注意力(IIA)机制,融合通道拼接、双方向池化与轻量1D卷积,精准捕捉遥感图像空间关系,抑制噪声,平衡精度与效率。集成于YOLOv11后显著提升分割性能。
YOLOv11改进 - C3k2融合 | C3k2融合 IIA信息整合注意力(Information Integration Attention )平衡精度与计算成本 | TGRS2025
|
21天前
|
机器学习/深度学习 人工智能 计算机视觉
YOLO26改进 - 注意力机制 | 多扩张通道细化器MDCR 通过通道划分与异构扩张卷积提升小目标定位能力
本文介绍了一种在YOLO26目标检测模型中引入高效解码器模块EMCAD的创新方法,以提升模型在资源受限场景下的性能与效率。EMCAD由多个模块构成,其中核心的EUCB(高效上卷积块)通过上采样、深度可分离卷积、激活归一化和通道调整等操作,兼顾了特征质量与计算成本。实验结果显示,该模块在显著减少参数与FLOPs的同时仍具备优异性能。文章还提供了完整的YOLO26模型集成流程、配置和训练实战。
YOLO26改进 - 注意力机制 | 多扩张通道细化器MDCR 通过通道划分与异构扩张卷积提升小目标定位能力
|
2月前
|
机器学习/深度学习 编解码 机器人
YOLOv11 改进 - C2PSA | C2PSA融合Mask Attention掩码注意力,可学习掩码矩阵破解低分辨率特征提取难题 | 2025 预印
本文提出MaskAttn-UNet,融合卷积效率与注意力全局视野,通过可学习掩码选择性关注关键区域,提升低分辨率图像分割精度。模块集成至YOLOv11,兼顾性能与效率,适用于资源受限场景,在多任务中表现优异。
YOLOv11 改进 - C2PSA | C2PSA融合Mask Attention掩码注意力,可学习掩码矩阵破解低分辨率特征提取难题 | 2025 预印
|
2月前
|
机器学习/深度学习 算法 数据挖掘
YOLOv11改进 - C3k2融合 | C3k2融合CBSA 收缩 - 广播自注意力:轻量级设计实现高效特征压缩,优化处理效率 | NeurIPS 2025
本文提出收缩-广播自注意力(CBSA),通过选取代表性token进行收缩计算并广播结果,实现高效、可解释的线性复杂度注意力机制。其逻辑透明,统一多种注意力形式,并集成至YOLOv11的C3k2模块,在视觉任务中展现优越性能与速度优势。
YOLOv11改进 - C3k2融合 | C3k2融合CBSA 收缩 - 广播自注意力:轻量级设计实现高效特征压缩,优化处理效率 | NeurIPS 2025
|
2月前
|
机器学习/深度学习
YOLOv11 改进 - 注意力机制 | DCAFE双坐标注意力:并行坐标注意力 + 双池化融合
本文提出DCAFE模块,结合并行坐标注意力与双池化融合机制,增强YOLOv11对药用花卉的特征提取能力。通过平均与最大池化并行捕获全局与局部特征,提升分类精度,在两个数据集上准确率分别提高6.50%和5.59%。
YOLOv11 改进 - 注意力机制 | DCAFE双坐标注意力:并行坐标注意力 + 双池化融合
|
2月前
|
机器学习/深度学习 算法 atlas
YOLOv11 改进 - 注意力机制 MCAttn 蒙特卡洛注意力:全局上下文与局部细节协同建模,破解微小目标特征表达难题
本文提出将蒙特卡洛注意力(MCAttn)模块融入YOLOv11,通过随机采样多尺度池化特征并加权融合,增强模型对小目标的敏感性。MCAttn兼顾局部细节与全局上下文,提升检测精度,尤其适用于医学图像中小面积病灶识别,显著改善特征丢失问题,且保持轻量化与高效推理。
YOLOv11 改进 - 注意力机制 MCAttn 蒙特卡洛注意力:全局上下文与局部细节协同建模,破解微小目标特征表达难题
|
2月前
|
机器学习/深度学习 算法 索引
YOLOv11改进 - 卷积Conv | 加权卷积wConv:无损替换标准卷积,增强空间建模与特征提取质量
本文提出加权卷积(wConv),通过引入距离感知的密度函数,自适应调整邻域像素权重,突破传统卷积等权局限。结合双优化器策略,在不增加参数量的前提下提升特征提取能力。集成于YOLOv11后显著降低损失、提高检测精度,适用于图像去噪等密集预测任务。
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【YOLO和Mamba】| 替换骨干 Mamba-YOLOv11-L !!! 最新的发文热点
YOLOv11改进策略【YOLO和Mamba】| 替换骨干 Mamba-YOLOv11-L !!! 最新的发文热点
476 10
YOLOv11改进策略【YOLO和Mamba】| 替换骨干 Mamba-YOLOv11-L !!! 最新的发文热点
|
编解码 计算机视觉
YOLOv11改进策略【YOLO和Mamba】| 替换骨干 Mamba-YOLOv11-T !!! 最新的发文热点
YOLOv11改进策略【YOLO和Mamba】| 替换骨干 Mamba-YOLOv11-T !!! 最新的发文热点
1908 7
YOLOv11改进策略【YOLO和Mamba】| 替换骨干 Mamba-YOLOv11-T !!! 最新的发文热点
|
机器学习/深度学习 机器人 网络架构
YOLOv11改进策略【模型轻量化】| 替换轻量化骨干网络:ShuffleNet V1
YOLOv11改进策略【模型轻量化】| 替换轻量化骨干网络:ShuffleNet V1
1072 11
YOLOv11改进策略【模型轻量化】| 替换轻量化骨干网络:ShuffleNet V1

热门文章

最新文章