YOLOv11改进策略【YOLO和Mamba】| 2024 VM-UNet，高效的特征提取模块VSS block 二次创新提高精度

2025-02-04 1708

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： YOLOv11改进策略【YOLO和Mamba】| 2024 VM-UNet，高效的特征提取模块VSS block 二次创新提高精度

一、本文介绍

本文记录的是利用VM-UNet中的VSS block优化YOLOv11的目标检测网络模型。VSS Block与传统模块不同，它汲取了VMamba模型的优势，通过特定结构设计，在保证计算效率的同时，精准建模局部特征并学习长距离依赖，实现局部特征的高效处理与长距离依赖关系的有效学习。本文将其应用于YOLOv11的改进与创新，能让模型更关注图像关键特征区域，抑制背景等无关信息干扰，突出目标物体关键特征。

专栏目录：YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址：YOLOv11改进专栏——以发表论文的角度，快速准确的找到有效涨点的创新点！

二、VM-UNet模型介绍

VM-UNet: Vision Mamba UNet for Medical Image Segmentation

VM-UNet模型设计的出发点是解决现有CNN-based和Transformer-based模型在医学图像分割中的局限性，利用State Space Models（SSMs）的优势，提出一种更有效的医学图像分割模型。

具体来说，CNN-based模型在捕捉长距离信息方面存在不足，而Transformer-based模型由于自注意力机制的二次复杂度导致计算负担较重。SSMs模型如Mamba不仅在建模长距离依赖方面表现出色，还具有线性计算复杂度，这为VM-UNet的设计提供了理论基础。

2.1 VSS block的原理

VSS block基于现代SSM模型中的线性常微分方程（ODE）进行工作。它将一维输入函数或序列$x(t)$通过中间隐状态$h(t)$映射到输出$y(t)$。其中，状态矩阵$A$、投影参数$B$和$C$在模型中起着关键作用。
S4和Mamba通过引入时间尺度参数$\Delta$并使用零阶保持（ZOH）作为离散化规则，将连续系统离散化，使模型更适合深度学习场景。离散化后的SSM模型可以通过线性递归或全局卷积两种方式进行计算。
2.3 VSS block的结构
如图b所示，输入经过Layer Normalization后被分为两个分支。在第一个分支中，输入通过线性层和激活函数（默认为SiLU）。在第二个分支中，输入经过线性层、深度可分离卷积和激活函数后，进入2D-Selective-Scan（SS2D）模块进行特征提取。

在这里插入图片描述

SS2D模块由扫描扩展（scan expanding）、S6块和扫描合并（scan merging）三个组件组成。

  - <font color=navy>**扫描扩展**</font>操作将输入图像沿**四个不同方向**展开为序列，这些序列由`S6块`进行特征提取。
  - <font color=navy>**S6块**</font>基于Mamba的S4框架，通过调整SSM的参数来引入**选择性机制**，能够<font color=darkorange>**区分和保留相关信息，过滤无关信息**</font>。
  - <font color=navy>**扫描合并**</font>操作将**四个方向**的序列求和合并，恢复输出图像大小。
  - 最后，两个分支的特征经过`Layer Normalization`后进行元素积操作，再通过**线性层混合**，并与**残差连接**相结合，形成`VSS block`的输出。

在这里插入图片描述