YOLOv11改进策略【Conv和Transformer】| 2024 AssemFormer 结合卷积与 Transformer 优势,弥补传统方法不足

简介: YOLOv11改进策略【Conv和Transformer】| 2024 AssemFormer 结合卷积与 Transformer 优势,弥补传统方法不足

一、本文介绍

本文记录的是利用AssemFormer优化YOLOv11的目标检测网络模型。传统卷积和池化操作会导致信息丢失和压缩缺陷,且传统的注意力机制通常产生固定维度的注意力图,忽略了背景中的丰富上下文信息。本文的利用AssemFormer改进YOLOv11,==以在特征传递和融合过程中增加多尺度的学习能力。==


专栏目录:YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:YOLOv11改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

二、AssemFormer介绍

Exploiting Scale-Variant Attention for Segmenting Small Medical Objects

2.1 设计出发点

  • 弥补传统方法不足:传统的深度学习算法在处理医学图像中的小对象时面临诸多挑战。例如卷积和池化操作会导致信息丢失和压缩缺陷,尤其对于小医学对象,随着网络加深这些问题更加明显。传统的注意力机制通常产生固定维度的注意力图,往往不足以分析医学图像,因为这些方法主要关注中心特征,忽略了背景中的丰富上下文信息,而这些信息对于临床解释至关重要。
  • 结合卷积与Transformer优势:卷积操作侧重于学习医学对象的局部和一般特征,如角落、边缘、角度和颜色;而Transformer模块利用多头自注意力机制提取医学对象的全局信息,包括形态、深度和颜色分布,同时还能学习医学对象的位置关联。为了综合两者的优势,设计了AssemFormer模块。

2.2 原理

2.2.1 结构组成

AssemFormer模块包含一个$3×3$卷积和一个$1×1$卷积,接着是两个Transformer块和两个卷积操作。它通过堆叠和拆分特征图来连接卷积和Transformer操作。

2.2.2 注意力机制

AssemFormer采用的多头部自注意力机制(MHSA),公式为$\mathcal{A}{ViT}(q,k,v)=softmax\left(\frac{qk^{T}}{\sqrt{D{h}}}\right)v$,其中$q$、$k$、$v$是输入序列$z\in\mathbb{R}^{\hat{N}×\dot{D}}$的查询、键和值向量,$N$表示补丁数量,$D$表示补丁大小,$m$个自注意力操作时$D_{h}=D/m$。这种机制有助于补丁交互并丰富上下文信息。

在这里插入图片描述

2.3 特点

  • 融合多尺度特征:通过堆叠和拆分特征图的方式,使得模块能够同时学习输入医学图像的局部和全局表示,从而更好地捕捉不同尺度的特征,为准确分割小医学对象提供更全面的信息。
  • 提高分割性能:在实验中,根据消融研究结果,AssemFormer显著提高了SvANet的分割性能。例如在不同数据集上,SvANet结合AssemFormer在各项评估指标上均取得了较好的成绩,证明了其对小医学对象分割的有效性。
  • 增强特征表示:从特征图的变化可以看出,AssemFormer能够逐渐突出更小的区域,这些区域更准确地与 ground truth对齐。在不同的医学对象分割场景中,都表现出能够更好地聚焦于目标区域,增强了小医学对象的可见性和精确定位,突出了其形态细节和准确位置。

论文:https://arxiv.org/abs/2407.07720
源码: https://github.com/anthonyweidai/SvANet

三、实现代码及YOLOv11修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:

https://blog.csdn.net/qq_42591591/article/details/142818564

相关文章
|
域名解析 .NET 开发框架
万网云解析设置二级域名解析到同IP不同端口
首先,进入云解析(注意,以下图片均做修改,仅做参考) 步骤阅读 2 先来使用端口的方式访问访问asp,ASP SUCCESS 正常。 3 继续,打开解析,进入如下页面,应该看到了一个叫做隐性URL,就是看这个。
10522 10
|
Serverless 计算机视觉
YOLOv11改进策略【小目标改进】| Shape-NWD:融合改进,结合Shape-IoU和NWD 更好地适应小目标特性
YOLOv11改进策略【小目标改进】| Shape-NWD:融合改进,结合Shape-IoU和NWD 更好地适应小目标特性
2414 9
|
机器学习/深度学习 C语言 计算机视觉
YOLOv11改进策略【Neck】| HS-FPN:高级筛选特征融合金字塔,加强细微特征的检测
YOLOv11改进策略【Neck】| HS-FPN:高级筛选特征融合金字塔,加强细微特征的检测
1397 11
YOLOv11改进策略【Neck】| HS-FPN:高级筛选特征融合金字塔,加强细微特征的检测
|
人工智能 计算机视觉
YOLOv11改进策略【损失函数篇】| NWD损失函数,提高小目标检测精度
YOLOv11改进策略【损失函数篇】| NWD损失函数,提高小目标检测精度
2010 6
YOLOv11改进策略【损失函数篇】| NWD损失函数,提高小目标检测精度
|
编解码 计算机视觉
YOLOv11改进策略【YOLO和Mamba】| 替换骨干 Mamba-YOLOv11-T !!! 最新的发文热点
YOLOv11改进策略【YOLO和Mamba】| 替换骨干 Mamba-YOLOv11-T !!! 最新的发文热点
2146 7
YOLOv11改进策略【YOLO和Mamba】| 替换骨干 Mamba-YOLOv11-T !!! 最新的发文热点
|
机器学习/深度学习 计算机视觉 知识图谱
YOLOv11改进策略【Conv和Transformer】| 上下文转换器CoT 结合静态和动态上下文信息的注意力机制 (含二次创新C3k2)
YOLOv11改进策略【Conv和Transformer】| 上下文转换器CoT 结合静态和动态上下文信息的注意力机制 (含二次创新C3k2)
529 10
YOLOv11改进策略【Conv和Transformer】| 上下文转换器CoT 结合静态和动态上下文信息的注意力机制 (含二次创新C3k2)
|
机器学习/深度学习 人工智能 文字识别
ultralytics YOLO11 全新发布!(原理介绍+代码详见+结构框图)
本文详细介绍YOLO11,包括其全新特性、代码实现及结构框图,并提供如何使用NEU-DET数据集进行训练的指南。YOLO11在前代基础上引入了新功能和改进,如C3k2、C2PSA模块和更轻量级的分类检测头,显著提升了模型的性能和灵活性。文中还对比了YOLO11与YOLOv8的区别,并展示了训练过程和结果的可视化
26124 0
|
计算机视觉
【YOLOv8改进 - 特征融合NECK】 HS-FPN :用于处理多尺度特征融合的网络结构,降低参数
MFDS-DETR是针对白细胞检测的创新方法,它通过HS-FPN和可变形自注意力解决规模差异和特征稀缺问题。HS-FPN利用通道注意力模块增强特征表达,改善多尺度挑战。代码和数据集可在给定链接获取。此方法在WBCDD、LISC和BCCD数据集上表现优越,证明了其有效性和通用性。YOLO系列文章提供了更多目标检测改进和实战案例。
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【损失函数篇】| WIoU v3:针对低质量样本的边界框回归损失函数
YOLOv11改进策略【损失函数篇】| WIoU v3:针对低质量样本的边界框回归损失函数
3463 6
|
机器学习/深度学习 编解码 计算机视觉
YOLOv11改进策略【Head】| ASFF 自适应空间特征融合模块,改进检测头Detect_ASFF
YOLOv11改进策略【Head】| ASFF 自适应空间特征融合模块,改进检测头Detect_ASFF
2558 13
YOLOv11改进策略【Head】| ASFF 自适应空间特征融合模块,改进检测头Detect_ASFF