RT-DETR改进策略【Conv和Transformer】| 2024 AssemFormer 结合卷积与 Transformer 优势,弥补传统方法不足

简介: RT-DETR改进策略【Conv和Transformer】| 2024 AssemFormer 结合卷积与 Transformer 优势,弥补传统方法不足

一、本文介绍

本文记录的是利用AssemFormer优化RT-DETR的目标检测网络模型。传统卷积和池化操作会导致信息丢失和压缩缺陷,且传统的注意力机制通常产生固定维度的注意力图,忽略了背景中的丰富上下文信息。本文的利用AssemFormer改进RT-DETR,==以在特征传递和融合过程中增加多尺度的学习能力。==


专栏目录:RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:RT-DETR改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

二、AssemFormer介绍

Exploiting Scale-Variant Attention for Segmenting Small Medical Objects

2.1 设计出发点

  • 弥补传统方法不足:传统的深度学习算法在处理医学图像中的小对象时面临诸多挑战。例如卷积和池化操作会导致信息丢失和压缩缺陷,尤其对于小医学对象,随着网络加深这些问题更加明显。传统的注意力机制通常产生固定维度的注意力图,往往不足以分析医学图像,因为这些方法主要关注中心特征,忽略了背景中的丰富上下文信息,而这些信息对于临床解释至关重要。
  • 结合卷积与Transformer优势:卷积操作侧重于学习医学对象的局部和一般特征,如角落、边缘、角度和颜色;而Transformer模块利用多头自注意力机制提取医学对象的全局信息,包括形态、深度和颜色分布,同时还能学习医学对象的位置关联。为了综合两者的优势,设计了AssemFormer模块。

2.2 原理

2.2.1 结构组成

AssemFormer模块包含一个$3×3$卷积和一个$1×1$卷积,接着是两个Transformer块和两个卷积操作。它通过堆叠和拆分特征图来连接卷积和Transformer操作。

2.2.2 注意力机制

AssemFormer采用的多头部自注意力机制(MHSA),公式为$\mathcal{A}{ViT}(q,k,v)=softmax\left(\frac{qk^{T}}{\sqrt{D{h}}}\right)v$,其中$q$、$k$、$v$是输入序列$z\in\mathbb{R}^{\hat{N}×\dot{D}}$的查询、键和值向量,$N$表示补丁数量,$D$表示补丁大小,$m$个自注意力操作时$D_{h}=D/m$。这种机制有助于补丁交互并丰富上下文信息。

在这里插入图片描述

2.3 特点

  • 融合多尺度特征:通过堆叠和拆分特征图的方式,使得模块能够同时学习输入医学图像的局部和全局表示,从而更好地捕捉不同尺度的特征,为准确分割小医学对象提供更全面的信息。
  • 提高分割性能:在实验中,根据消融研究结果,AssemFormer显著提高了SvANet的分割性能。例如在不同数据集上,SvANet结合AssemFormer在各项评估指标上均取得了较好的成绩,证明了其对小医学对象分割的有效性。
  • 增强特征表示:从特征图的变化可以看出,AssemFormer能够逐渐突出更小的区域,这些区域更准确地与 ground truth对齐。在不同的医学对象分割场景中,都表现出能够更好地聚焦于目标区域,增强了小医学对象的可见性和精确定位,突出了其形态细节和准确位置。

论文:https://arxiv.org/abs/2407.07720
源码: https://github.com/anthonyweidai/SvANet

三、实现代码及RT-DETR修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:

https://blog.csdn.net/qq_42591591/article/details/144076377

相关文章
|
机器学习/深度学习 编解码 PyTorch
DenseNet的应用--语义分割--(DenseASPP )
转载自:https://blog.csdn.net/u011974639 DenseASPP DenseASPP for Semantic Segmentation in Street Scenes 原文地址:DenseASPP 收录:CVPR2018(IEEE Conference on Computer Vision and Pattern Recognition) 代码: PyTorch 简介: 将DeepLab系列中的ASPP和DenseNet中的密集连接相结合,构成了DenseASPP。
5844 1
|
网络协议 网络架构
计算机网络实验(华为eNSP模拟器)——第四章 配置静态路由、动态路由
计算机网络实验(华为eNSP模拟器)——第四章 配置静态路由、动态路由
计算机网络实验(华为eNSP模拟器)——第四章 配置静态路由、动态路由
|
存储 JSON 数据库
Flutter必备技能:轻松掌握本地存储与数据库优化技巧!
Flutter必备技能:轻松掌握本地存储与数据库优化技巧!
435 0
|
机器学习/深度学习 编解码 人工智能
《深度揭秘:生成对抗网络如何重塑遥感图像分析精度》
生成对抗网络(GAN)由生成器和判别器组成,通过对抗训练生成逼真图像。在遥感图像分析中,GAN可扩充数据集、提升超分辨率、去噪增强及提高语义分割精度,有效应对高分辨率、多光谱等挑战,显著提升分类和检测任务的准确性。研究案例表明,GAN使分类精度提高15%以上,并实现4倍分辨率提升。未来,GAN有望进一步优化算法和架构,结合其他AI技术,推动遥感图像分析的创新与突破。
305 2
|
机器学习/深度学习 算法 计算机视觉
YOLOv11改进策略【Conv和Transformer】| 2024 AssemFormer 结合卷积与 Transformer 优势,弥补传统方法不足
YOLOv11改进策略【Conv和Transformer】| 2024 AssemFormer 结合卷积与 Transformer 优势,弥补传统方法不足
333 3
YOLOv11改进策略【Conv和Transformer】| 2024 AssemFormer 结合卷积与 Transformer 优势,弥补传统方法不足
|
机器学习/深度学习 计算机视觉
YOLOv8改进 | 2023 | MPDIoU、InnerMPDIoU助力细节涨点
YOLOv8改进 | 2023 | MPDIoU、InnerMPDIoU助力细节涨点
900 1
|
机器学习/深度学习 算法 算法框架/工具
|
Web App开发
PanTools v1.0.27 多网盘批量管理、遍历分享、转存、重命名、复制...
一款针对多个热门网盘的文件管理、批量分享、批量转存、批量重命名、批量复制、批量链接检测、跨账号移动文件、多账号文件搜索等,支持不同网盘的不同账号的资源文件操作。适用于网站站长、资源爱好者、网盘拉新等,对于管理名下具有多个网盘多个账号具有实用的效果。
1067 0
|
人工智能 测试技术
探索人工智能在测试领域的新纪元:AI编写测试用例的前景
本文介绍了测试用例的重要性及其基本组成元素,如模块、标题、前置条件等。通过实践演练展示了如何利用ChatGPT自动生成测试用例,包括关键词精确匹配、模糊匹配、异常输入和搜索结果为空的场景。通过向ChatGPT提供详细需求和格式规范,可以得到Markdown格式的测试用例,然后导入Excel进行归档。关键在于清晰阐述需求、逐步细化任务,并对ChatGPT的回复进行调整优化。
|
开发框架 .NET
解决NET Core发布iis项目覆盖原有的项目时"另一个程序正在使用此文件,进程无法访问"
解决NET Core发布iis项目覆盖原有的项目时"另一个程序正在使用此文件,进程无法访问"