RT-DETR改进策略【Conv和Transformer】| ACmix 卷积和自注意力的结合,充分发挥两者优势

简介: RT-DETR改进策略【Conv和Transformer】| ACmix 卷积和自注意力的结合,充分发挥两者优势

一、本文介绍

本文记录的是利用ACmix改进RT-DETR检测模型,==卷积自注意力是两种强大的表示学习技术,本文利用两者之间潜在的紧密关系,进行二次创新,实现优势互补,减少冗余,通过实验证明,实现模型有效涨点。==


专栏目录:RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:RT-DETR改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

二、ACmix介绍

On the Integration of Self-Attention and Convolution

2.1 原理

2.1.1 卷积分解

传统的卷积可以分解为多个$1×1$卷积,然后是位移和求和操作。例如对于一个$k×k$的卷积核,可分解为$k^{2}$个$1×$卷积。

2.1.2 自注意力解释

自注意力模块中查询、键和值的投影可以看作是多个$1×1$卷积,然后计算注意力权重并聚合值。

2.1.3 相似性及主导计算复杂度

两个模块的第一阶段都包含类似的$1×1$卷积操作,并且这个第一阶段相比第二阶段在计算复杂度上占主导地位(与通道大小的平方相关),这为整合提供了理论基础。

2.2 结构

  • 第一阶段:输入特征图通过三个$1×1$卷积进行投影并重塑为$N$块,得到一组丰富的中间特征,包含$3×N$个特征图。
  • 第二阶段
    • 自注意力路径:将中间特征收集为$N$组,每组包含三个特征(来自每个$1×1$卷积),作为查询、键和值,按照传统的多头自注意力模块进行处理。
    • 卷积路径:对于卷积核大小为$k$的情况,采用一个轻量级全连接层并生成$k^{2}$个特征图,然后通过位移和聚合这些特征来处理输入特征,从局部感受野收集信息。
    • 最终输出:两条路径的输出相加,其强度由两个可学习的标量$\alpha$和$\beta$控制,即$F{out}=\alpha F{att}+\beta F_{conv}$。

      2.3 优势

  • 计算效率
    • 理论上,在第一阶段的计算复杂度与通道大小相关,相比传统卷积(如$3×3$卷积),在第一阶段的计算成本与自注意力相似且更轻。在第二阶段虽然有额外计算开销,但复杂度与通道大小呈线性关系且相对第一阶段较小。
    • 通过改进位移和求和操作,如采用深度可分离卷积替代低效的张量位移,提高了模块的实际计算效率。
  • 性能优势:在图像识别和下游任务(如图像分类、语义分割和目标检测)上,与竞争基准相比,模型取得了持续改进的结果。
  • 灵活性和通用性
    • 模型可以自适应地调整卷积和自注意力路径的强度,根据网络中滤波器的位置灵活组合两个模块。
    • 可以应用于多种自注意力模式,如Patchwise attention、Window attention和Global attention等变体。

论文:https://arxiv.org/pdf/2111.14556
源码:https://github.com/LeapLabTHU/ACmix

三、实现代码及RT-DETR修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:

https://blog.csdn.net/qq_42591591/article/details/144081988

相关文章
|
8月前
|
域名解析 存储 缓存
阿里云服务器带宽怎么选?巧用负载均衡节省带宽费用技巧与注意事项参考
在选购阿里云服务器的过程中,设定合适的云服务器带宽是必不可少的一步。为了确保云服务器带宽的稳定性,用户通常会倾向于选择固定带宽,比如1Mbps、3Mbps、10Mbps或是20Mbps等规格。不过,在挑选云服务器带宽的过程中,众多用户常常会陷入一个两难的境地:怎样做才能在确保云服务器稳定运行的同时,又能够合理控制成本支出呢?本文将为大家介绍一种借助阿里云负载均衡产品来节省带宽费用的方法,以供参考借鉴。
|
机器学习/深度学习 人工智能 文字识别
ultralytics YOLO11 全新发布!(原理介绍+代码详见+结构框图)
本文详细介绍YOLO11,包括其全新特性、代码实现及结构框图,并提供如何使用NEU-DET数据集进行训练的指南。YOLO11在前代基础上引入了新功能和改进,如C3k2、C2PSA模块和更轻量级的分类检测头,显著提升了模型的性能和灵活性。文中还对比了YOLO11与YOLOv8的区别,并展示了训练过程和结果的可视化
25661 0
|
人工智能 数据挖掘 BI
结构化表格也成模态!浙大TableGPT2开源,最强表格AI问世
在AI快速发展中,大型语言模型(LLMs)如GPTs等展现了巨大潜力。然而,表格数据整合这一关键领域发展不足。浙江大学提出TableGPT2,使用593.8K张表格和2.36M查询-表格-输出三元组进行预训练和微调。该模型创新性地引入了表格编码器,增强了处理模糊查询、缺失列名和不规则表格的能力。TableGPT2在23个基准测试指标上表现出色,7B模型性能提升35.20%,72B模型提升49.32%。其开源代码和模型为社区提供了强大的研究工具。
783 12
|
机器学习/深度学习 PyTorch TensorFlow
一文带你了解 三种深度学习框架(Caffe,Tensorflow,Pytorch)的基本内容、优缺点以及三者的对比
一文带你了解 三种深度学习框架(Caffe,Tensorflow,Pytorch)的基本内容、优缺点以及三者的对比
1418 1
|
机器学习/深度学习 人工智能 缓存
Griffin模型的主要架构和特点
【2月更文挑战第16天】Griffin模型的主要架构和特点
597 2
Griffin模型的主要架构和特点
|
NoSQL Ubuntu 关系型数据库
轻松上手 Docker:一键部署常用软件环境指南
轻松上手 Docker:一键部署常用软件环境指南
1802 0
|
Cloud Native Java 关系型数据库
阿里云 PolarDB-X 团队25届实习生招聘
面向2025届毕业生,阿里云PolarDB分布式数据库团队招聘实习生。团队专注极端数据库场景,研发云原生数据库,曾获多项技术奖项。实习期间,你将有机会与业界专家合作,参与前沿技术项目,优秀实习生可直接转正。岗位包括Java、C++、Golang等研发工程师,工作地点在杭州或北京。简历投递至:ximing.yd@alibaba-inc.com。
|
人工智能 搜索推荐 UED
[AI Mem0 MultiOn] Mem0集成MultiOn,实现高效自动化网页任务
[AI Mem0 MultiOn] Mem0集成MultiOn,实现高效自动化网页任务
|
移动开发 负载均衡 小程序
代驾app开发丨代驾系统开发玩法详情丨代驾系统开发网页版/H5/小程序及源码部署
**司机/代驾员端**:司机可以通过APP接收订单,查看订单详情、路线和导航,提供现场服务并进行确认。
|
Python
PyEMD包安装导入踩坑
PyEMD包安装需要注意的地方
2067 1

热门文章

最新文章