YOLOv11改进策略【SPPF】| AIFI : 基于Transformer的尺度内特征交互，在降低计算成本的同时提高模型的性能

2025-01-15 58

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文探讨了基于AIFI模块的YOLOv11目标检测改进方法。AIFI是RT-DETR中高效混合编码器的一部分，通过在S5特征层上应用单尺度Transformer编码器，减少计算成本并增强概念实体间的联系，从而提升对象定位和识别效果。实验表明，AIFI使模型延迟降低35%，准确性提高0.4%。

一、本文介绍

本文记录的是基于AIFI模块的YOLOv11目标检测改进方法研究。AIFI是RT-DETR中高效混合编码器的一部分，利用其改进YOLOv11模型，使网络在深层能够更好的捕捉到概念实体之间的联系，并有助于后续模块对对象进行定位和识别。

专栏目录：YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址：YOLOv11改进专栏——以发表论文的角度，快速准确的找到有效涨点的创新点！

二、AIFI设计原理

RT-DETR模型结构：

在这里插入图片描述

AIFI（Attention-based Intra-scale Feature Interaction）模块的相关信息如下：

2.1、设计原理

AIFI是RT-DETR中高效混合编码器的一部分。为了克服多尺度Transformer编码器中存在的计算瓶颈，RT-DETR对编码器结构进行了重新思考。

由于从低级特征中提取出的高级特征包含了关于对象的丰富语义信息，对级联的多尺度特征进行特征交互是冗余的。因此，AIFI基于此设计，通过使用单尺度Transformer编码器仅在S5特征层上进行尺度内交互，进一步降低了计算成本。

对高级特征应用自注意力操作，能够捕捉到概念实体之间的联系，这有助于后续模块对对象进行定位和识别。而低级特征由于缺乏语义概念，且与高级特征交互存在重复和混淆的风险，因此其尺度内交互是不必要的。

2.2、优势

与基准模型相比，AIFI不仅显著降低了延迟（快35%），而且提高了准确性（AP高0.4%）。

论文：https://arxiv.org/abs/2304.08069

三、AIFI模块的实现代码及模型配置

模块完整介绍、个人总结、实现代码、模块改进、以及各模型添加步骤参考如下地址：
https://blog.csdn.net/qq_42591591/article/details/142818434

YOLOv11改进策略【SPPF】| AIFI : 基于Transformer的尺度内特征交互，在降低计算成本的同时提高模型的性能

一、本文介绍

二、AIFI设计原理

2.1、设计原理

2.2、优势

三、AIFI模块的实现代码及模型配置

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

YOLOv11改进策略【SPPF】| AIFI : 基于Transformer的尺度内特征交互，在降低计算成本的同时提高模型的性能

一、本文介绍

二、AIFI设计原理

2.1、设计原理

2.2、优势

三、AIFI模块的实现代码及模型配置

热门文章

最新文章

相关课程

相关电子书

相关实验场景