一、本文介绍
本文记录的是基于AIFI模块的YOLOv11目标检测改进方法研究。AIFI
是RT-DETR
中高效混合编码器的一部分,利用其改进YOLOv11
模型,使网络在深层能够更好的捕捉到概念实体之间的联系,并有助于后续模块对对象进行定位和识别。
专栏目录:YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:YOLOv11改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!
二、AIFI设计原理
RT-DETR
模型结构:
AIFI(Attention-based Intra-scale Feature Interaction)
模块的相关信息如下:
2.1、设计原理
AIFI
是RT-DETR
中高效混合编码器的一部分。为了克服多尺度Transformer编码器
中存在的计算瓶颈,RT-DETR
对编码器结构进行了重新思考。
由于从低级特征中提取出的高级特征包含了关于对象的丰富语义信息,对级联的多尺度特征进行特征交互是冗余的。因此,AIFI
基于此设计,通过使用单尺度Transformer
编码器仅在S5特征层
上进行尺度内交互,进一步降低了计算成本。
对高级特征应用自注意力操作,能够捕捉到概念实体之间的联系,这有助于后续模块对对象进行定位和识别。而低级特征由于缺乏语义概念,且与高级特征交互存在重复和混淆的风险,因此其尺度内交互是不必要的。
2.2、优势
与基准模型相比,AIFI不仅显著降低了延迟(快35%),而且提高了准确性(AP高0.4%)。
论文:https://arxiv.org/abs/2304.08069
三、AIFI模块的实现代码及模型配置
模块完整介绍、个人总结、实现代码、模块改进、以及各模型添加步骤参考如下地址:
https://blog.csdn.net/qq_42591591/article/details/142818434