一、本文介绍
本文带来的改进机制是MLCA(Mixed local channel attention)翻译来就是混合局部通道注意力,它结合了局部和全局特征以及通道和空间特征的信息,根据文章的内容来看他是一个轻量化的注意力机制,能够在增加少量参数量的情况下从而大幅度的提高检测精度(论文中是如此描述的),根据我的实验内容来看,该注意力机制确实参数量非常少,效果也算不错,而且官方的代码中提供了二次创新的思想和视频讲解非常推荐大家观看。
专栏目录:YOLOv5改进有效涨点目录 | 包含卷积、主干、检测头、注意力机制、Neck上百种创新机制
专栏回顾:YOLOv5改进专栏——持续复现各种顶会内容——内含100+创新
二、MLCA的基本框架原理
因为论文没有开源,所以我只根据官方的图片来进行一个简单的分析。
这张图片描述了混合局部通道注意力(MLCA)的结构和工作原理。它结合了局部和全局特征以及通道和空间特征的信息。下面我根据图片内容总结的它的工作流程:
1. 输入特征图(C,W,H)首先被局部平均池化(LAP)和全局平均池化(GAP)处理。局部池化关注局部区域的特征,而全局池化捕捉整个特征图的统计信息。
2. 局部池化后的特征和全局池化后的特征都经过一个1D卷积(Conv1d)来进行特征转换。此处的1D卷积用于压缩特征通道,同时保持空间维度不变。
3. 经过1D卷积后,特征被重新排列(Reshape),使其适应后续操作。
4. 对局部池化后的特征,使用1D卷积后进行重新排列,然后通过“乘法”操作(X)与原始输入特征相结合。这个过程相当于一种特征选择,强化了对有用特征的关注。
5. 对全局池化后的特征,经过1D卷积和重新排列后,通过“加法”操作与局部池化特征相结合。这个步骤在特征图中融合了全局上下文信息。
6. 最后,经过局部和全局注意力处理的特征图再次通过反池化(UNAP)操作,恢复到原始的空间维度。
7. 右侧的框图提供了MLCA的高级流程图,展示了从输入到输出的整体处理步骤。
总体来说,MLCA模块是为了在保持计算效率的同时,增强网络对于有用特征的捕捉能力。通过在局部和全局层面上结合通道和空间注意力,MLCA从而提高精度。