一、本文介绍
本文给大家带来的改进机制是特征提取网络UniRepLknet,其也是发表于今年12月份的最新特征提取网络,该网络结构的重点在于使用Dilated Reparam Block和大核心指导原则,强调了高效的结构进行通道间通讯和空间聚合,以及使用带扩张的小核心进行重新参数化,该网络结构就是在LKNet基础上的一个升级版本,LKNet我们之前已经出过教程了。UniRepLknet在各种视觉任务中,包括图像分类、目标检测和语义分割,都显示出优异的性能。
欢迎大家订阅我的专栏一起学习YOLO!
专栏目录:YOLOv8改进有效系列目录 | 包含卷积、主干、检测头、注意力机制、Neck上百种创新机制
专栏回顾:YOLOv8改进系列专栏——本专栏持续复习各种顶会内容——科研必备
二、 UniRepLknet的框架原理
UniRepLKNet论文提出了一种新型的大核心卷积神经网络架构。这种架构通过结合非扩张小核心和扩张小核心层来增强非扩张大核心卷积层,旨在优化空间模式层次和表示能力。它强调了根据下游任务选择核心大小的重要性,并展示了该架构在图像识别以外领域(如音频、视频和时间序列数据)的通用性。此外,论文还展示了在各种任务上的领先性能,证明了其多功能性和高效性。
UniRepLKNet的主要创新点包括:
UniRepLKNet的结构上的创新点主要体现在其大核心卷积神经网络的设计上,这包括对大核心的高效利用,以及与传统ConvNets和变换器相比的独特构造。这种架构通过融合非扩张小核心和扩张小核心层来增强大核心层,优化了空间模式层次和网络的表示能力。此外,论文还提出了适用于大核心ConvNets的四个架构设计原则,旨在充分发挥大核心的独特优势,例如通过浅层结构观察更广阔视野,而不需要深入网络层次。
在图像中展示的UniRepLKNet架构设计中,一个显著的结构创新是LaRK(Large Kernel)块,它包括本文提出的Dilated Reparam Block,一个SE(Squeeze-and-Excitation)块,前馈网络(FFN),以及批量归一化(BN)层。LaRK块与SmaK(Small Kernel)块的主要区别在于,LaRK使用深度分离的3x3卷积层代替了Dilated Reparam Block中的层。不同阶段的块通过步长为2的密集3x3卷积层实现的下采样块连接,而这些块可以在不同阶段灵活地排列。这种设计强调了结构的模块化和灵活性,以及通过大核心来增强模型的性能和效率。
在图2中,UniRepLKNet的Dilated Reparam Block通过使用扩张的小核心卷积层来增强非扩张的大核心层。这些扩张层从参数角度看等同于一个具有更大稀疏核心的非扩张卷积层,这使得整个块可以等效地转换成单个大核心卷积。通过重新参数化的过程,多个具有不同扩张率的小核心卷积层被合并成一个等效的大核心卷积层,从而在保持可学习参数数量和计算效率的同时,增强了网络对空间信息的捕获能力。这种设计创新为ConvNets提供了更广泛的感受野,而不会增加模型的深度。