简单有效 | 详细解读Interflow用注意力机制将特征更好的融合(文末获取论文)

简介: 简单有效 | 详细解读Interflow用注意力机制将特征更好的融合(文末获取论文)

1简介


传统的CNN模型具有层次结构,利用最后一层的特征映射来获得预测输出。然而,很难确定最优网络深度,并使中间层学习显著的特征。

针对传统的CNN模型,本文提出了Interflow算法。Interflow根据深度将cnn划分为几个阶段,并利用每个阶段的特征映射进行预测。然后,将这些预测分支输入到一个精心设计的注意力模块中,该模块学习这些预测分支的权值,并将其聚合得到最终的输出。

Interflow对浅层和深层学习到的特征进行加权和融合,使各个阶段的特征信息得到合理有效的处理,使中间层能够学习到更多有区别的特征,增强了模型的表示能力。

另外,通过引入注意机制,Interflow可以缓解梯度消失问题,降低网络深度选择的难度,减轻可能出现的过拟合问题。此外,它可以避免网络退化。与原模型相比,带有Interflow的CNN模型在多个基准数据集上获得了更高的测试精度。


2相关工作


2.1 辅助分类器

大多数backbone模型仅利用最后一层的特征映射进行Softmax分类并输出预测结果。然而,GoogLeNet在中间特征层添加了两个辅助分类器(Inception 4a和4d模块)来辅助训练。在训练过程中,将这2个辅助分类器的分类损失与最后一层特征映射(Inception 5b模块)得到的分类损失相乘,权重为0.3,即可得到总损失。然后进行反向传播更新权值。在测试过程中,GoogLeNet简单地去掉了这两个辅助分类器,只使用最后一个分类器进行分类和预测。

添加2个辅助分类器的基本目的是同时提供正则化和避免梯度消失问题。此外,它应该在正向引导梯度。另外,一些层次较浅的CNN模型取得了较好的性能,这说明CNN模型的中间层需要有较强的识别能力。因此,辅助分类器利用中间层的输出来辅助分类,迫使中间层卷积学习有区别的有效特征。

但实验数据表明,辅助分类器的作用不大。与不使用辅助分类器的GoogLeNet模型相比,使用辅助分类器的GoogLeNet模型在ImageNet数据集上仅提高了约0.5%的测试精度。此外,使用一个辅助分类器的GoogLeNet模型可以达到几乎相同的效果。

本文认为,虽然GoogleNet采用的这些辅助分类器可以缓解梯度消失的问题,但是它并没有很好地利用中间卷积层提取的有效特征

此外,它融合辅助分类器的方法可能不恰当,从而不能使中间层学习更多的特征。最后,在预测过程中直接丢弃辅助分类器,导致辅助分类器在结果预测中没有起到积极有效的作用

2.2 Multi-layer Features

考虑到目标检测任务,输入的图像通常包含大的和小的目标。深层CNN特征映射具有较强的语义特征,有利于分类识别。但感受野较大,特征分辨率较低。在这种情况下,如果仍然只使用上一层的特征映射进行预测,很容易导致对小目标的漏检和对候选框的定位精度不高。中、浅层的特征映射具有较大的特征分辨率,有利于目标的定位。

因此,SSD算法不仅为上一个feature map设置proposal box,还为浅、中、深6种不同比例尺的feature map建立proposal box。在较浅层的feature map中构建相对较小的proposal box来检测小目标,在较深层的feature map中构建较大的proposal box来检测大目标。

然而,SSD算法对小目标的检测效果较差。其原因是浅层特征的语义信息不足,无法完成预测。因此,研究人员提出了DSSD算法对深、浅层特征映射进行特征融合。

具体来说,DSSD直接利用最深层的feature map进行回归和分类。然后对该特征映射进行反卷积,再与浅层特征映射的元素相乘,得到深、浅层特征融合。融合特征的输出可以通过回归进行分类和计算。同样,如果继续对浅层特征的feature map进行反卷积和融合,融合后总共可以输出6张feature map。通过回归和分类,可以对这6个特征图进行预测。因此,DSSD输出6个预测。DSSD将深层特征集成到浅层特征映射中,提升了浅层特征的语义信息,提高了模型性能,特别是对小目标的检测

本文认为,深层和浅层特征的信息融合在性能改善中起着至关重要的作用。然而,正是由于不同层次的特征映射采用了独立的分类和回归预测分支,才能够区分出大目标和小目标的检测任务。因此,这些较浅的卷积层能够学习更多的鉴别特征。受此启发,本文提出了Interflow,该方法在主干CNN模型的不同层增加了预测分支。最后,通过一个简单的线性加权或一个拟实现注意机制的学习权层,将分支的预测融合得到最终输出。本设计旨在使网络同时利用深层和浅层中不同层次的抽象信息。此外,它使中间的卷积层能够学习更多的特征,最终获得更优的输出。

2.3 Attention Mechanism

注意机制起源于人类视觉的研究。为了有效地利用有限的视觉资源来处理信息,人类有选择地专注于视觉区域的特定部分。注意力机制主要是确定需要注意的输入部件,并将有限的信息处理资源分配给这些重要部件。

在计算机视觉领域,注意力机制被引入到视觉信息的处理中。传统的局部图像特征提取、显著性检测和滑动窗口都可以视为一种注意力机制。此外,神经网络中的注意力机制通常是通过一个附加的注意力模块来实现的。这个注意力模块可以为输入的不同部分分配特定的权重。一般来说,注意力机制可以分为2种形式,即硬注意力机制软注意力机制

硬注意力机制采用手动固定权重。它迫使计算机集中在需要注意的部分,并减少来自其他部分的影响。然而,它只对特定的采样图片有效。而且,由于权值掩模没有学习到的参数,它是一个不可微分的常数,不可能更新模型中的权值。

与此相反,软注意力机制在卷积层之间使用了一层学习的权重掩码。因此,它可以通过训练识别出神经网络应该密切关注的部分。注意力机制最初广泛应用于自然语言处理领域。引入自注意力机制的Transformer模型是一个经典案例。受NLP的启发,CV领域的模型也不断引入注意力机制。

在cnn中,注意力机制通常有2种实现模式,即空间注意力通道注意力。它们的目的是对输入数据进行重采样,并加强特定对象。

在一种常见的空间注意力模型中,输出可以通过可微分的权重掩模和卷积特征映射之间的点态矩阵相乘得到。

另一方面,通道注意力对特征通道进行加权计算。

SENet是一种典型的通道注意力实现。SENet利用SE模块自动学习各个特征通道的重要度。CBAM兼顾了空间和通道2方面。

Interflow受到注意力机制的启发,通过注意力机制对不同层次特征映射的预测结果进行加权,得到最终的输出。因此,该模型可以学习不同分支获得的结果的重要程度,降低网络深度选择的难度,缓解极深网络造成的网络退化。


3Interflow


3.1 Interflow算法

根据上面的分析可以知道中间的卷积层需要学习判别特征。此外,还应降低选择网络深度的难度,合理有效地利用不同层次的特征。因此,Interflow算法就是为了这些目的而设计的。

Interflow首先根据层次的深度将CNN划分为不同的阶段。对于每个阶段的最后一个卷积层,通过自适应平均池化,特征映射的大小减少到。然后,得到的输出经过一个全连接层,得到该阶段不同类别的置信系数。

随后,将这些具有不同置信系数的通道连接起来。同样,来自不同分支的特征信息交叉输入到注意力机制模块中,目的是使模型能够合理组织和利用不同阶段学习到的特征。因此,该模式专注于有效的特征,丢弃冗余的特征。通过注意力机制将多层特征聚合后,最终输入到softmax分类器中以实现最终输出。

3.2 注意力模块

如前所述,注意力机制的实现方法包括硬注意力机制软注意力机制。同样,Interflow的注意力模块也有2种实现方式,即通过各个分支的信息流的交集来实现。

硬注意力模块

图a 硬注意模块示意图

作为一种手工设计的权重,难以注意的是将不同阶段的输出赋予手工设计的权重。可以直接把每个分支的权重看作一个超参数。但是,当分支流的数量太大时,就会有太多的超参数。因此,很难得到最优组合。此外,在对模型进行多次训练之前无法知道对于一个特定的任务,模型应该集中在哪个阶段。也就是说,手工设置无法合理整合多个分支的特征信息。因此,更注重软注意力。

软注意力模块

                                         图b 软注意力模块示意图

软注意力允许模型独立学习权重。具体来说,利用1×n卷积来让模型学习每个分支的权重。因此,它使模型能够识别出特定任务需要注意的阶段特征信息。并合理有效地整合了不同阶段的特征信息。

因为不同阶段的特征信息可能对不同的类别有偏好,也就是说,它可能对特定的类别学习到更有区别性的特征。因此,在后续的实验中也制作了模型来学习每个额外分支中不同类别置信度的权重。这是通过用逐点的n×n卷积代替1×n卷积来实现的。

3.3 优点

优点1

Interflow利用注意力机制有效利用了不同阶段和抽象层次的特征映射。从而提高了对特征信息的利用。此外,它迫使中间的卷积层学习更多有用的特征。

优点2

Interflow可以解决梯度消失问题,类似于在系统中添加辅助分类器的GoogLeNet。某些中间卷积层直接连接到最终输出,因此梯度在衰减之前可以传播到较浅的层。

优点3

此外,CNN的浅层卷积层拟合速度要快于深层卷积层。通过对不同阶段分支权值的自主学习,在训练的最后阶段,高阶阶段分支权值可能为负,高阶阶段分支权值可能为正,这可能会降低浅层卷积层的拟合速度,在一定程度上降低了浅层卷积层过度学习导致过拟合的可能性。

优点4

当设计一个CNN模型的时候,通常无法提前知道模型的合理深度。而Interflow算法能够对冗余的深层卷积层学习微小甚至零权值,从而减少对这些卷积层特征信息的关注。进而降低了网络深度选择的难度。此外,它降低了模型因层数过多或复杂度过高而产生的过拟合风险。

优点5

通过为这些破坏模型表示能力的极深层阶段分配轻微或零权值,Interflow算法可以缓解应用于极深层CNN模型时的网络退化问题。

优点6

Interflow具有可移植性的优点。它可以用于任何backbone。

3.4 复现细节

图3是本文实验中使用Interflow的具体CNN模型示意图。在该模型中,将VGGNet-16的卷积层作为提取特征base。如图所示,将13个卷积层分为4个阶段,并对每个阶段的输出特征映射进行自适应平均池化和全连接层。这样就得到了分类置信系数,即各阶段分支的特征信息。进一步将通道连接得到的特征映射输入到注意机制中进行加权。然后得到最终输出。从某种意义上说,Interflow可以看作是一个轻微的模型集成。


4参考


[1].Interflow: Aggregating Multi-layer Feature Mappings with Attention Mechanism

相关文章
|
3月前
|
机器学习/深度学习 数据可视化 测试技术
YOLO11实战:新颖的多尺度卷积注意力(MSCA)加在网络不同位置的涨点情况 | 创新点如何在自己数据集上高效涨点,解决不涨点掉点等问题
本文探讨了创新点在自定义数据集上表现不稳定的问题,分析了不同数据集和网络位置对创新效果的影响。通过在YOLO11的不同位置引入MSCAAttention模块,展示了三种不同的改进方案及其效果。实验结果显示,改进方案在mAP50指标上分别提升了至0.788、0.792和0.775。建议多尝试不同配置,找到最适合特定数据集的解决方案。
835 0
|
13天前
|
机器学习/深度学习 算法 数据可视化
基于深度混合架构的智能量化交易系统研究: 融合SSDA与LSTM自编码器的特征提取与决策优化方法
本文探讨了在量化交易中结合时序特征和静态特征的混合建模方法。通过整合堆叠稀疏降噪自编码器(SSDA)和基于LSTM的自编码器(LSTM-AE),构建了一个能够全面捕捉市场动态特性的交易系统。SSDA通过降噪技术提取股票数据的鲁棒表示,LSTM-AE则专注于捕捉市场的时序依赖关系。系统采用A2C算法进行强化学习,通过多维度的奖励计算机制,实现了在可接受的风险水平下最大化收益的目标。实验结果显示,该系统在不同波动特征的股票上表现出差异化的适应能力,特别是在存在明确市场趋势的情况下,决策准确性较高。
49 5
基于深度混合架构的智能量化交易系统研究: 融合SSDA与LSTM自编码器的特征提取与决策优化方法
|
2月前
|
机器学习/深度学习 计算机视觉 网络架构
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目DWRSeg是一种高效的实时语义分割网络,通过将多尺度特征提取分为区域残差化和语义残差化两步,提高了特征提取效率。它引入了Dilation-wise Residual (DWR) 和 Simple Inverted Residual (SIR) 模块,优化了不同网络阶段的感受野。在Cityscapes和CamVid数据集上的实验表明,DWRSeg在准确性和推理速度之间取得了最佳平衡,达到了72.7%的mIoU,每秒319.5帧。代码和模型已公开。
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
|
6月前
|
机器学习/深度学习 计算机视觉
【YOLOv8改进 - 特征融合】 YOGA iAFF :注意力机制在颈部的多尺度特征融合
【YOLOv8改进 - 特征融合】 YOGA iAFF :注意力机制在颈部的多尺度特征融合
|
3月前
|
机器学习/深度学习 编解码 负载均衡
MoH:融合混合专家机制的高效多头注意力模型及其在视觉语言任务中的应用
本文提出了一种名为混合头注意力(MoH)的新架构,旨在提高Transformer模型中注意力机制的效率。MoH通过动态注意力头路由机制,使每个token能够自适应选择合适的注意力头,从而在减少激活头数量的同时保持或提升模型性能。实验结果显示,MoH在图像分类、类条件图像生成和大语言模型等多个任务中均表现出色,尤其在减少计算资源消耗方面有显著优势。
71 1
|
2月前
|
机器学习/深度学习 计算机视觉 网络架构
【YOLO11改进 - C3k2融合】C3k2融合DWRSeg二次创新C3k2_DWRSeg:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
【YOLO11改进 - C3k2融合】C3k2融合DWRSDWRSeg是一种高效的实时语义分割网络,通过将多尺度特征提取方法分解为区域残差化和语义残差化两步,提高了多尺度信息获取的效率。网络设计了Dilation-wise Residual (DWR) 和 Simple Inverted Residual (SIR) 模块,分别用于高阶段和低阶段,以充分利用不同感受野的特征图。实验结果表明,DWRSeg在Cityscapes和CamVid数据集上表现出色,以每秒319.5帧的速度在NVIDIA GeForce GTX 1080 Ti上达到72.7%的mIoU,超越了现有方法。代码和模型已公开。
|
6月前
|
机器学习/深度学习 计算机视觉
【YOLOv8改进 - 注意力机制】c2f结合CBAM:针对卷积神经网络(CNN)设计的新型注意力机制
【YOLOv8改进 - 注意力机制】c2f结合CBAM:针对卷积神经网络(CNN)设计的新型注意力机制
|
6月前
|
机器学习/深度学习 图计算 计算机视觉
【YOLOv8改进 - 注意力机制】 CascadedGroupAttention:级联组注意力,增强视觉Transformer中多头自注意力机制的效率和有效性
YOLO目标检测专栏探讨了Transformer在视觉任务中的效能与计算成本问题,提出EfficientViT,一种兼顾速度和准确性的模型。EfficientViT通过创新的Cascaded Group Attention(CGA)模块减少冗余,提高多样性,节省计算资源。在保持高精度的同时,与MobileNetV3-Large相比,EfficientViT在速度上有显著提升。论文和代码已公开。CGA通过特征分割和级联头部增加注意力多样性和模型容量,降低了计算负担。核心代码展示了CGA模块的实现。
|
6月前
|
机器学习/深度学习 大数据 计算机视觉
【YOLOv8改进 - 特征融合】 GELAN:YOLOV9 通用高效层聚合网络,高效且涨点
YOLOv8专栏探讨了深度学习中信息瓶颈问题,提出可编程梯度信息(PGI)和广义高效层聚合网络(GELAN),改善轻量级模型的信息利用率。GELAN在MS COCO数据集上表现优越,且PGI适用于不同规模的模型,甚至能超越预训练SOTA。[论文](https://arxiv.org/pdf/2402.13616)和[代码](https://github.com/WongKinYiu/yolov9)已开源。核心组件RepNCSPELAN4整合了RepNCSP块和卷积。更多详情及配置参见相关链接。
|
8月前
|
机器学习/深度学习
YOLOv8改进 | 细节创新篇 | iAFF迭代注意力特征融合助力多目标细节涨点
YOLOv8改进 | 细节创新篇 | iAFF迭代注意力特征融合助力多目标细节涨点
613 0