论文推荐:ACMix整合self-Attention和Convolution (ACMix)的优点的混合模型

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
NLP 自学习平台,3个模型定制额度 1个月
简介: 混合模型ACmix将自注意与卷积的整合,同时具有自注意和卷积的优点。这是清华大学、华为和北京人工智能研究院共同发布在2022年CVPR中的论文

卷积分解与自注意力

卷积分解

标准卷积:

重写为来自不同内核位置的特征映射的总和:

这里的:

为了进一步简化公式,使用Shift操作的定义:

g(p,q)ij可以改写为:

由上得出,标准卷积可以概括为两个阶段:

在第一阶段,输入特征从某个位置(p, q)核权重进行线性投影。这与标准的1×1卷积相同。

在第二阶段,投影特征图根据内核位置移动并最终聚合在一起。

自注意力分解

考虑一个有N个头的标准自注意模块。注意力模块的输出为:

其中||是N个注意头输出的级联。注意力权重计算为:

多头自注意可以分解为两个阶段,重新表述为:

在第一阶段,首先执行1×1卷积,将输入特征投影为查询、键和值。

在第二阶段,注意力权重的计算和值矩阵的聚合,即局部特征的聚集。

ACmix

自注意力与卷积的整合

ACmix包括两个阶段:

在第一阶段,输入特征通过三个1×1卷积进行投影,并分别重塑为N块,得到3×N特征映射的中间特征集。

在第二阶段,有自注意力路径和卷积两个路径。对于自注意路径,对应的三个特征映射作为查询、键和值,遵循传统的多头自注意模块。

对于核大小为k的卷积路径,采用轻型全连接层并生成 k² 特征图,同时进行移位操作和聚合。

最后,将两条路径的输出加在一起,强度由两个可学习标量控制:

改进的移位和求和

shift 移位操作的改进。(a) 使用张量移位的简单实现。(b) 使用精心设计的组卷积核快速实现。(c) 进一步适应可学习内核和多个卷积组。

尽管理论上是轻量级的,但将张量向各个方向移动实际上会破坏数据局部性并且难以实现矢量化实现。所以用固定核的深度卷积作为位移。以Shift(f,−1,−1)为例,移位特征计算为:

一个固定的内核可以用于移位操作:

相应的输出可以表述为:

通过精心设计特定移位方向的核权重,卷积输出就等价于简单张量移位。这样的修改使该模块具有更高的计算效率。在此基础上,还引入了一些适应性,增强模块的灵活性。卷积核作为可学习的权重释放,移位核作为初始化。这提高了模型的容量。

ACmix的计算成本

阶段1的计算成本和训练参数与自注意相同,比传统卷积更轻。阶段2ACmix引入了一个轻量级全连接层和组卷积的额外计算开销。计算复杂度与通道大小C呈线性关系,与阶段I相比相对较小。

推广到其他注意力模式

ACmix是独立于自注意公式的,所以可以很容易地采用在不同的变体上。具体来说,注意权重可以总结为

结果

ImageNet

对于ResNet-ACmix模型,所提出的模型优于具有近似FLOPs或参数的所有基线。对于SAN-ACmix、PVT-ACmix和Swin-ACmix,所提出的模型取得了一致的改进。

ADE20K

在ImageNet-1K上进行预训练,ACmix在所有设置下都实现了改进。

COCO

左、中:ACmix始终优于具有相似参数或FLOPs的基线。右:与PVT-S相比,模型在mAP可比较的情况下达到1.3× fps。当涉及到更大的模型时,优势更加明显。

消融实验

左:卷积和自注意模块的组合始终优于单路径模型。使用可学习参数也为ACmix带来了更高的灵活性。

中:通过用分组卷积代替张量位移,推理速度大大提高。使用可学习的卷积核和精心设计的初始化增强了模型的灵活性,并有助于最终的性能。

右:α和β实际上反映了模型在不同深度对卷积或自我注意的偏向。在Transformer模型的早期阶段,卷积可以作为很好的特征提取器。在网络的中间阶段,模型倾向于利用两种路径的混合,并越来越倾向于卷积。在最后一个阶段,自注意表现出优于卷积。

论文地址:

https://avoid.overfit.cn/post/a56a24e0637e4ae38d1e2459a1d82441

作者:Sik-Ho Tsang

目录
相关文章
|
6月前
|
机器学习/深度学习 计算机视觉 网络架构
改进YOLOv8:添加CBAM注意力机制(涨点明显)
改进YOLOv8:添加CBAM注意力机制(涨点明显)
3695 1
|
4月前
|
机器学习/深度学习 Serverless 计算机视觉
【YOLOv8改进 - 注意力机制】Sea_Attention: Squeeze-enhanced Axial Attention,结合全局语义提取和局部细节增强
【YOLOv8改进 - 注意力机制】Sea_Attention: Squeeze-enhanced Axial Attention,结合全局语义提取和局部细节增强
|
1月前
|
机器学习/深度学习 自然语言处理 数据建模
三种Transformer模型中的注意力机制介绍及Pytorch实现:从自注意力到因果自注意力
本文深入探讨了Transformer模型中的三种关键注意力机制:自注意力、交叉注意力和因果自注意力,这些机制是GPT-4、Llama等大型语言模型的核心。文章不仅讲解了理论概念,还通过Python和PyTorch从零开始实现这些机制,帮助读者深入理解其内部工作原理。自注意力机制通过整合上下文信息增强了输入嵌入,多头注意力则通过多个并行的注意力头捕捉不同类型的依赖关系。交叉注意力则允许模型在两个不同输入序列间传递信息,适用于机器翻译和图像描述等任务。因果自注意力确保模型在生成文本时仅考虑先前的上下文,适用于解码器风格的模型。通过本文的详细解析和代码实现,读者可以全面掌握这些机制的应用潜力。
48 3
三种Transformer模型中的注意力机制介绍及Pytorch实现:从自注意力到因果自注意力
|
2月前
|
编解码 人工智能 文件存储
卷积神经网络架构:EfficientNet结构的特点
EfficientNet是一种高效的卷积神经网络架构,它通过系统化的方法来提升模型的性能和效率。
53 1
|
4月前
|
机器学习/深度学习 算法 测试技术
【YOLOv8改进 - 注意力机制】Focused Linear Attention :全新的聚焦线性注意力模块
YOLOv8专栏探讨了该目标检测算法的创新改进,包括使用聚焦线性注意力模块,解决了Transformer在视觉任务中的效率和表达力问题。该模块增强自注意力,提高焦点能力和特征多样性,保持线性复杂度。文章提供了实证证据证明其在多个基准上的性能提升,并在GitHub上发布了代码。论文和更多实战案例链接见文中。
|
4月前
|
机器学习/深度学习 自然语言处理 并行计算
【YOLOv8改进 -注意力机制】Mamba之MLLAttention :基于Mamba和线性注意力Transformer的模型
YOLOv8专栏探讨了该目标检测模型的创新改进,包括使用Mamba模型的线性注意力Transformer变体,称为MLLA。Mamba的成功关键在于遗忘门和块设计,MLLA结合了这些优点,提升了视觉任务的性能。文章提供全面分析,并提出MLLA模型,其在效率和准确性上超过多种视觉模型。论文和代码可在提供的链接中找到。MLLA Block的代码示例展示了如何整合关键组件以实现高效运算。更多配置详情见相关链接。
|
4月前
|
机器学习/深度学习 编解码 计算机视觉
【YOLOv10改进-注意力机制】HAT(Hybrid Attention Transformer,)混合注意力机制
YOLOv10专栏介绍了一种名为HAT的新方法,旨在改善Transformer在图像超分辨率中的表现。HAT结合通道和窗口注意力,激活更多像素并增强跨窗口信息交互。亮点包括:1) 更多像素激活,2) 有效跨窗口信息聚合,3) 任务特定的预训练策略。HAT模型包含浅层特征提取、深层特征提取和图像重建阶段。提供的代码片段展示了HAT类的定义,参数包括不同层的深度、注意力头数量、窗口大小等。欲了解更多详情和配置,请参考给定链接。
|
5月前
|
机器学习/深度学习 算法 计算机视觉
【YOLOv8改进】CPCA(Channel prior convolutional attention)中的通道注意力,增强特征表征能力 (论文笔记+引入代码)
该专栏聚焦YOLO目标检测的创新改进与实战,介绍了一种针对医学图像分割的通道优先卷积注意力(CPCA)方法。CPCA结合通道和空间注意力,通过多尺度深度卷积提升性能。提出的CPCANet网络在有限计算资源下,于多个数据集上展现优越分割效果。代码已开源。了解更多详情,请访问提供的专栏链接。
|
5月前
|
机器学习/深度学习 编解码 PyTorch
【YOLOv8改进】HAT(Hybrid Attention Transformer,)混合注意力机制 (论文笔记+引入代码)
YOLO目标检测专栏介绍了YOLO系列的改进方法和实战应用,包括卷积、主干网络、注意力机制和检测头的创新。提出的Hybrid Attention Transformer (HAT)结合通道注意力和窗口自注意力,激活更多像素以提升图像超分辨率效果。通过交叉窗口信息聚合和同任务预训练策略,HAT优化了Transformer在低级视觉任务中的性能。实验显示,HAT在图像超分辨率任务上显著优于现有方法。模型结构包含浅层和深层特征提取以及图像重建阶段。此外,提供了HAT模型的PyTorch实现代码。更多详细配置和任务说明可参考相关链接。
|
5月前
|
机器学习/深度学习 测试技术 计算机视觉
【YOLOv8改进】DAT(Deformable Attention):可变性注意力 (论文笔记+引入代码)
YOLO目标检测创新改进与实战案例专栏探讨了YOLO的有效改进,包括卷积、主干、注意力和检测头等机制的创新,以及目标检测分割项目的实践。专栏介绍了Deformable Attention Transformer,它解决了Transformer全局感受野带来的问题,通过数据依赖的位置选择、灵活的偏移学习和全局键共享,聚焦相关区域并捕获更多特征。模型在多个基准测试中表现优秀,代码可在GitHub获取。此外,文章还展示了如何在YOLOv8中应用Deformable Attention。
下一篇
无影云桌面