经典Transformer | CoaT为Transformer提供Light多尺度的上下文建模能力(附论文下载)(二)

简介: 经典Transformer | CoaT为Transformer提供Light多尺度的上下文建模能力(附论文下载)(二)

4. CoaT模型


4.1 Co-Scale机制

前面提到的co-scale mechanism是为了将跨尺度的注意力引入Image Transformer中。在这里,大致描述一下CoaT体系结构中2种类型的co-scale blocks,即CoaT Serial BlockCoaT Parallel Block

CoaT Serial Block

image.png

图6 CoaT中的串行模块示意图

在一个典型的serial block中:

首先,使用一个patch嵌入层(2D卷积层)按一定比例对输入特征映射进行下采样,并将缩减后的特征映射flatten为一系列图像token。

然后,将图像token与附加的CLS token连接起来,并应用到多个常规注意力模块来学习图像token和CLS token之间的内部关系。

最后,将CLS token从图像token中分离出来,并将图像token reshape为二维特征映射,用于下一个串行块。

CoaT Parallel Block

image.png

图7 CoaT中的并行模块示意图

在一个典型的parallel group中,我们有来自不同尺度的串行块的输入特征序列(图像token和CLS token)。为了实现从细到粗、从粗到细和跨尺度的attention,本文提出了2种策略:

  1. direct cross-layer attention;
  2. attention with feature interpolation

image.png

图8 direct cross-layer attention

  • Direct cross layer attention: 在直接跨层注意力中,从每个尺度的输入特征中形成query、key和value向量。对于同一层中的attention,使用常规attention和当前尺度的query、key和value向量。对于不同层次的attention对key向量和value向量进行下采样或上采样,以匹配其他尺度的分辨率。然后进行cross attention,通过对当前尺度的query和对另一尺度的key和value的query来扩展常规attention。最后,将常规注意力和交叉注意力的输出相加,并应用一个共享的前馈层(FFN)。

image.png

图9 Attention with feature interpolation

  • Attention with feature interpolation: 首先,利用independent conv-attention modules对不同尺度的输入图像特征进行处理。然后,对每个尺度的图像特征进行下采样或上采样,用双线性插值的方法匹配其他尺度的维数,或保持自身尺度的维数不变。属于同一尺度的特征在并行组中相加,并进一步传递到一个共享的前馈层。这样,下一步的常规注意力模块就可以通过当前步骤的特征插值来学习跨层信息。

4.2 Model Architecture

CoaT-Lite和CoaT 配置表

CoaT-Lite

图10 CoaT-Lite

CoaT

图11 CoaT


5 实验


5.1 图像分类

在大约5M、10M和20M的参数预算下,CoaT和CoaT-lite超过了所有的基于Transformer的架构。

5.2 目标检测与实例分割

在1×和3× setting下,CoaT和CoaT-lite模型都显示出比ResNet和PVT Backbone明显的性能优势。

5.3 可视化


6 参考


[1].Co-Scale Conv-Attentional Image Transformers


7 推荐阅读


又改ResNet | 重新思考ResNet:采用高阶方案的改进堆叠策略(附论文下载)

VariFocalNet | IoU-aware同V-Focal Loss全面提升密集目标检测(附YOLOV5测试代码)

最强Vision Trabsformer | 87.7%准确率!CvT:将卷积引入视觉Transformer(文末附论文下载)

全新FPN | 通道增强特征金字塔网络(CE-FPN)提升大中小目标检测的鲁棒性(文末附论文)

相关文章
|
机器学习/深度学习 算法 数据挖掘
即插即用 | 通过自适应聚类Transformer来提升DERT目标检测器的速度(文末附论文下载)(一)
即插即用 | 通过自适应聚类Transformer来提升DERT目标检测器的速度(文末附论文下载)(一)
939 0
|
6月前
|
机器学习/深度学习
ICML 2024:揭示非线形Transformer在上下文学习中学习和泛化的机制
【7月更文挑战第10天】Rensselaer Polytechnic Institute和IBM的研究者探讨了非线性Transformer在上下文学习的理论基础。他们展示了Transformer如何通过注意力层聚焦相关上下文,并利用MLP层进行预测,揭示了其在不需微调情况下的泛化能力。尽管研究局限于二进制分类和单层模型,它为理解复杂模型在不同任务和领域的潜在适应性提供了新视角。[论文链接:](https://arxiv.org/pdf/2402.15607)**
56 1
|
7月前
|
机器学习/深度学习 算法 计算机视觉
【YOLOv8改进】CPCA(Channel prior convolutional attention)中的通道注意力,增强特征表征能力 (论文笔记+引入代码)
该专栏聚焦YOLO目标检测的创新改进与实战,介绍了一种针对医学图像分割的通道优先卷积注意力(CPCA)方法。CPCA结合通道和空间注意力,通过多尺度深度卷积提升性能。提出的CPCANet网络在有限计算资源下,于多个数据集上展现优越分割效果。代码已开源。了解更多详情,请访问提供的专栏链接。
|
8月前
|
机器学习/深度学习 自然语言处理 算法
【论文精读】COLING 2022 -带有对偶关系图注意力网络的事件检测模型
【论文精读】COLING 2022 -带有对偶关系图注意力网络的事件检测模型
中文核心论文实战:基于通道注意力cbam+lstm的工业用电功率预测时间序列
中文核心论文实战:基于通道注意力cbam+lstm的工业用电功率预测时间序列
140 0
|
机器学习/深度学习 自然语言处理 算法
从Transformer到ViT:多模态编码器算法原理解析与实现
从Transformer到ViT:多模态编码器算法原理解析与实现
686 0
|
机器学习/深度学习 计算机视觉
经典Transformer | CoaT为Transformer提供Light多尺度的上下文建模能力(附论文下载)(一)
经典Transformer | CoaT为Transformer提供Light多尺度的上下文建模能力(附论文下载)(一)
129 0
|
编解码 数据挖掘 计算机视觉
详细解读PVT-v2 | 教你如何提升金字塔Transformer的性能?(附论文下载)(二)
详细解读PVT-v2 | 教你如何提升金字塔Transformer的性能?(附论文下载)(二)
511 0
|
机器学习/深度学习 存储 编解码
详细解读PVT-v2 | 教你如何提升金字塔Transformer的性能?(附论文下载)(一)
详细解读PVT-v2 | 教你如何提升金字塔Transformer的性能?(附论文下载)(一)
634 0
|
机器学习/深度学习 自然语言处理 算法
全新范式 | Box-Attention同时让2D、3D目标检测、实例分割轻松涨点(求新必看)(一)
全新范式 | Box-Attention同时让2D、3D目标检测、实例分割轻松涨点(求新必看)(一)
251 0