ICCV 2023 | DAT:利用双重聚合的Transformer进行图像超分

简介: ICCV 2023 | DAT:利用双重聚合的Transformer进行图像超分

前言

论文:https://arxiv.org/pdf/2308.03364.pdf

代码:https://github.com/zhengchen1999/DAT


一、Introduction

Transformer最近在低级视觉任务中获得了相当大的普及,包括图像超分辨率(SR)。这些网络利用自注意力利用不同维度、空间或通道,并取得了令人印象深刻的性能。这启发我们在Transformer中结合这两个维度,以获得更强大的表示功能。

在此基础上,我们提出了一种新的变换模型——双聚合变换(Dual Aggregation Transformer, DAT),该模型以块间和块内的双重方式聚合了图像SR的空间和通道特征。具体来说,我们交替地在连续的Transformer块中应用空间和通道自注意。另一种策略使DAT能够捕获全局上下文并实现块间特征聚合。此外,我们提出了自适应交互模块(AIM)和空间门前馈网络(SGFN)来实现块内特征聚合。AIM从相应的维度补充了两种自我注意机制。同时,SGFN在前馈网络中引入了额外的非线性空间信息。大量的实验表明,我们的DAT方法优于现有的方法。

二、Method

空间窗口自注意(Spatial window self-attention, SW-SA)能够对像素之间的细粒度空间关系进行建模。基于通道的自我注意(CW-SA)可以对特征映射之间的关系进行建模,从而利用全局图像信息。通常情况下,空间信息的提取和通道上下文的捕获对Transformer在图像SR中的性能至关重要

基于上述发现,我们提出了图像SR的双聚合Transformer(Dual Aggregation Transformer, DAT),该Transformer通过块间和块内的双重方式聚合空间和通道特征,从而获得强大的表示能力

具体来说,我们交替地在连续的双聚合Transformer块(DATBs)中应用空间窗口和通道方面的自注意。通过这种可选策略,我们的DAT可以捕获空间和通道上下文,并实现不同维度之间的块间特征聚合。此外,这两种自我注意机制相互补充。空间窗口自注意丰富了各特征图的空间表达,有助于对通道依赖关系进行建模。通道型自我注意为空间自我注意提供了特征间的全局信息,扩展了窗口注意的接受域。

同时,由于自注意机制专注于全局信息的建模,我们将卷积与自注意并行结合以补充Transformer的局部性。为了增强两个分支的融合,将空间信息和信道信息聚合在一个自注意模块中,我们提出了自适应交互模块(AIM)它由空间交互(S-I)和通道交互(C-I)两种交互操作组成,在两个分支之间进行信息交换。通过S-I和C-I, AIM根据不同的自注意机制,从空间或通道维度对两个分支的特征映射进行自适应重加权。此外,基于空间窗口和通道层面的自我注意,设计了两种新的自我注意机制:自适应空间自我注意(AS-SA)和自适应通道自我注意(AC-SA)。

此外,Transformer模块的另一个组件,前馈网络(FFN),通过全连接层提取特征。它忽略了对空间信息的建模。此外,通道间的冗余信息阻碍了特征表示学习的进一步发展。为了解决这些问题,我们设计了空间门前馈网络(SGFN),在两个全连接的FFN层之间引入空间门模块SG模块是一个简单的门控机制(深度卷积和元素乘法)。将SG的输入特性沿信道维数划分为卷积和乘性旁路两段。我们的SG模块可以为FFN补充额外的非线性空间信息,减少信道冗余。一般情况下,DAT可以基于AIM和SGFN实现块内特征聚合。

总的来说,通过以上三种设计,我们的DAT可以通过块间和块内的双重方式聚合空间信息和通道信息,实现强特征表达。

如图1所示,我们的DAT与最新的先进的SR方法相比获得了更好的视觉结果。我们的贡献有三方面:

(1)我们设计了一种新的图像SR模型——双聚合变压器(dual aggregation Transformer, DAT)。我们的DAT以块间和块内的双重方式聚合空间和通道特征,获得强大的表示能力。

(2)我们交替采用空间自注意和通道自注意,实现块间空间和通道特征聚合。此外,我们提出了AIM和SGFN实现块内特征聚合。

(3)我们进行了大量的实验,以证明我们的DAT优于最先进的方法,同时保持较低的复杂性和模型大小。

1. Network Architecture

所提出的DAT整体网络包括三个模块:浅特征提取、深特征提取和图像重建,如图2所示。

最初,给定一个低分辨率(LR)输入图像 ,我们使用卷积层对其进行处理,生成浅层特征 。符号H和W表示输入图像的高度和宽度,C表示特征通道的数量。

随后,将浅层特征FS在深度特征提取模块内进行处理,得到深度特征 。模块被多个剩余组(RG)堆叠,总RG数为N1。同时,为了保证训练的稳定性,在模块中采用了残差策略。每个RG包含N2对双聚合Transformer块(DATB)。如图2所示,每个DATB对包含两个Transformer块,分别利用空间和通道自注意。在RG的最后引入卷积层,对Transformer块提取的特征进行细化。此外,对于每个RG,都使用剩余连接。

最后,我们通过重建模块重建高分辨率(HR)输出图像 ,其中 为输出图像的高度, 为图像宽度。在该模块中,对深度特征 进行像素洗牌方法上采样。并利用卷积层对上采样前后的特征进行聚合。

2. Dual Aggregation Transformer Block

双聚合Transformer块(DATB)是我们提出的方法的核心组件。DATB有两种:双空间Transformer块(DSTB)和双通道Transformer块(DCTB),如图2所示。DSTB和DCTB分别基于空间窗口自注意和通道自注意。通过交替组织DSTB和DCTB, DAT可以实现空间维和信道维之间的块间特征聚合。此外,提出了自适应交互模块(AIM)和空间门前馈网络(SGFN)实现块内特征聚合。

  • Spatial Window Self-Attention

空间窗口自注意(SW-SA)计算窗口内的注意。如图3(a)所示,给定输入 ,我们通过线性投影生成query、key和value矩阵(分别记为Q、K和V),其中所有矩阵都在 空间中。

  • Channel-Wise Self-Attention

通道自注意(CW-SA)中的自注意机制是沿着通道维度进行的。在之前的作品之后,我们将渠道划分为heads,并分别对每个heads进行注意。如图3(b)所示,给定输入X,我们应用线性投影生成查询矩阵、键矩阵和值矩阵,并将它们重塑为大小为

  • Adaptive Interaction Module

由于自注意的重点是捕获全局特性,因此我们加入了一个与自注意模块并行的卷积分支,以将局部性引入Transformer。然而,简单地添加卷积分支并不能有效地耦合全局和局部特征。此外,尽管SW-SA和CW-SA交替执行可以同时捕获空间和通道特征,但在单一的自我注意中仍然不能有效地利用不同维度的信息

为了克服这些问题,我们提出了自适应交互模块(AIM),其作用于两个支路之间,如图3所示。该算法根据自注意机制的类型,从空间维度或通道维度对两个分支的特征进行自适应加权。因此,这两个分支特征可以更好地融合。同时,空间信息和通道信息可以聚合在一个单一的注意模块中。在此基础上,我们设计了两种新的自我注意机制,即自适应空间自我注意(AS-SA)和自适应通道自我注意(AC-SA)

  • Spatial-Gate Feed-Forward Network

前馈网络(FFN)具有非线性激活和两个线性投影层提取特征。然而,它忽略了对空间信息的建模。此外,通道中的冗余信息阻碍了特征的表达能力。为了克服上述局限性,我们提出了空间门前馈网络(spatial-gate前馈网络,SGFN),将空间门(spatial-gate, SG)引入到FFN中。如图4所示,我们的SG模块是一个简单的门机制,由深度卷积和元素乘法组成。在通道维度上,我们将特征图分为卷积旁路和乘法旁路两部分。总的来说,给定输入 , SGFN计算为:

其中w1p和w2p表示线性投影,σ表示GELU函数,Wd是深度卷积的可学习参数。Xˆ' 1和Xˆ' 2都在RH×W×{C '/ 2}空间中,其中C '表示SGFN中的隐藏维数。与FFN相比,我们的SGFN能够捕获非线性空间信息,减轻全连通层的信道冗余。此外,与以往的工作不同,我们的SG模块利用深度卷积来保持计算效率。

  • Dual Aggregation Transformer Block

我们的双聚合变压器块(DATB)配备了自适应自注意(A-SA)和空间门前馈网络(SGFN)。给定第l块的输入 ,此块定义为:

其中 为输出特征,LN(·)为LayerNorm层。由于A-SA包括AS-SA和AC-SA,因此DATB有两种类型,即双空间变压器块(DSTB)和双通道变压器块(DCTB)。DSTB采用AS-SA, DCTB采用AC-SA。

3. Dual Feature Aggregation

我们的DAT能够通过块间和块内的双重方式聚合空间和通道特征,获得强大的特征表示。

  • Inter-block Aggregation(块间聚合)

DAT交替采用DSTB和DCTB来捕获两个维度的特征,并利用二者的互补优势。具体来说,DSTB模拟了长程空间背景,增强了每个特征图的空间表达。同时,DCTB可以更好地构建通道依赖关系。DCTB模拟全局信道上下文,进而帮助DSTB捕捉空间特征,并扩大接收域。因此,空间和通道信息在连续的Transformer块之间流动,从而可以聚合。

  • Intra-block Aggregation(块内聚合)

AIM可以用通道知识补充空间窗口的自我注意,从空间维度上增强通道的自我注意。此外,SGFN能够引入额外的非线性空间信息到只模拟信道关系的FFN中。因此,DAT可以在每个Transformer块中聚合空间和通道特性。

三、Experiments

我们将DAT- s模型和DAT模型与目前的11种图像SR方法(EDSR、RCAN、SAN、RFANet、HAN、CSNLN、NLSA、ELAN、DFSA、SwinIR和CAT-A)进行了比较。与之前的研究一致,我们在测试过程中采用了自集成策略,用符号“+”表示。表2为定量比较,图6为视觉比较。


四、Conclusion

本文提出了一种新的图像SR模型——双聚合Transformer(DAT)该模型以块间和块内的双重方式聚合空间和通道特征,以增强图像SR的表达能力。

具体来说,连续的Transformer块交替地应用空间窗口和通道自注意。通过这种策略,DAT可以对全局依赖关系进行建模,实现空间维度和通道维度之间的块间特征聚合。此外,我们提出了自适应交互模块(AIM)和空间门前馈网络(SGFN)来增强每个块,实现两个维度之间的块内特征聚合。AIM从相应的维度增强了两种自注意机制的建模能力。同时SGFN用非线性空间信息补充前馈网络。大量实验表明,DAT方法优于以往的方法。

目录
相关文章
|
6月前
|
机器学习/深度学习 算法 固态存储
最强DETR+YOLO | 三阶段的端到端目标检测器的DEYOv2正式来啦,性能炸裂!!!
最强DETR+YOLO | 三阶段的端到端目标检测器的DEYOv2正式来啦,性能炸裂!!!
230 0
|
3月前
|
机器人 人机交互 语音技术
语音情感基座模型emotion3vec 问题之什么是帧级别损失,如何计算
语音情感基座模型emotion3vec 问题之什么是帧级别损失,如何计算
|
4月前
|
机器学习/深度学习 安全 固态存储
【YOLOv8改进 - 注意力机制】LS-YOLO MSFE:新颖的多尺度特征提取模块 | 小目标/遥感
YOLO系列目标检测模型的新发展,LS-YOLO专为滑坡检测设计。它使用多尺度滑坡数据集(MSLD)和多尺度特征提取(MSFE)模块,结合ECA注意力,提升定位精度。通过改进的解耦头,利用膨胀卷积增强上下文信息。在滑坡检测任务中,LS-YOLO相对于YOLOv5s的AP提高了2.18%,达到97.06%。论文和代码已开源。
|
5月前
|
机器学习/深度学习 算法
【机器学习】BK- SDM与LCM的融合策略在文本到图像生成中的应用
【机器学习】BK- SDM与LCM的融合策略在文本到图像生成中的应用
69 0
|
机器学习/深度学习 传感器 编解码
史上最全 | BEV感知算法综述(基于图像/Lidar/多模态数据的3D检测与分割任务)
以视觉为中心的俯视图(BEV)感知最近受到了广泛的关注,因其可以自然地呈现自然场景且对融合更友好。随着深度学习的快速发展,许多新颖的方法尝试解决以视觉为中心的BEV感知,但是目前还缺乏对该领域的综述类文章。本文对以视觉为中心的BEV感知及其扩展的方法进行了全面的综述调研,并提供了深入的分析和结果比较,进一步思考未来可能的研究方向。如下图所示,目前的工作可以根据视角变换分为两大类,即基于几何变换和基于网络变换。前者利用相机的物理原理,以可解释性的方式转换视图。后者则使用神经网络将透视图(PV)投影到BEV上。
史上最全 | BEV感知算法综述(基于图像/Lidar/多模态数据的3D检测与分割任务)
|
6月前
|
测试技术 计算机视觉
ICLR 2024 Spotlight:自蒸馏激发CLIP模型的检测分割能力
【2月更文挑战第28天】ICLR 2024 Spotlight:自蒸馏激发CLIP模型的检测分割能力
158 1
ICLR 2024 Spotlight:自蒸馏激发CLIP模型的检测分割能力
|
6月前
|
机器学习/深度学习 编解码 自然语言处理
CVPR 2022 | Restormer:高分辨率图像恢复的高效Transformer
CVPR 2022 | Restormer:高分辨率图像恢复的高效Transformer
436 1
|
6月前
|
机器学习/深度学习
YOLOv8改进 | DAttention (DAT)注意力机制实现极限涨点
YOLOv8改进 | DAttention (DAT)注意力机制实现极限涨点
333 0
|
6月前
|
编解码 算法 自动驾驶
【计算机视觉】基于光流特征的目标跟踪算法LK光流法的讲解(图文解释 超详细)
【计算机视觉】基于光流特征的目标跟踪算法LK光流法的讲解(图文解释 超详细)
422 0
|
传感器 机器学习/深度学习 存储
登顶KITTI和NuScenes | 2DPASS:2D先验辅助的激光雷达点云语义分割!ECCV2022
语义分割在大规模室外场景理解中起着至关重要的作用,在自动驾驶和机器人技术中有着广泛的应用[1-3]。在过去几年中,研究界投入了大量精力,使用相机图像[4-7]或激光雷达点云[2,8-12]作为输入来理解自然场景。
登顶KITTI和NuScenes | 2DPASS:2D先验辅助的激光雷达点云语义分割!ECCV2022