ICCV 2023 | DAT:利用双重聚合的Transformer进行图像超分

简介: ICCV 2023 | DAT:利用双重聚合的Transformer进行图像超分

前言

论文:https://arxiv.org/pdf/2308.03364.pdf

代码:https://github.com/zhengchen1999/DAT


一、Introduction

Transformer最近在低级视觉任务中获得了相当大的普及,包括图像超分辨率(SR)。这些网络利用自注意力利用不同维度、空间或通道,并取得了令人印象深刻的性能。这启发我们在Transformer中结合这两个维度,以获得更强大的表示功能。

在此基础上,我们提出了一种新的变换模型——双聚合变换(Dual Aggregation Transformer, DAT),该模型以块间和块内的双重方式聚合了图像SR的空间和通道特征。具体来说,我们交替地在连续的Transformer块中应用空间和通道自注意。另一种策略使DAT能够捕获全局上下文并实现块间特征聚合。此外,我们提出了自适应交互模块(AIM)和空间门前馈网络(SGFN)来实现块内特征聚合。AIM从相应的维度补充了两种自我注意机制。同时,SGFN在前馈网络中引入了额外的非线性空间信息。大量的实验表明,我们的DAT方法优于现有的方法。

二、Method

空间窗口自注意(Spatial window self-attention, SW-SA)能够对像素之间的细粒度空间关系进行建模。基于通道的自我注意(CW-SA)可以对特征映射之间的关系进行建模,从而利用全局图像信息。通常情况下,空间信息的提取和通道上下文的捕获对Transformer在图像SR中的性能至关重要

基于上述发现,我们提出了图像SR的双聚合Transformer(Dual Aggregation Transformer, DAT),该Transformer通过块间和块内的双重方式聚合空间和通道特征,从而获得强大的表示能力

具体来说,我们交替地在连续的双聚合Transformer块(DATBs)中应用空间窗口和通道方面的自注意。通过这种可选策略,我们的DAT可以捕获空间和通道上下文,并实现不同维度之间的块间特征聚合。此外,这两种自我注意机制相互补充。空间窗口自注意丰富了各特征图的空间表达,有助于对通道依赖关系进行建模。通道型自我注意为空间自我注意提供了特征间的全局信息,扩展了窗口注意的接受域。

同时,由于自注意机制专注于全局信息的建模,我们将卷积与自注意并行结合以补充Transformer的局部性。为了增强两个分支的融合,将空间信息和信道信息聚合在一个自注意模块中,我们提出了自适应交互模块(AIM)它由空间交互(S-I)和通道交互(C-I)两种交互操作组成,在两个分支之间进行信息交换。通过S-I和C-I, AIM根据不同的自注意机制,从空间或通道维度对两个分支的特征映射进行自适应重加权。此外,基于空间窗口和通道层面的自我注意,设计了两种新的自我注意机制:自适应空间自我注意(AS-SA)和自适应通道自我注意(AC-SA)。

此外,Transformer模块的另一个组件,前馈网络(FFN),通过全连接层提取特征。它忽略了对空间信息的建模。此外,通道间的冗余信息阻碍了特征表示学习的进一步发展。为了解决这些问题,我们设计了空间门前馈网络(SGFN),在两个全连接的FFN层之间引入空间门模块SG模块是一个简单的门控机制(深度卷积和元素乘法)。将SG的输入特性沿信道维数划分为卷积和乘性旁路两段。我们的SG模块可以为FFN补充额外的非线性空间信息,减少信道冗余。一般情况下,DAT可以基于AIM和SGFN实现块内特征聚合。

总的来说,通过以上三种设计,我们的DAT可以通过块间和块内的双重方式聚合空间信息和通道信息,实现强特征表达。

如图1所示,我们的DAT与最新的先进的SR方法相比获得了更好的视觉结果。我们的贡献有三方面:

(1)我们设计了一种新的图像SR模型——双聚合变压器(dual aggregation Transformer, DAT)。我们的DAT以块间和块内的双重方式聚合空间和通道特征,获得强大的表示能力。

(2)我们交替采用空间自注意和通道自注意,实现块间空间和通道特征聚合。此外,我们提出了AIM和SGFN实现块内特征聚合。

(3)我们进行了大量的实验,以证明我们的DAT优于最先进的方法,同时保持较低的复杂性和模型大小。

1. Network Architecture

所提出的DAT整体网络包括三个模块:浅特征提取、深特征提取和图像重建,如图2所示。

最初,给定一个低分辨率(LR)输入图像 ,我们使用卷积层对其进行处理,生成浅层特征 。符号H和W表示输入图像的高度和宽度,C表示特征通道的数量。

随后,将浅层特征FS在深度特征提取模块内进行处理,得到深度特征 。模块被多个剩余组(RG)堆叠,总RG数为N1。同时,为了保证训练的稳定性,在模块中采用了残差策略。每个RG包含N2对双聚合Transformer块(DATB)。如图2所示,每个DATB对包含两个Transformer块,分别利用空间和通道自注意。在RG的最后引入卷积层,对Transformer块提取的特征进行细化。此外,对于每个RG,都使用剩余连接。

最后,我们通过重建模块重建高分辨率(HR)输出图像 ,其中 为输出图像的高度, 为图像宽度。在该模块中,对深度特征 进行像素洗牌方法上采样。并利用卷积层对上采样前后的特征进行聚合。

2. Dual Aggregation Transformer Block

双聚合Transformer块(DATB)是我们提出的方法的核心组件。DATB有两种:双空间Transformer块(DSTB)和双通道Transformer块(DCTB),如图2所示。DSTB和DCTB分别基于空间窗口自注意和通道自注意。通过交替组织DSTB和DCTB, DAT可以实现空间维和信道维之间的块间特征聚合。此外,提出了自适应交互模块(AIM)和空间门前馈网络(SGFN)实现块内特征聚合。

  • Spatial Window Self-Attention

空间窗口自注意(SW-SA)计算窗口内的注意。如图3(a)所示,给定输入 ,我们通过线性投影生成query、key和value矩阵(分别记为Q、K和V),其中所有矩阵都在 空间中。

  • Channel-Wise Self-Attention

通道自注意(CW-SA)中的自注意机制是沿着通道维度进行的。在之前的作品之后,我们将渠道划分为heads,并分别对每个heads进行注意。如图3(b)所示,给定输入X,我们应用线性投影生成查询矩阵、键矩阵和值矩阵,并将它们重塑为大小为

  • Adaptive Interaction Module

由于自注意的重点是捕获全局特性,因此我们加入了一个与自注意模块并行的卷积分支,以将局部性引入Transformer。然而,简单地添加卷积分支并不能有效地耦合全局和局部特征。此外,尽管SW-SA和CW-SA交替执行可以同时捕获空间和通道特征,但在单一的自我注意中仍然不能有效地利用不同维度的信息

为了克服这些问题,我们提出了自适应交互模块(AIM),其作用于两个支路之间,如图3所示。该算法根据自注意机制的类型,从空间维度或通道维度对两个分支的特征进行自适应加权。因此,这两个分支特征可以更好地融合。同时,空间信息和通道信息可以聚合在一个单一的注意模块中。在此基础上,我们设计了两种新的自我注意机制,即自适应空间自我注意(AS-SA)和自适应通道自我注意(AC-SA)

  • Spatial-Gate Feed-Forward Network

前馈网络(FFN)具有非线性激活和两个线性投影层提取特征。然而,它忽略了对空间信息的建模。此外,通道中的冗余信息阻碍了特征的表达能力。为了克服上述局限性,我们提出了空间门前馈网络(spatial-gate前馈网络,SGFN),将空间门(spatial-gate, SG)引入到FFN中。如图4所示,我们的SG模块是一个简单的门机制,由深度卷积和元素乘法组成。在通道维度上,我们将特征图分为卷积旁路和乘法旁路两部分。总的来说,给定输入 , SGFN计算为:

其中w1p和w2p表示线性投影,σ表示GELU函数,Wd是深度卷积的可学习参数。Xˆ' 1和Xˆ' 2都在RH×W×{C '/ 2}空间中,其中C '表示SGFN中的隐藏维数。与FFN相比,我们的SGFN能够捕获非线性空间信息,减轻全连通层的信道冗余。此外,与以往的工作不同,我们的SG模块利用深度卷积来保持计算效率。

  • Dual Aggregation Transformer Block

我们的双聚合变压器块(DATB)配备了自适应自注意(A-SA)和空间门前馈网络(SGFN)。给定第l块的输入 ,此块定义为:

其中 为输出特征,LN(·)为LayerNorm层。由于A-SA包括AS-SA和AC-SA,因此DATB有两种类型,即双空间变压器块(DSTB)和双通道变压器块(DCTB)。DSTB采用AS-SA, DCTB采用AC-SA。

3. Dual Feature Aggregation

我们的DAT能够通过块间和块内的双重方式聚合空间和通道特征,获得强大的特征表示。

  • Inter-block Aggregation(块间聚合)

DAT交替采用DSTB和DCTB来捕获两个维度的特征,并利用二者的互补优势。具体来说,DSTB模拟了长程空间背景,增强了每个特征图的空间表达。同时,DCTB可以更好地构建通道依赖关系。DCTB模拟全局信道上下文,进而帮助DSTB捕捉空间特征,并扩大接收域。因此,空间和通道信息在连续的Transformer块之间流动,从而可以聚合。

  • Intra-block Aggregation(块内聚合)

AIM可以用通道知识补充空间窗口的自我注意,从空间维度上增强通道的自我注意。此外,SGFN能够引入额外的非线性空间信息到只模拟信道关系的FFN中。因此,DAT可以在每个Transformer块中聚合空间和通道特性。

三、Experiments

我们将DAT- s模型和DAT模型与目前的11种图像SR方法(EDSR、RCAN、SAN、RFANet、HAN、CSNLN、NLSA、ELAN、DFSA、SwinIR和CAT-A)进行了比较。与之前的研究一致,我们在测试过程中采用了自集成策略,用符号“+”表示。表2为定量比较,图6为视觉比较。


四、Conclusion

本文提出了一种新的图像SR模型——双聚合Transformer(DAT)该模型以块间和块内的双重方式聚合空间和通道特征,以增强图像SR的表达能力。

具体来说,连续的Transformer块交替地应用空间窗口和通道自注意。通过这种策略,DAT可以对全局依赖关系进行建模,实现空间维度和通道维度之间的块间特征聚合。此外,我们提出了自适应交互模块(AIM)和空间门前馈网络(SGFN)来增强每个块,实现两个维度之间的块内特征聚合。AIM从相应的维度增强了两种自注意机制的建模能力。同时SGFN用非线性空间信息补充前馈网络。大量实验表明,DAT方法优于以往的方法。

目录
相关文章
|
机器学习/深度学习 算法 Python
【DYConv】CVPR2020 | 即插即用的动态卷积模块助力你涨点
【DYConv】CVPR2020 | 即插即用的动态卷积模块助力你涨点
1832 1
【DYConv】CVPR2020 | 即插即用的动态卷积模块助力你涨点
|
机器学习/深度学习 资源调度 算法
【机器学习基础】多元线性回归(适合初学者的保姆级文章)
【机器学习基础】多元线性回归(适合初学者的保姆级文章)
937 0
|
机器学习/深度学习 编解码 算法
YOLOv8改进 | 主干网络 | 增加网络结构增强小目标检测能力【独家创新——附结构图】
YOLOv8在小目标检测上存在挑战,因卷积导致信息丢失。本文教程将原网络结构替换为更适合小目标检测的backbone,并提供结构图。通过讲解原理和手把手教学,指导如何修改代码,提供完整代码实现,适合新手实践。文章探讨了大特征图对小目标检测的重要性,如细节保留、定位精度、特征丰富度和上下文信息,并介绍了FPN等方法。YOLOv8流程包括预处理、特征提取、融合和检测。修改后的网络结构增加了上采样和concatenate步骤,以利用更大特征图检测小目标。完整代码和修改后的结构图可在文中链接获取。
|
11月前
|
人工智能 自然语言处理 算法
开源更新|语音生成大模型CosyVoice升级2.0版本
开源更新|语音生成大模型CosyVoice升级2.0版本
|
机器学习/深度学习 自然语言处理 Linux
Linux 中的机器学习:Whisper——自动语音识别系统
本文介绍了先进的自动语音识别系统 Whisper 在 Linux 环境中的应用。Whisper 基于深度学习和神经网络技术,支持多语言识别,具有高准确性和实时处理能力。文章详细讲解了在 Linux 中安装、配置和使用 Whisper 的步骤,以及其在语音助手、语音识别软件等领域的应用场景。
371 5
|
10月前
|
算法
基于RRT优化算法的机械臂路径规划和避障matlab仿真
本课题基于RRT优化算法实现机械臂路径规划与避障。通过MATLAB2022a进行仿真,先利用RRT算法计算避障路径,再将路径平滑处理,并转换为机械臂的关节角度序列,确保机械臂在复杂环境中无碰撞移动。系统原理包括随机生成树结构探索空间、直线扩展与障碍物检测等步骤,最终实现高效路径规划。
|
机器学习/深度学习 编解码 数据可视化
转置卷积-清晰易懂
转置卷积(Transpose Convolution)是一种用于图像上采样的技术,常用于图像分割、生成对抗网络(GAN)等领域。与传统的上采样方法不同,转置卷积通过学习参数来实现更优的插值效果。本文介绍了转置卷积的背景、应用、与标准卷积的区别以及数学推导,帮助读者深入理解其原理和应用场景。
1131 1
|
机器学习/深度学习 编解码 算法
超分辨率相关的开源项目
该文档介绍了多种超分辨率模型及其GitHub项目地址,包括Real-ESRGAN(优化真实图片质量)、RCAN(基于残差结构与通道注意力机制)、SwinIR(基于Swin Transformer的图像恢复)、FSRCNN(轻量级快速超分辨率)、EDSR(增强型深度残差网络)、SRGAN(利用GAN的超分辨率模型)及LapSRN(多级Laplacian金字塔超分辨率)。
|
传感器 IDE 开发工具
基于Arduino的自行车转向指示灯
基于Arduino的自行车转向指示灯
247 0
|
机器学习/深度学习 编解码 达摩院
【OpenVI-图像超分实战篇】别用GAN做超分了,快来试试基于扩散模型的图像超分吧!
近10年来,深度学习技术得到了长足进步,在图像增强领域取得了显著的成果,尤其是以GAN为代表的生成式模型在图像复原、老片修复,图像超分辨率等方面大放异彩。图像超分辨率是视频增强方面,用于提升画质的典型应用。生成对抗网络GAN使得在图像分辨率增加的同时,保持细节特征,补充生成真实的纹理,其中应用广泛的工作是Real-ESRGAN。 扩散模型DiffusionModel在图像超分辨率这方面的新的应用,展现出其超过GAN的生成多样性和真实性。看完后,你会发现,还在用GAN做图像超分辨率吗?已经OUT了,快来试试DiffusionModel吧!
28766 3
【OpenVI-图像超分实战篇】别用GAN做超分了,快来试试基于扩散模型的图像超分吧!