在2024年的ICLR上,来自上海交通大学、上海人工智能实验室和悉尼大学的研究人员共同发布了一篇题为《Recursive Generalization Transformer for Image Super-Resolution 》的论文,提出了一种新型的Transformer架构,专门用于解决图像超分辨率(SR)任务。该论文的核心创新是提出了一种名为Recursive Generalization Transformer(RGT)的模型,该模型不仅能够有效地捕获全局空间信息,还适用于高分辨率图像,并且在计算复杂度上具有显著优势。
图像超分辨率的主要目标是从低分辨率(LR)图像中恢复出高分辨率(HR)图像,这是一个极具挑战性的任务,因为存在多种可能的解决方案可以映射到任何给定的LR输入。为了应对这一挑战,研究人员们提出了各种基于深度卷积神经网络(CNN)的方法。虽然CNN在SR领域取得了显著进展,但它们在全局上下文感知方面仍然存在一定局限性,主要是由于卷积操作的局部处理原理所导致的。
近年来,Transformer架构在多个高级计算机视觉任务中展现出了与CNN相比的显著性能。Transformer的核心组件是自注意力(Self-Attention,SA)机制,它能够通过捕获所有输入数据之间的交互来直接建模长距离依赖关系。然而,传统的自注意力在图像大小上的计算复杂度呈二次方增长,这限制了其在高分辨率场景中的应用,尤其是在低级视觉任务(如图像SR)中。
为了在图像SR中应用Transformer,研究者们提出了多种方法来降低自注意力的计算成本。其中一些方法采用了局部自注意力,将特征图划分为子区域以限制自注意力的范围。同时,他们利用了位移机制、重叠窗口或交叉聚合操作来增强窗口之间的交互。这些方法在图像大小上实现了线性复杂度,并超越了之前的CNN方法。然而,与全局注意力相比,局部设计需要堆叠多个块来建立全局依赖关系。此外,一些方法提出了“转置”自注意力,它在通道维度而不是空间维度上操作。尽管这种方法可以隐式地捕获全局信息,但它阻碍了空间依赖关系的建模,这对于图像SR至关重要。
为了解决这些问题,本文提出了RGT模型,它能够直接在线性复杂度下探索全局信息。RGT的核心是递归泛化自注意力(Recursive-Generalization Self-Attention,RG-SA),它首先通过递归泛化模块(Recursive Generalization Module,RGM)将任意分辨率的输入特征聚合成具有小常量大小的代表性特征图。然后,利用交叉注意力在输入特征和代表性特征图之间交换全局信息。由于代表性特征图的大小远小于输入特征,整个过程的计算成本较低。此外,RG-SA进一步调整了自注意力中查询、键和值矩阵的通道维度,以减轻通道域中的冗余。
为了更好地利用全局上下文,研究者们将RG-SA与局部自注意力(Local Self-Attention,L-SA)结合,并提出了混合自适应集成(Hybrid Adaptive Integration,HAI)用于模块集成。HAI允许在Transformer块的外部直接融合不同层次(局部或全局)的特征。此外,HAI通过可学习的适配器自适应地调整输入特征以实现特征对齐。总体而言,RGT在捕获全局信息以实现准确图像SR的同时,保持了可管理的复杂度。
论文的贡献可以总结如下:一是提出了RGT模型,它能够捕获全局空间信息,适用于高分辨率图像,并在定量和视觉上取得了显著的SR性能。二是提出了RG-SA,利用递归聚合模块和交叉注意力在线性复杂度下建模全局依赖关系。三是将RG-SA与L-SA结合,更好地利用全局上下文,并提出了HAI用于模块集成。
RGT是一种新的Transformer模型,它能够有效地进行图像SR,同时保持低计算成本。RGT的设计,特别是RG-SA和HAI,使得模型能够在捕获全局信息的同时,保持可管理的复杂度。这些特点使得RGT在图像SR任务中具有显著的优势。