ICLR 2024:泛化递归Transformer,降低超分辨率复杂度

简介: 【2月更文挑战第16天】ICLR 2024:泛化递归Transformer,降低超分辨率复杂度

92ad169ed96686ff9f3017e6a7dee383.jpeg
在2024年的ICLR上,来自上海交通大学、上海人工智能实验室和悉尼大学的研究人员共同发布了一篇题为《Recursive Generalization Transformer for Image Super-Resolution 》的论文,提出了一种新型的Transformer架构,专门用于解决图像超分辨率(SR)任务。该论文的核心创新是提出了一种名为Recursive Generalization Transformer(RGT)的模型,该模型不仅能够有效地捕获全局空间信息,还适用于高分辨率图像,并且在计算复杂度上具有显著优势。

图像超分辨率的主要目标是从低分辨率(LR)图像中恢复出高分辨率(HR)图像,这是一个极具挑战性的任务,因为存在多种可能的解决方案可以映射到任何给定的LR输入。为了应对这一挑战,研究人员们提出了各种基于深度卷积神经网络(CNN)的方法。虽然CNN在SR领域取得了显著进展,但它们在全局上下文感知方面仍然存在一定局限性,主要是由于卷积操作的局部处理原理所导致的。

近年来,Transformer架构在多个高级计算机视觉任务中展现出了与CNN相比的显著性能。Transformer的核心组件是自注意力(Self-Attention,SA)机制,它能够通过捕获所有输入数据之间的交互来直接建模长距离依赖关系。然而,传统的自注意力在图像大小上的计算复杂度呈二次方增长,这限制了其在高分辨率场景中的应用,尤其是在低级视觉任务(如图像SR)中。

为了在图像SR中应用Transformer,研究者们提出了多种方法来降低自注意力的计算成本。其中一些方法采用了局部自注意力,将特征图划分为子区域以限制自注意力的范围。同时,他们利用了位移机制、重叠窗口或交叉聚合操作来增强窗口之间的交互。这些方法在图像大小上实现了线性复杂度,并超越了之前的CNN方法。然而,与全局注意力相比,局部设计需要堆叠多个块来建立全局依赖关系。此外,一些方法提出了“转置”自注意力,它在通道维度而不是空间维度上操作。尽管这种方法可以隐式地捕获全局信息,但它阻碍了空间依赖关系的建模,这对于图像SR至关重要。

为了解决这些问题,本文提出了RGT模型,它能够直接在线性复杂度下探索全局信息。RGT的核心是递归泛化自注意力(Recursive-Generalization Self-Attention,RG-SA),它首先通过递归泛化模块(Recursive Generalization Module,RGM)将任意分辨率的输入特征聚合成具有小常量大小的代表性特征图。然后,利用交叉注意力在输入特征和代表性特征图之间交换全局信息。由于代表性特征图的大小远小于输入特征,整个过程的计算成本较低。此外,RG-SA进一步调整了自注意力中查询、键和值矩阵的通道维度,以减轻通道域中的冗余。

为了更好地利用全局上下文,研究者们将RG-SA与局部自注意力(Local Self-Attention,L-SA)结合,并提出了混合自适应集成(Hybrid Adaptive Integration,HAI)用于模块集成。HAI允许在Transformer块的外部直接融合不同层次(局部或全局)的特征。此外,HAI通过可学习的适配器自适应地调整输入特征以实现特征对齐。总体而言,RGT在捕获全局信息以实现准确图像SR的同时,保持了可管理的复杂度。

论文的贡献可以总结如下:一是提出了RGT模型,它能够捕获全局空间信息,适用于高分辨率图像,并在定量和视觉上取得了显著的SR性能。二是提出了RG-SA,利用递归聚合模块和交叉注意力在线性复杂度下建模全局依赖关系。三是将RG-SA与L-SA结合,更好地利用全局上下文,并提出了HAI用于模块集成。

RGT是一种新的Transformer模型,它能够有效地进行图像SR,同时保持低计算成本。RGT的设计,特别是RG-SA和HAI,使得模型能够在捕获全局信息的同时,保持可管理的复杂度。这些特点使得RGT在图像SR任务中具有显著的优势。

目录
相关文章
|
5天前
|
机器学习/深度学习
YOLOv8改进 | 注意力篇 | ACmix自注意力与卷积混合模型(提高FPS+检测效率)
YOLOv8改进 | 注意力篇 | ACmix自注意力与卷积混合模型(提高FPS+检测效率)
177 0
|
5天前
线性回归前特征离散化可简化模型、增强稳定性、选有意义特征、降低过拟合、提升计算效率及捕捉非线性关系。
【5月更文挑战第2天】线性回归前特征离散化可简化模型、增强稳定性、选有意义特征、降低过拟合、提升计算效率及捕捉非线性关系。但过多离散特征可能增加复杂度,丢失信息,影响模型泛化和精度。需谨慎平衡离散化利弊。
17 0
|
5天前
|
缓存 并行计算 算法
【译】Based:简单线性注意力语言模型平衡召回-吞吐量权衡
【译】Based:简单线性注意力语言模型平衡召回-吞吐量权衡
17 3
|
5天前
|
人工智能 搜索推荐 物联网
DoRA(权重分解低秩适应):一种新颖的模型微调方法_dora模型
DoRA(权重分解低秩适应):一种新颖的模型微调方法_dora模型
100 0
|
5天前
|
机器学习/深度学习
YOLOv5改进 | 注意力篇 | ACmix自注意力与卷积混合模型(提高FPS+检测效率)
YOLOv5改进 | 注意力篇 | ACmix自注意力与卷积混合模型(提高FPS+检测效率)
59 0
|
5天前
|
机器学习/深度学习 网络架构
YOLOv8改进 | 2023主干篇 | 利用RT-DETR特征提取网络PPHGNetV2改进YOLOv8(超级轻量化精度更高)
YOLOv8改进 | 2023主干篇 | 利用RT-DETR特征提取网络PPHGNetV2改进YOLOv8(超级轻量化精度更高)
136 1
|
12月前
|
机器学习/深度学习 数据可视化
DHVT:在小数据集上降低VIT与卷积神经网络之间差距,解决从零开始训练的问题
VIT在归纳偏置方面存在空间相关性和信道表示的多样性两大缺陷。所以论文提出了动态混合视觉变压器(DHVT)来增强这两种感应偏差。
190 0
|
12月前
|
存储 机器学习/深度学习 算法
简单有效 | Transformer通过剪枝降低FLOPs以走向部署(文末获取论文)
简单有效 | Transformer通过剪枝降低FLOPs以走向部署(文末获取论文)
252 0
|
12月前
|
机器学习/深度学习 PyTorch 算法框架/工具
Tansformer | 详细解读:如何在CNN模型中插入Transformer后速度不变精度剧增?(一)
Tansformer | 详细解读:如何在CNN模型中插入Transformer后速度不变精度剧增?(一)
300 0
|
12月前
|
机器学习/深度学习 计算机视觉 异构计算
Tansformer | 详细解读:如何在CNN模型中插入Transformer后速度不变精度剧增?(二)
Tansformer | 详细解读:如何在CNN模型中插入Transformer后速度不变精度剧增?(二)
239 0