ICLR 2024:泛化递归Transformer,降低超分辨率复杂度

简介: 【2月更文挑战第16天】ICLR 2024:泛化递归Transformer,降低超分辨率复杂度

92ad169ed96686ff9f3017e6a7dee383.jpeg
在2024年的ICLR上,来自上海交通大学、上海人工智能实验室和悉尼大学的研究人员共同发布了一篇题为《Recursive Generalization Transformer for Image Super-Resolution 》的论文,提出了一种新型的Transformer架构,专门用于解决图像超分辨率(SR)任务。该论文的核心创新是提出了一种名为Recursive Generalization Transformer(RGT)的模型,该模型不仅能够有效地捕获全局空间信息,还适用于高分辨率图像,并且在计算复杂度上具有显著优势。

图像超分辨率的主要目标是从低分辨率(LR)图像中恢复出高分辨率(HR)图像,这是一个极具挑战性的任务,因为存在多种可能的解决方案可以映射到任何给定的LR输入。为了应对这一挑战,研究人员们提出了各种基于深度卷积神经网络(CNN)的方法。虽然CNN在SR领域取得了显著进展,但它们在全局上下文感知方面仍然存在一定局限性,主要是由于卷积操作的局部处理原理所导致的。

近年来,Transformer架构在多个高级计算机视觉任务中展现出了与CNN相比的显著性能。Transformer的核心组件是自注意力(Self-Attention,SA)机制,它能够通过捕获所有输入数据之间的交互来直接建模长距离依赖关系。然而,传统的自注意力在图像大小上的计算复杂度呈二次方增长,这限制了其在高分辨率场景中的应用,尤其是在低级视觉任务(如图像SR)中。

为了在图像SR中应用Transformer,研究者们提出了多种方法来降低自注意力的计算成本。其中一些方法采用了局部自注意力,将特征图划分为子区域以限制自注意力的范围。同时,他们利用了位移机制、重叠窗口或交叉聚合操作来增强窗口之间的交互。这些方法在图像大小上实现了线性复杂度,并超越了之前的CNN方法。然而,与全局注意力相比,局部设计需要堆叠多个块来建立全局依赖关系。此外,一些方法提出了“转置”自注意力,它在通道维度而不是空间维度上操作。尽管这种方法可以隐式地捕获全局信息,但它阻碍了空间依赖关系的建模,这对于图像SR至关重要。

为了解决这些问题,本文提出了RGT模型,它能够直接在线性复杂度下探索全局信息。RGT的核心是递归泛化自注意力(Recursive-Generalization Self-Attention,RG-SA),它首先通过递归泛化模块(Recursive Generalization Module,RGM)将任意分辨率的输入特征聚合成具有小常量大小的代表性特征图。然后,利用交叉注意力在输入特征和代表性特征图之间交换全局信息。由于代表性特征图的大小远小于输入特征,整个过程的计算成本较低。此外,RG-SA进一步调整了自注意力中查询、键和值矩阵的通道维度,以减轻通道域中的冗余。

为了更好地利用全局上下文,研究者们将RG-SA与局部自注意力(Local Self-Attention,L-SA)结合,并提出了混合自适应集成(Hybrid Adaptive Integration,HAI)用于模块集成。HAI允许在Transformer块的外部直接融合不同层次(局部或全局)的特征。此外,HAI通过可学习的适配器自适应地调整输入特征以实现特征对齐。总体而言,RGT在捕获全局信息以实现准确图像SR的同时,保持了可管理的复杂度。

论文的贡献可以总结如下:一是提出了RGT模型,它能够捕获全局空间信息,适用于高分辨率图像,并在定量和视觉上取得了显著的SR性能。二是提出了RG-SA,利用递归聚合模块和交叉注意力在线性复杂度下建模全局依赖关系。三是将RG-SA与L-SA结合,更好地利用全局上下文,并提出了HAI用于模块集成。

RGT是一种新的Transformer模型,它能够有效地进行图像SR,同时保持低计算成本。RGT的设计,特别是RG-SA和HAI,使得模型能够在捕获全局信息的同时,保持可管理的复杂度。这些特点使得RGT在图像SR任务中具有显著的优势。

目录
相关文章
|
3月前
英伟达玩转剪枝、蒸馏:把Llama 3.1 8B参数减半,性能同尺寸更强
【9月更文挑战第10天】《通过剪枝和知识蒸馏实现紧凑型语言模型》由英伟达研究人员撰写,介绍了一种创新方法,通过剪枝和知识蒸馏技术将大型语言模型参数数量减半,同时保持甚至提升性能。该方法首先利用剪枝技术去除冗余参数,再通过知识蒸馏从更大模型转移知识以优化性能。实验结果显示,该方法能显著减少模型参数并提升性能,但可能需大量计算资源且效果因模型和任务而异。
84 8
|
2月前
|
机器学习/深度学习 PyTorch 算法框架/工具
|
5月前
|
计算机视觉 异构计算
【YOLOv8改进-SPPF】 AIFI : 基于注意力的尺度内特征交互,保持高准确度的同时减少计算成本
YOLOv8专栏介绍了该系列目标检测框架的最新改进与实战应用。文章提出RT-DETR,首个实时端到端检测器,解决了速度与精度问题。通过高效混合编码器和不确定性最小化查询选择,RT-DETR在COCO数据集上实现高AP并保持高帧率,优于其他YOLO版本。论文和代码已开源。核心代码展示了AIFI Transformer层,用于位置嵌入。更多详情见[YOLOv8专栏](https://blog.csdn.net/shangyanaf/category_12303415.html)。
|
7月前
|
自然语言处理 算法 网络架构
DeepMind升级Transformer,前向通过FLOPs最多可降一半
【4月更文挑战第25天】DeepMind提出的新Transformer变体MoD,通过动态分配计算资源降低前向计算复杂度,旨在优化效率并保持性能。MoD模型采用动态路由机制,集中计算资源处理关键token,减少不必要的计算,从而提高效率和速度。实验显示,MoD模型能减半FLOPs,降低成本。然而,它面临动态计算分配的复杂性、路由算法的准确性及自回归采样中的非因果性挑战。[论文链接](https://arxiv.org/pdf/2404.02258.pdf)
64 5
|
7月前
|
缓存 并行计算 算法
【译】Based:简单线性注意力语言模型平衡召回-吞吐量权衡
【译】Based:简单线性注意力语言模型平衡召回-吞吐量权衡
61 3
|
机器学习/深度学习 人工智能 算法
【CIKM 2023】扩散模型加速采样算法OLSS,大幅提升模型推理速度
近日,阿里云人工智能平台 PAI与华东师范大学陈岑副教授团队合作在深度学习顶级会议 CIKM 2023 上发表 OLSS (Optimal Linear Subspace Search) 算法,这是一种针对扩散模型的采样加速算法。在这篇论文中,扩散模型加速算法的本质被建模成线性子空间的扩张过程,给出了目前方法的统一分析,并基于此设计了新的加速算法,大幅度提升了扩散模型的生成速度。
|
7月前
|
人工智能 搜索推荐 物联网
DoRA(权重分解低秩适应):一种新颖的模型微调方法_dora模型
DoRA(权重分解低秩适应):一种新颖的模型微调方法_dora模型
386 0
|
机器学习/深度学习 传感器 编解码
2023最新 | 单目深度估计网络结构的通用性研究
单目深度估计已经被广泛研究,最近已经报道了许多在性能上显著改进的方法。然而,大多数先前的工作都是在一些基准数据集(如KITTI数据集)上进行评估的,并且没有一项工作对单目深度估计的泛化性能进行深入分析。本文深入研究了各种骨干网络(例如CNN和Transformer模型),以推广单目深度估计。首先,评估了分布内和分布外数据集上的SOTA模型,这在网络训练期间从未见过。然后,使用合成纹理移位数据集研究了基于CNN和Transformer的模型中间层表示的内部属性。通过大量实验,观察到transformer呈现出强烈的形状偏差,而CNN具有强烈纹理偏差。
2023最新 | 单目深度估计网络结构的通用性研究
|
机器学习/深度学习 数据可视化
DHVT:在小数据集上降低VIT与卷积神经网络之间差距,解决从零开始训练的问题
VIT在归纳偏置方面存在空间相关性和信道表示的多样性两大缺陷。所以论文提出了动态混合视觉变压器(DHVT)来增强这两种感应偏差。
260 0
|
存储 机器学习/深度学习 算法
简单有效 | Transformer通过剪枝降低FLOPs以走向部署(文末获取论文)
简单有效 | Transformer通过剪枝降低FLOPs以走向部署(文末获取论文)
400 0
下一篇
DataWorks