ECCV 2022 | 可调节的真实场景图像超分辨率, 腾讯ARC Lab利用度量学习来解决

简介: ECCV 2022 | 可调节的真实场景图像超分辨率, 腾讯ARC Lab利用度量学习来解决
来自腾讯 ARC Lab 的研究者们提出利用无监督的度量学习, 来训练现实场景下可调节的图像超分辨率任务。

实世界超分辨率 (Real-world super-resolution) 是指从包含真实退化的低分辨率图像中复原得到高分辨率的图像. 可调节的现实世界图像超分辨率是一个很有挑战的任务, 因为降质 (degradation) 过程复杂且未知,可调节的交互机制很难通过有监督的训练来完成。

对于可调节的图像超分辨率, 之前的工作主要在经典退化的仿真数据上进行研究,也就是说我们已知了退化类型和退化强度。虽然这种设计在仿真数据上有不错的表现,但在现实场景下的应用仍然存在很多问题:

经典的仿真退化很难模拟复杂的现实世界退化,训练出的网络在现实世界数据上重建效果较差。同时,这种设定下训练得到的可调节交互机制在现实世界数据上的调节效果也会大打折扣。

虽然高阶退化可以用来仿真现实世界的低清图像,但这种仿真退化下的退化强度是未知的,很难通过有监督的训练来构建这种可调节交互机制。


最近无监督的对比学习在底层视觉领域受到越来越多的关注。这类方法方便了复杂降质特征的提取,这给来自腾讯 ARC Lab 的研究者们提供了一个思路: 是否可以利用对比的方式无监督的构建现实场景下图像超分辨率的可调节交互机制?



篇工作的核心利用度量学习在高阶仿真退化中,通过对比不同样本退化强度大小的方式无监督地构建退化强度的度量空间。度量空间中的退化得分不代表真实的退化强度,但可以反映退化强度的相对大小。本篇文章提出的方法(MM-RealSR)通过度量空间中的退化得分来构建现实场景下图像超分辨率的可调节交互机制。

本文提出了在复杂的退化空间中,划分两个度量空间,分别是广义 noise 和广义 blur。因为这两种退化因素是真实场景下最为常见的也是人们最关注,和最需要调节的。MM-RealSR 在现实场景下可以达到如下图 1 的调节效果。相比于近几年其他可调节复原方法, MM-RealSR 不仅实现了现实场景下的可调节图像超分辨率, 整体重建结果也更加自然。

图 1. MM-RealSR 在真实场景下的可调节超分辨率效果

现有可调节复原方案的回顾与对比如图 2 所示,首先来看,现有方案针对的图像退化设定是低阶的,需要已知退化类型和退化强度的。本文提出的方案面向现实场景,退化过程是高阶的,未知退化类型和退化强度的。

图 2. 本文提出方案与现有方法的对比MM-RealSR 结构本文关注真实场景中最常见的两种退化因子,广义 noise 和广义 blur,并对这两种退化因子做了一般化的定义如图 3 所示。其中 noise 包含高斯噪声、泊松噪声,和 JPEG 压缩等;blur 包含各向同性、各向异性,以及随机尺寸变换等模糊因素。

图 3. 退化因子的定义针对这两种退化因子,本文提出的无监督退化估计模块如图 4 所示。通过度量学习,该模块将难以量化的现实世界退化强度映射到两个独立的度量空间之中。通过不同退化强度之间的大小对比,构建度量空间中的距离关系。本文额外通过一个锚点损失函数限制度量空间的分布。虽然度量空间中的退化得分无法反映真实的退化强度,但可以体现退化强度的相对大小关系。本文将无监督的退化估计模块和图像超分辨率模块进行联合训练,来构建退化得分和重建结果之间的可调节关系。

图 4.  基于度量学习的无监督退化估计模块本文提出的总模型结构如图 5 所示。由退化估计模块、状态变量生成模块,以及重建模块构成。其中状态变量生成模块将预测到的退化得分转化成一组状态变量,并将这组状态变量以仿射变换的方式注入图像重建模块当中去,起到调节重建结果的作用。实验证明,本文提出的方法兼顾优越的重建效果和可调节能力。

图 5.  基于度量学习的可调节现实世界图像超分辨率网络损失函数本文通过 L1,Perceptual 和 GAN 复原损失函数来保证图像重建质量,通过度量损失函数(margin ranking losses)来训练噪声度量空间和模糊度量空间。度量损失函数的表达式:

为了控制度量空间中评分的分布,本文还提出了一个锚点损失函数:


和现有的现实世界图像超分辨作 Real-ESRGAN 类似,本文采用高阶退化的仿真数据作为训练数据。更多的细节请参见论文。

实验结果研究者们在现实世界的低质量数据上做了重建效果的测试:

可以看到,本文提出的方法在具备交互能力的基础上,超分辨率的性能也达到了 SOTA 的水平,主观结果也更加美观自然。研究者们在现实世界数据上对无监督退化评分器的评分能力进行了测试:


可以看到,无监督退化评分器可以较好地评估现实场景下的退化强度。研究者们在现实世界数据上对网络的交互重建能力进行了测试:


可以看到,对比现有方法,MM-RealSR 在交互重建能力上有更好的表现。它的交互范围更大,重建效果更好。小结本文提出了在真实场景下,可调节的维度主要是广义 noise 和广义 blur 两方面。通过无监督的度量学习,首次实现了真实场景下可调节的图像超分辨率。提出的方法在调节能力和超分辨率性能上都取得了优异的表现。

相关文章
|
6月前
|
测试技术 计算机视觉
ICLR 2024 Spotlight:自蒸馏激发CLIP模型的检测分割能力
【2月更文挑战第28天】ICLR 2024 Spotlight:自蒸馏激发CLIP模型的检测分割能力
161 1
ICLR 2024 Spotlight:自蒸馏激发CLIP模型的检测分割能力
|
6月前
|
机器学习/深度学习 传感器 编解码
Hy-Tracker来啦 | 带有YOLO的跟踪算法家族再添新成员,尺度变化和遮挡都不是问题!
Hy-Tracker来啦 | 带有YOLO的跟踪算法家族再添新成员,尺度变化和遮挡都不是问题!
209 1
|
人工智能 算法
AI 绘画Stable Diffusion 研究(九)sd图生图功能详解-老照片高清修复放大(2)
AI 绘画Stable Diffusion 研究(九)sd图生图功能详解-老照片高清修复放大
831 0
|
人工智能 前端开发 算法框架/工具
AI 绘画Stable Diffusion 研究(九)sd图生图功能详解-老照片高清修复放大(1)
AI 绘画Stable Diffusion 研究(九)sd图生图功能详解-老照片高清修复放大
833 0
学不动系列 | YolactEdge:边缘设备上的实时实例分割(Xavier: 30 FPS,附源码与论文)(二)
学不动系列 | YolactEdge:边缘设备上的实时实例分割(Xavier: 30 FPS,附源码与论文)(二)
71 0
|
编解码 算法 计算机视觉
学不动系列 | YolactEdge:边缘设备上的实时实例分割(Xavier: 30 FPS,附源码与论文)(一)
学不动系列 | YolactEdge:边缘设备上的实时实例分割(Xavier: 30 FPS,附源码与论文)(一)
206 0
|
机器学习/深度学习 人工智能 算法
NeurIPS 2022 | 利用多光照信息的单视角NeRF算法S^3-NeRF,可恢复场景几何与材质信息
NeurIPS 2022 | 利用多光照信息的单视角NeRF算法S^3-NeRF,可恢复场景几何与材质信息
237 0
|
机器学习/深度学习 存储 并行计算
NeurIPS 2021 Spotlight | 准确、快速、内存经济,新框架MEST实现边缘设备友好的稀疏训练
NeurIPS 2021 Spotlight | 准确、快速、内存经济,新框架MEST实现边缘设备友好的稀疏训练
108 0
|
机器学习/深度学习 数据采集 算法
首次突破30FPS!天大、清华和卡迪夫联合提出基于单RGB相机的全新三维表示方法FOF|NeurIPS 2022
首次突破30FPS!天大、清华和卡迪夫联合提出基于单RGB相机的全新三维表示方法FOF|NeurIPS 2022
131 0
|
编解码 区块链
Google Earth Engine——WWF/HydroSHEDS/30DIR该数据集的分辨率为30弧秒。30角秒的数据集是水文条件下的DEM、排水(流)方向和流量累积。1km分辨率DEM
Google Earth Engine——WWF/HydroSHEDS/30DIR该数据集的分辨率为30弧秒。30角秒的数据集是水文条件下的DEM、排水(流)方向和流量累积。1km分辨率DEM
146 0
Google Earth Engine——WWF/HydroSHEDS/30DIR该数据集的分辨率为30弧秒。30角秒的数据集是水文条件下的DEM、排水(流)方向和流量累积。1km分辨率DEM