ECCV 2022 | 可调节的真实场景图像超分辨率, 腾讯ARC Lab利用度量学习来解决

简介: ECCV 2022 | 可调节的真实场景图像超分辨率, 腾讯ARC Lab利用度量学习来解决
来自腾讯 ARC Lab 的研究者们提出利用无监督的度量学习, 来训练现实场景下可调节的图像超分辨率任务。

实世界超分辨率 (Real-world super-resolution) 是指从包含真实退化的低分辨率图像中复原得到高分辨率的图像. 可调节的现实世界图像超分辨率是一个很有挑战的任务, 因为降质 (degradation) 过程复杂且未知,可调节的交互机制很难通过有监督的训练来完成。

对于可调节的图像超分辨率, 之前的工作主要在经典退化的仿真数据上进行研究,也就是说我们已知了退化类型和退化强度。虽然这种设计在仿真数据上有不错的表现,但在现实场景下的应用仍然存在很多问题:

经典的仿真退化很难模拟复杂的现实世界退化,训练出的网络在现实世界数据上重建效果较差。同时,这种设定下训练得到的可调节交互机制在现实世界数据上的调节效果也会大打折扣。

虽然高阶退化可以用来仿真现实世界的低清图像,但这种仿真退化下的退化强度是未知的,很难通过有监督的训练来构建这种可调节交互机制。


最近无监督的对比学习在底层视觉领域受到越来越多的关注。这类方法方便了复杂降质特征的提取,这给来自腾讯 ARC Lab 的研究者们提供了一个思路: 是否可以利用对比的方式无监督的构建现实场景下图像超分辨率的可调节交互机制?



篇工作的核心利用度量学习在高阶仿真退化中,通过对比不同样本退化强度大小的方式无监督地构建退化强度的度量空间。度量空间中的退化得分不代表真实的退化强度,但可以反映退化强度的相对大小。本篇文章提出的方法(MM-RealSR)通过度量空间中的退化得分来构建现实场景下图像超分辨率的可调节交互机制。

本文提出了在复杂的退化空间中,划分两个度量空间,分别是广义 noise 和广义 blur。因为这两种退化因素是真实场景下最为常见的也是人们最关注,和最需要调节的。MM-RealSR 在现实场景下可以达到如下图 1 的调节效果。相比于近几年其他可调节复原方法, MM-RealSR 不仅实现了现实场景下的可调节图像超分辨率, 整体重建结果也更加自然。

图 1. MM-RealSR 在真实场景下的可调节超分辨率效果

现有可调节复原方案的回顾与对比如图 2 所示,首先来看,现有方案针对的图像退化设定是低阶的,需要已知退化类型和退化强度的。本文提出的方案面向现实场景,退化过程是高阶的,未知退化类型和退化强度的。

图 2. 本文提出方案与现有方法的对比MM-RealSR 结构本文关注真实场景中最常见的两种退化因子,广义 noise 和广义 blur,并对这两种退化因子做了一般化的定义如图 3 所示。其中 noise 包含高斯噪声、泊松噪声,和 JPEG 压缩等;blur 包含各向同性、各向异性,以及随机尺寸变换等模糊因素。

图 3. 退化因子的定义针对这两种退化因子,本文提出的无监督退化估计模块如图 4 所示。通过度量学习,该模块将难以量化的现实世界退化强度映射到两个独立的度量空间之中。通过不同退化强度之间的大小对比,构建度量空间中的距离关系。本文额外通过一个锚点损失函数限制度量空间的分布。虽然度量空间中的退化得分无法反映真实的退化强度,但可以体现退化强度的相对大小关系。本文将无监督的退化估计模块和图像超分辨率模块进行联合训练,来构建退化得分和重建结果之间的可调节关系。

图 4.  基于度量学习的无监督退化估计模块本文提出的总模型结构如图 5 所示。由退化估计模块、状态变量生成模块,以及重建模块构成。其中状态变量生成模块将预测到的退化得分转化成一组状态变量,并将这组状态变量以仿射变换的方式注入图像重建模块当中去,起到调节重建结果的作用。实验证明,本文提出的方法兼顾优越的重建效果和可调节能力。

图 5.  基于度量学习的可调节现实世界图像超分辨率网络损失函数本文通过 L1,Perceptual 和 GAN 复原损失函数来保证图像重建质量,通过度量损失函数(margin ranking losses)来训练噪声度量空间和模糊度量空间。度量损失函数的表达式:

为了控制度量空间中评分的分布,本文还提出了一个锚点损失函数:


和现有的现实世界图像超分辨作 Real-ESRGAN 类似,本文采用高阶退化的仿真数据作为训练数据。更多的细节请参见论文。

实验结果研究者们在现实世界的低质量数据上做了重建效果的测试:

可以看到,本文提出的方法在具备交互能力的基础上,超分辨率的性能也达到了 SOTA 的水平,主观结果也更加美观自然。研究者们在现实世界数据上对无监督退化评分器的评分能力进行了测试:


可以看到,无监督退化评分器可以较好地评估现实场景下的退化强度。研究者们在现实世界数据上对网络的交互重建能力进行了测试:


可以看到,对比现有方法,MM-RealSR 在交互重建能力上有更好的表现。它的交互范围更大,重建效果更好。小结本文提出了在真实场景下,可调节的维度主要是广义 noise 和广义 blur 两方面。通过无监督的度量学习,首次实现了真实场景下可调节的图像超分辨率。提出的方法在调节能力和超分辨率性能上都取得了优异的表现。

相关文章
|
7月前
|
编解码 算法
【论文速递】Remote Sensing2021 : 通过半全局匹配法的SAR立体图像DSM生成以及惩罚方程的评估
【论文速递】Remote Sensing2021 : 通过半全局匹配法的SAR立体图像DSM生成以及惩罚方程的评估
|
资源调度 算法 计算机视觉
数字图像处理实验(六)|图像分割{阈值分割、直方图法、OTUS最大类间方差法(edge、im2dw、imfilter、imresize)、迭代阈值法、点检测}(附matlab实验代码和截图)
数字图像处理实验(六)|图像分割{阈值分割、直方图法、OTUS最大类间方差法(edge、im2dw、imfilter、imresize)、迭代阈值法、点检测}(附matlab实验代码和截图)
1000 0
数字图像处理实验(六)|图像分割{阈值分割、直方图法、OTUS最大类间方差法(edge、im2dw、imfilter、imresize)、迭代阈值法、点检测}(附matlab实验代码和截图)
|
5月前
|
编解码 计算机视觉
CVPR 2024 Highlight:比LERF提速199倍!清华哈佛发布LangSplat:三维语义高斯泼溅
【7月更文挑战第8天】清华哈佛联合发布的LangSplat模型以3D语义高斯泼溅技术,比LERF快199倍,提升三维场景语言理解速度与准确性。模型利用3D高斯函数编码语言信息,实现高效交互,同时降低内存需求。然而,依赖高质量训练数据,计算复杂度较高且可解释性有限。[链接](https://arxiv.org/pdf/2312.16084.pdf)**
83 25
|
6月前
|
数据采集 算法 安全
CVPR 2024:给NeRF开透视眼!稀疏视角下用X光进行三维重建,9类算法工具包全开源
【6月更文挑战第28天】CVPR 2024亮点:SAX-NeRF框架开源!融合X光与NeRF,提升3D重建效果。X3D数据集验证,Lineformer+MLG策略揭示物体内部结构,增强几何理解。虽有计算成本及泛化挑战,但为计算机视觉和医学影像开辟新路径。[论文链接](https://arxiv.org/abs/2311.10959)**
196 5
|
7月前
|
机器学习/深度学习 传感器 编解码
Hy-Tracker来啦 | 带有YOLO的跟踪算法家族再添新成员,尺度变化和遮挡都不是问题!
Hy-Tracker来啦 | 带有YOLO的跟踪算法家族再添新成员,尺度变化和遮挡都不是问题!
239 1
|
7月前
|
机器学习/深度学习 数据可视化 网络协议
【论文精读】ECCV2020 - 带有圆平滑标签的定向目标检测
【论文精读】ECCV2020 - 带有圆平滑标签的定向目标检测
|
计算机视觉
【图像去噪】基于混合自适应(EM 自适应)实现自适应图像去噪研究(Matlab代码实现)
【图像去噪】基于混合自适应(EM 自适应)实现自适应图像去噪研究(Matlab代码实现)
|
机器学习/深度学习 传感器 并行计算
马普所开源ICON,显著提高单张图像重建三维数字人的姿势水平 | CVPR 2022
马普所开源ICON,显著提高单张图像重建三维数字人的姿势水平 | CVPR 2022
165 0
|
传感器 机器学习/深度学习 编解码
将点云与RGB图像结合,谷歌&Waymo提出的4D-Net,成功检测远距离目标
将点云与RGB图像结合,谷歌&Waymo提出的4D-Net,成功检测远距离目标
226 0
|
机器学习/深度学习 数据采集 算法
首次突破30FPS!天大、清华和卡迪夫联合提出基于单RGB相机的全新三维表示方法FOF|NeurIPS 2022
首次突破30FPS!天大、清华和卡迪夫联合提出基于单RGB相机的全新三维表示方法FOF|NeurIPS 2022
139 0