兼顾图像超分辨率、图像再缩放,ETH提出新型统一框架HCFlow,已开源

简介: 来自苏黎世联邦理工学院计算机视觉实验室的研究者提出了一种统一框架 HCFlow,该框架可以同时处理图像超分辨率和图像再缩放,并在通用图像超分辨率、人脸图像超分辨率和图像再缩放上等任务上取得了最佳结果。该论文已被 ICCV2021 接收。

近年来,归一化流(Normalizing Flow)模型在图像超分辨率(image SR)[SRFlow, ECCV2020]和图像再缩放(image rescaling)[IRN, ECCV2020]任务上取得了惊人的效果。尽管这两个任务有本质的不同,但都具有高度的相似性。基于以上两个工作,来自苏黎世联邦理工学院计算机视觉实验室的研究者提出了 HCFlow,使用一个统一的框架处理图像超分辨率和图像再缩放,并在通用图像超分辨率、人脸图像超分辨率和图像再缩放上等任务上取得了最佳结果。该论文已被 ICCV2021 接收。

微信图片_20211206113634.jpg



摘要


近期,归一化流(Normalizing Flow)模型在底层视觉领域取得了惊人的效果。在图像超分辨率上(image SR),可以用来从低分辨率图像中预测出细节不同的高质量高分辨率(diverse photo-realistic)图像。在图像再缩放(image rescaling)上,可以用来联合建模下采样和上采样过程,从而提升性能。本文提出了一个统一的框架 HCFlow,可以用于处理这两个问题。具体而言,HCFlow 通过对低分辨率图像和丢失的高频信息进行概率建模,在高分辨率和低分辨率图像之间学习一个双射(bijection)。其中,高频信息的建模过程以一种多层级的方式条件依赖于低分辨率图像。在训练中,该研究使用最大似然损失函数进行优化,并引入了感知损失函数(perceptual loss)和生成对抗损失函数(GAN loss)等进一步提升模型效果。实验结果表明,HCFlow 在通用图像超分辨率、人脸图像超分辨率和图像再缩放等任务上取得了最佳的结果。

 图像超分辨率 v.s. 图像再缩放
图像超分辨率的目标是从低分辨率图像中重建出高分辨率图像。低分辨率图像空间一般是给定的。例如,双三次降采样 (bicubic downsampling)图像。
图像再缩放的目标是将高分辨率图像下采样到视觉效果较好的低分辨率图像,并且保证可以很好地恢复出原本的高分辨率图像。与图像超分任务不同,图像再缩放中低分辨率图像空间是可以自己定义的。它的主要应用场景是减少图像存储和带宽。


方法


归一化流简单介绍

归一化流(Normalizing Flow)模型致力于在目标空间(例如高分辨率图像 x)和隐空间(例如服从高斯分布的隐变量 z)之间学习一个双射。它的模型结构通常是由多层可逆变换组成的一个可逆神经网络(invertible neural network):

微信图片_20211206113638.jpg


根据变量变换公式(change of variable formula)和链式法则,模型参数可以通过下面的最大似然损失函数进行优化:

微信图片_20211206113641.jpg


更多入门信息可以参考:


低分辨率图像空间建模
图像超分辨率和图像再缩放任务实际上都有一个图像退化(降采样)和图像超分(上采样)的过程。基于归一化流模型,该研究可以在高分辨率图像 x 和低分辨率图像 y 以及一个编码高频信息的隐变量 a 之间学习一个可逆双射变换微信图片_20211206113649.jpg由于直接对自然图像进行概率建模是很难的,该研究设计了一个基于真实低分辨率图像 y * 的条件分布模型:

微信图片_20211206113651.jpg


理想情况下,研究者希望 y 和 y * 越接近越好,所以他们将 p(y|y*)表示为狄拉克函数微信图片_20211206113902.jpg,并通过一个具有极小方差的高斯分布来近似表示 p(y|y*):

微信图片_20211206113654.jpg


由于高频信息 p(a|y)可以通过另一个归一化流模型变换为一个高斯分布 p(z),整个模型可以定义为:

微信图片_20211206113657.jpg


这样,高分辨率图像 x 就可以通过一个可逆神经网络变换为低分辨率图像 y 和编码高频信息的隐变量 z,且都服从参数已知的高斯分布。因此,我们可以方便地通过计算最大似然损失函数来优化模型。


多层级网络结构


为了更好地建模低分辨率图像和高频信息之间的关系(即 p(a|y)),该研究进一步提出了一个多层级条件依赖建模框架。在保持整体网络可逆性的条件下,逐步恢复高频信息,重建出高分辨率图像。如下图所示,归一化流的前向过程类似于二叉树的深度优先遍历,而反向过程则从最深层逐步计算至第一层。y 和 a 分别代表各层的低频和高频信息,数字代表计算顺序,蓝色箭头代表条件依赖关系。

微信图片_20211206113701.jpg


具体的网络结构如下图所示。

微信图片_20211206113704.jpg


实验


图像超分辨率

该研究使用最大似然损失函数训练模型,并使用 L1 损失函数,感知损失函数(perceptual loss)和生成对抗损失函数(GAN loss)进一步提升模型效果。在参数量下降 1/3 的情况下,HCFlow 在通用图像超分辨率和人脸图像超分辨率上,都取得了最佳的结果。在不同的随机采样中,可以生成细节不同的高质量高分辨率图像。值得注意的是,与 基于 GAN 的模型类似,基于归一化流的模型主要关注视觉效果,PSNR 通常有所下降。

微信图片_20211206113707.jpg


微信图片_20211206113711.jpg


微信图片_20211206113716.jpg


图像再缩放


由于图像再缩放通常不关注重建结果的多样性,HCFlow 采用与 IRN (ECCV2020)一致的训练策略,将前向过程和反向过程分别视为编码和解码过程。训练损失函数包括在高分辨率图像和低分辨率图像上的 L1 损失函数,以及在隐变量上的约束。在相近的模型参数量下,取得了 0.10-0.34dB 的提升

微信图片_20211206113719.jpg


微信图片_20211206113722.jpg


相关文章
|
机器学习/深度学习 传感器 编解码
一文详解视觉Transformer在CV中的现状、趋势和未来方向(分类/检测/分割/多传感器融合)(中)
本综述根据三个基本的CV任务和不同的数据流类型,全面调查了100多种不同的视觉Transformer,并提出了一种分类法,根据其动机、结构和应用场景来组织代表性方法。由于它们在训练设置和专用视觉任务上的差异,论文还评估并比较了不同配置下的所有现有视觉Transformer。此外,论文还揭示了一系列重要但尚未开发的方面,这些方面可能使此类视觉Transformer能够从众多架构中脱颖而出,例如,松散的高级语义嵌入,以弥合视觉Transformer与序列式之间的差距。最后,提出了未来有前景的研究方向。
一文详解视觉Transformer在CV中的现状、趋势和未来方向(分类/检测/分割/多传感器融合)(中)
|
10天前
|
数据可视化 vr&ar 图形学
5秒内快速生成、直出工业级PBR资产,三维扩散模型3DTopia-XL开源
【10月更文挑战第26天】在数字时代,高质量3D资产的需求日益增长,但创建这些资产通常耗时且昂贵。3DTopia-XL是一种新型三维扩散模型,由香港中文大学、东京大学和南洋理工大学等机构的研究人员合作开发。该模型通过使用原始扩散技术和PrimX表示方法,能够在短时间内生成具有高几何保真度和精细纹理的3D资产,大大降低了3D内容创建的门槛。尽管存在一些局限性,3DTopia-XL仍展示了巨大的潜力,未来有望在多个行业中得到广泛应用。
22 2
|
10天前
|
编解码 人工智能 调度
Meissonic:高效高分辨率文生图重大革新
Meissonic的新模型,仅1b参数可实现高质量图像生成,能在普通电脑上运行,未来有望支持无线端文本到图像的生成。
|
3月前
|
数据可视化 数据管理 vr&ar
|
6月前
|
机器学习/深度学习 编解码 异构计算
ELAN:用于图像超分辨率的高效远程注意力网络
ELAN:用于图像超分辨率的高效远程注意力网络
159 1
|
存储 传感器 编解码
苹果、俄勒冈州立提出AutoFocusFormer: 摆脱传统栅格,采用自适应下采样的图像分割
苹果、俄勒冈州立提出AutoFocusFormer: 摆脱传统栅格,采用自适应下采样的图像分割
125 0
|
机器学习/深度学习 传感器 编解码
一文详解视觉Transformer在CV中的现状、趋势和未来方向(分类/检测/分割/多传感器融合)(上)
本综述根据三个基本的CV任务和不同的数据流类型,全面调查了100多种不同的视觉Transformer,并提出了一种分类法,根据其动机、结构和应用场景来组织代表性方法。由于它们在训练设置和专用视觉任务上的差异,论文还评估并比较了不同配置下的所有现有视觉Transformer。此外,论文还揭示了一系列重要但尚未开发的方面,这些方面可能使此类视觉Transformer能够从众多架构中脱颖而出,例如,松散的高级语义嵌入,以弥合视觉Transformer与序列式之间的差距。最后,提出了未来有前景的研究方向。
一文详解视觉Transformer在CV中的现状、趋势和未来方向(分类/检测/分割/多传感器融合)(上)
|
机器学习/深度学习 编解码 计算机视觉
全新轻量化模型 | 轻量化沙漏网络助力视觉感知涨点
全新轻量化模型 | 轻量化沙漏网络助力视觉感知涨点
164 0
|
传感器 机器学习/深度学习 算法
CVPR 2023 | 移动传感器引导的跨时节六自由度视觉定位,准确且高效
CVPR 2023 | 移动传感器引导的跨时节六自由度视觉定位,准确且高效
225 0
|
编解码 人工智能 定位技术
联合NeRF与特征网格,实现超大规模城市渲染,高效且逼真
联合NeRF与特征网格,实现超大规模城市渲染,高效且逼真
159 0
下一篇
无影云桌面