超分辨率技术如何发展?这6篇ECCV 18论文带你一次尽览

简介:

还有什么能比国际顶会更能反映图像技术的最前沿进展?

在这篇文章中,亲历了ECCV 2018的机器学习研究员Tetianka Martyniuk挑选了6篇ECCV 2018接收论文,概述了超分辨率(Super-Resolution, SR)技术的未来发展趋势。

量子位将文章要点翻译整理如下与大家分享。

e76c41079aa289dc2a641b73acfee90e3bc6da43

一:学习图像超分辨率,先学习图像退化

论文:
To learn image super-resolution, use a GAN to learn how to do image degradation first

地址:
http://openaccess.thecvf.com/content_ECCV_2018/html/Adrian_Bulat_To_learn_image_ECCV_2018_paper.html

为什么超分辨率经常被认为是个相当简单的问题?我曾经说过,因为它能够轻松得到训练数据(只需要降低获取图像的清晰度即可),所以和图像修复任务相比,超分辨率可能显得有些无聊。

但人工生成的低分辨率图像,和真实自然存在的图像一样吗?答案是否定的。和通过双三次插值生成的图像不同,真实世界的低分辨率图像明显属于不同类别。

因此,有人认为用这些人工生成的图像训练GAN并不能生成真实的图像。

为了处理这个问题,这篇论文的作者建议了两步走的方法:首先,用未配对的图像训练一个降低分辨率的GAN,所以它学习了如何减小高分辨率图像的规模。

当图片有多级退化或未知退化(比如运动模糊)时,能够帮我们获取真实结果的并不是建模过程,而是图像退化的学习过程。此外,它还解决的重建图像时的“老大难”问题:难以获取配对图像。

所以,在第一阶段,我们可以使用不同的未配对数据集,比如由Celeb-A、AFLW、LS3D-W和VGGFace2组成的高分辨率图像数据集,或者低分辨率图像数据集Widerface。第二阶段,用上一步的输出结果,用成对训练数据从低分辨率到高分辨率地训练GAN。

论文作者还提到,作者表示,唯一的另外一种写到了真实低分辨率面部图像超分辨率结果的方法,也出自自己实验室,而且中了CVPR 18。这些结果只包含面部图像,因为它用到了面部标记,因此不能被应用到其他物体分类中。

这是一些让人印象深刻的结果:

31f805c4319b9893004ce3e10f65bc8953a69d8e

二:由面部五官热力图指导的面部超分辨率

论文:
Face Super-resolution Guided by Facial Component Heatmaps

地址:
http://openaccess.thecvf.com/content_ECCV_2018/html/Xin_Yu_Face_Super-resolution_Guided_ECCV_2018_paper.html

在这篇论文中,作者认为自己的Face SR方法的结果优于SOTA,是因为它考虑到了人脸的面部特征,因此可以捕捉到动作的变化。此外,这大大降低了训练样例的数量。

他们主要的方法是借助提升采样的多任务CNN和辨别网络。这个提升采样的网络包含两个分支:一个提升采样的分支和一个相互协作的面部五官热力图分支。

e9953843c388ef89170fb070f04c8ca51febd270

在16*16的图像中检测面部五官是一个颇具挑战性的任务,所以作者首先拿到了低分辨率图像的超分辨率版本,然后部署空间变换网络配准特征图,随后,用经过上采样的特征图来预估面部五官的热力图。

配准特征图是可以减少训练数据规模的重要原因之一,预计的面部热力图也提供了可视化信息,这些是无法从像素级信息推断出来的。

00a04203a321ba09c2d53933bdc4a71dbba7838e

这里还有一些结果:

aef713f766c1ffc96d88c5d37685041e90e0082b

a:未配准的低像素的输入,b:原始高清图像,c:配准低分辨率人脸的最近邻,d:级联Bi-Network结果,e:TDAE(Transformative Discriminative Autoencoders)结果,f:用作者的训练数据训练过的TDAE结果,g:作者的结果

总的来说,与其他满量程(Full scale range,FSR)方法主要的不同点是,作者不仅应用到了相似强度映射,并且将收集的结构信息当作额外的先验。

三:用深度残差通道的注意网络的图像超分辨率

论文:
Image Super-Resolution Using Very Deep Residual Channel Attention Networks

地址:
http://openaccess.thecvf.com/content_ECCV_2018/html/Yulun_Zhang_Image_Super-Resolution_Using_ECCV_2018_paper.html

在这篇文章中,作者提出了一种让CNN更深的方法:首先要做的就是,准备10个残差组,其中每组包含20个残差通道注意模块。

研究人员表示网络的深度很重要,我们也认为如此,也见证过EDSR和MDSR带来的一波浪潮。然而,通过简单堆叠残差块来构建更深的网络可能很难得到更大的提升,需要在架构方面有更多进展。

所以,他们提出了RIR(residual in residual)架构,堆叠的每个残差组里包含很多残差块,因此我们也可以获得长跳过连接和短跳过连接。

上述提到的映射和残差块中的快捷键可以绕开低频信息。

f82858b7c82d93a799a6fa49cc34272c47b014f6

网络架构

这篇论文中第二个亮点是通道注意机制,基于CNN的方法主要的问题是,他们会平均对待每个通道特征,缺少分辨跨特征通道的学习能力。所以,引入的通道注意自适应性重新调整每个通道的特征,可以将注意力集中到更有用的通道中。

17bca0efeb1bc5a21fbd766c76b9794fca2f8a0c

基本模组如下:

20d7e1def3c2cbd018dec84343ce478b5f63ef76

结果如下:

ee7e501a94964e95e5171b0c65e7cc11817ad644

四:用于图像超分辨率的多尺度残差网络

论文:
Multi-scale Residual Network for Image Super-Resolution

地址:
http://openaccess.thecvf.com/content_ECCV_2018/html/Juncheng_Li_Multi-scale_Residual_Network_ECCV_2018_paper.html

在这篇论文中,作者从重建经典的超分辨率模型开始讲起,包括SRCNN、EDSR和SRResNet这些已知的经典模型。基于这些重建实验,研究人员认为这些模型具有一些共同点:

 ●  难以重现
 ●  特征利用率不足
 ●  可扩展性差

所以,研究人员提出了一种新型的网络架构,并称之为多尺度残差网络(Multi-scale residual network,MSRN)。

2bd3312a685d926ac558d3217cc49a4d66fd8f73

它由两部分构成:多尺度特征融合和局部残差学习,可以用不同大小的卷积核来适应性检测不同规模的图像特征。采用残差学习法可以让神经网络更高效。

8fc5fe78c18fa85d92e9872b4e800a1b46b45288

每个多尺度残差网络的输出都被用作全局特征融合的分层特征,最终,所有这些特征都在重建模型中用于修复高分辨率图像。

作者在没有任何初始化或技巧的情况下,用DIV2K数据集训练网络,证明了这可以解决我们上述提到的第一问题:复现性差。

可以看看论文中给出的结果:

d29f6e7ed996f2cfc696dd0148a1b8f5553a01b0

在其他低级计算机视觉的任务中的结果也可以拿来对比,这个方法对作者来说最大的意义就是开创了一个用于图像修复的单个多任务模型。

5665b6d7955deedd8e86888df604f68a95ba575a

五:级联残差加持的快速、准确、轻量级的超分辨率网络

论文:
Fast, Accurate, and Lightweight Super-Resolution with Cascading Residual Network

地址:
http://openaccess.thecvf.com/content_ECCV_2018/html/Namhyuk_Ahn_Fast_Accurate_and_ECCV_2018_paper.html

首先向大家展示不同基准算法在Mult-Adds和参数数量方面的对比:

c54a1e6d9e07e506c631946ba2cd416e1c819ecb

这篇文章的主要贡献也显而易见,就是提供了一个轻量级的网络,作者称之为CARN(Cascading Residual Network,级联残差网络)。

4eef88b5312efbefc98ba813e60f265ef07c5a7b

它具有以下三个特征:

 ●  全局和局部级联连接
 ●  中间特征是级联的,且被组合在1×1大小的卷积块中
 ●  使多级表示和快捷连接,让信息传递更高效

然而,多级表示的优势被限制在了每个本地级联模块内部,比如在快捷连接上的1×1卷积这样的乘法操作可能会阻碍信息的传递,所以认为性能会下降也在情理之中。

高效的CARN

为了提升CARN的效率,作者提出了一种残差-E模块。

598057dd897cbb7f7fb47477e595f5ffc025a39a

这种方法和MobileNet类似,但是深度卷积被替换为了分组卷积。因为分组卷积中间必然有trade-off,因此在用户可以选择合适的分组大小。

为了进一步降低参数,论文中用到了一种与递归神经网络相似的技巧,就是将级联模块的参数共享,让模块高效递归。

9f1858568d30457ffc2d96f8dce4166443a7dfe7

通过将普通残差块更改为高效残差块,可以精简操作数量

CARN的处理结果如下:

99f244a16af3a0b0d9b6b5fab11175db68ac0098

六:SRFeat:具有特征识别的单个图像超分辨率

论文:
SRFeat: Single Image Super-Resolution with Feature Discrimination

地址:
http://openaccess.thecvf.com/content_ECCV_2018/html/Seong-Jin_Park_SRFeat_Single_Image_ECCV_2018_paper.html

在这篇论文中,作者主要提出了一种方法,部署一个可以在特征域中起作用的额外的辨别器。

作者表示,与像素上的均方误差相似,VGG特征中的均方误差不足以用来完全表示特征图的真实特点。所以,他们在特征图中加入了对抗性损失,并将其命名为“SRFeat”。

a727c5c4661d917ec30559918416fa085999fb1c

作者通过两个步骤训练了生成器:即预训练和对抗训练。

在预训练阶段,作者通过最小化均方误差损失来训练网络,通过预训练步骤得到的网络已经能够实现高PSNR,然而,它不能产生看起来令人满意的带理想高频信息的结果。

e32a9ff1f28c0cb554202da3e10988e85bc07142

在随后的对抗训练阶段,需要最小化这样一个损失函数:它包含了视觉上看起来相似的损失、图像图像GAN损失和特征GAN损失。

使用ImageNet预训练生成器,再用DIV2K进行进一步训练后,结果如下:

ee6ee701d5b5d2939ba5fcf9c8e274ba2aa352f3

SRFeat的结果看起来更优秀一些。


原文发布时间为:2018-10-13

本文作者:关注前沿科技

本文来自云栖社区合作伙伴“量子位”,了解相关信息可以关注“量子位”。

相关文章
ifdown ifup 命令丢失处理
分享一个ifdown ifup 命令丢失处理的案例
ifdown ifup 命令丢失处理
|
4月前
|
人工智能 数据可视化 网络安全
新手小白零基础阿里云轻量服务器部署OpenClaw(Clawdbot)喂饭级教程
在AI自动化工具全民普及的2026年,OpenClaw(原Clawdbot、Moltbot)凭借“自然语言指令+任务主动执行”的核心优势,成为小白、职场人、轻量团队搭建专属AI助手的首选工具。它打破了传统AI“只能聊天、无法落地”的局限,无需专业编程知识,仅需输入日常口语化指令,就能完成文件管理、日程提醒、代码生成、网页抓取、跨工具协同等各类重复性工作,被网友亲切称为“私人AI数字员工”。
1063 8
|
4月前
|
Kubernetes 应用服务中间件 nginx
最全的kubectl命令用法
本文系统讲解kubectl命令行工具:详解所有子命令(创建、查询、部署、调试等)、API资源列表、自动补全配置,并通过大量实操示例(如创建/查看/编辑/删除资源、扩缩容、回滚、标签管理等)助你快速掌握Kubernetes集群管理核心技能。(239字)
919 143
|
2月前
|
Java API 开发工具
Java获取淘宝商品价格、图片与视频:淘宝开放平台API实战指南
本文详解Java调用淘宝开放平台taobao.item.get接口获取商品详情:涵盖账号注册、权限申请、MD5签名生成、HTTP请求实现及多媒体资源处理,提供完整代码示例与SDK简化方案,助开发者高效集成商品价格、图片、视频等核心数据。(239字)
|
3月前
|
人工智能 程序员 BI
零基础从0到1学GEO优化第4课(上):构建所处载体(品牌)、行业的双知识库
双知识库 = 载体知识库(品牌)+ 行业知识库,是AI理解你、信任你的“素材池”。载体知识库需包含专业信息、服务内容、用户案例、反馈数据、权威背书(用E-E-A-T原则验证)。 行业知识库需包含行业资料、痛点需求、竞品案例、趋势动态(用结构化数据覆盖全貌)。落地关键:结构化呈现、数据化表达、动态更新,让AI轻松调用你的专业信息。
|
3月前
|
存储 人工智能 弹性计算
[技术博客] 阿里云赋能:重力科技如何构建高性能、可扩展的全球AI GEO优化平台
重力科技凭借其17年的出海营销经验和自研的AI智能算法平台,正在赋能全球DTC品牌实现品效合一。本文将从技术角度深入探讨,重力科技如何利用阿里云的各项服务,构建一套高性能、高可用、可扩展的AI驱动GEO搜索引擎优化平台,并分享我们在云原生实践中的经验与最佳实践。
|
5月前
|
人工智能 Cloud Native 安全
2026年主流服务器性能测试工具对比分析与选型建议
文章围绕2026年主流服务器性能测试工具展开,介绍行业趋势、痛点及解决方案,对比优测、JMeter、LoadRunner等工具的优劣,阐述技术原理,给出选型建议并解答常见问题,助力企业根据自身情况选型。
|
存储 监控 网络虚拟化
每日总结 神州数码DCWS
每日总结 神州数码DCWS
299 1
|
前端开发 Java Unix
WebSocket实现消息推送
WebSocket实现消息推送
568 0
WebSocket实现消息推送