本文为 AI 研习社编译的技术博客,原标题 :
NeuroNuggets: CVPR 2018 in Review, Part I
作者 | Sergey Nikolenko、Aleksey Artamonov
翻译 | 老赵 校对 | 李晶
整理 | 菠萝妹
原文链接:
https://medium.com/neuromation-io-blog/neuronuggets-cvpr-2018-in-review-part-i-f22b8c223202
NeuroNuggets:CVPR 2018年回顾,第一部分
在Neuromation,我们一直在寻找有助于我们的研究的新的有趣想法。 还有什么比顶级会议更适合寻找它们的地方。 我们已经在CVPR(计算机视觉和模式识别)会议的研讨会DeepGlobe介绍了我们如何取得成功。 这次我们将仔细研究一下CVPR本身最有趣的论文。 这段时间,顶级会议是非常重要的事情,所以我们准备了一系列的推文。 我们介绍的论文没有特别的顺序,不仅选择优秀的论文,而且与我们在Neuromation所做的研究相关。 这一次,Aleksey Artamonov(你以前见过的人)准备了这份列表,我试图对其补充一些介绍。 在这个系列中,我们将非常简短,试图从每篇论文中提取最多一个有趣的点,所以在这种方式我们不能真正了解完整的工作,并强烈建议完整阅读论文。
GAN和计算机视觉
在第一部分中,我们专注于生成模型,即不仅可以区分猫狗,还可以生成新的猫和狗图像的机器学习模型。 对于计算机视觉,最成功的一类生成模型是生成性对抗网络(GAN),其鉴别器网络学习区分生成的对象和真实对象,生成器学习去欺骗鉴别器。 我们已经多次写过GAN(例如,这里和这里),所以让我们直接进入正题。
寻找户外的小脸
Y. Bai等人,用生成性对抗网络在户外寻找小小的面孔
在沙特和中国研究人员的合作中,作者使用GAN来检测和放大人群照片上的非常小的面孔。 即使仅检测小面孔也是一个有趣的问题,普通的人脸检测器(例如,在我们之前的帖子中出现)通常无法解决该问题。 在这里,作者提出了一个端到端的流水线来提取面部,然后应用生成模型将其提升到4倍(一个称为超分辨率的过程)。 以下是论文中的流水线概览:
PairedCycleGAN化妆
H. Chang等人,PairedCycleGAN:用于和去除化妆的不对称样式转移
条件GAN已经广泛用于图像处理; 我们已经提到过超分辨率,GAN也成功应用于风格转换。 使用GAN,可以学习与特定图像元素相对应的显着特征 - 然后更改它们。 在这项工作中,来自普林斯顿、伯克利和Adobe的研究人员提出了一个修饰照片的框架。 这项工作的一个有趣的部分是作者为不同的脸部组成部分(眼睛,嘴唇,皮肤)训练单独的生成器并分别应用它们,用不同的网络提取脸部组成部分:
GANerated Hands
F. Mueller等人,GANerated Hands for Mon-time RGB for Real-Time 3D Hand Tracking
我们已经写过关于姿势估计的文章。 姿势估计的一个非常重要的子集(通常需要单独的模型)是手部跟踪。 通过挥动双手来操纵计算机的科幻主题尚未完全实现,仍然需要专门的硬件,如Kinect。 像往常一样,主要问题之一是数据:在哪里可以找到3D标记的真实视频流?在这项工作中,作者提出了一种条件GAN架构,能够将合成的3D模型转换为图像 然后用于训练手部跟踪网络。 这项工作非常吸引我们,合成数据是Neuromation研究的重点,所以我们之后可能会更详细地考虑它。 同时,这里是“合成到实际”的GAN架构:
行人迁移GAN
L. Wei 等人,Person Transfer GAN to Bridge Domain Gap for Person Re-Identification
人物重新识别(ReID)是在不同条件和不同情况下拍摄的不同照片上找到同一个人的问题。 这个问题自然而然地成为许多研究的主题,现在已经相对较好地解决了,但是领域差异问题仍然存在:不同的数据集与人物的图像具有非常不同的条件(照明,背景等),在一个数据集上训练的网络在转移到另一个数据集(以及例如现实世界的应用程序)时损失很大。 上图展示了不同的数据集。 为了解决这个问题,这项工作提出了一种GAN架构,能够将图像从一种“数据集样式”转移到另一种“数据集样式”,使用GAN来通过复杂的变换增强真实数据。 它的工作原理如下:
生成模型的眼睛图像合成
K.Wang等人,用于眼睛图像合成和眼睛凝视估计的分层生成模型
伦斯勒理工学院的这项工作解决一个非常特殊的问题:生成人眼的图像。 这不仅对于生成图像中漂亮的眼睛重要,而且用生成的眼睛解决视线估计问题:人们在看什么? 这将为真正的科幻界面铺平道路......但这仍然是未来,目前甚至合成眼睛生成也是一个非常难的问题。 作者提出了一个复杂的眼形合成概率模型,并提出了一个GAN架构,根据这个模型生成眼睛 - 取得了巨大的成功。
图像修复:填写空白
J. Yu等人,Generative Image Inpainting with Contextual Attention
Adobe Research和伊利诺伊大学厄本那 - 香槟分校的这项工作试图解决填补图像空白这个极具挑战性的问题(见上面的例子)。 通常,修复图像需要了解潜在场景:在上图中的右上角,你已经知道脸部是什么样的,以及我们根据看到的头发和颈部预测脸可能是什么样的。 在这项工作中,作者提出了一种基于GAN的方法,可以利用周围图像的特征来改善生成。 该结构由两部分组成,首先生成粗略结果,然后使用另一个网络对其进行细化。 结果非常不错:
今天就是这样。 这只是第一部分,我们将在下一期继续进行CVPR 2018回顾,再见。雷锋网(公众号:雷锋网)雷锋网雷锋网
Sergey Nikolenko
Chief Research Officer, Neuromation
Aleksey Artamonov
Senior Researcher, Neuromation
想要继续查看该篇文章相关链接和参考文献?
长按链接点击打开或点击【CVPR 2018摘要:第一部分】:
http://ai.yanxishe.com/page/TextTranslation/1193
AI研习社每日更新精彩内容,观看更多精彩内容:
使用 SKIL 和 YOLO 构建产品级目标检测系统
如何极大效率地提高你训练模型的速度?
良心推荐:一份 20 周学习计算机科学的经验贴(附资源)
数据科学家应当了解的五个统计基本概念:统计特征、概率分布、降维、过采样/欠采样、贝叶斯统计