CVPR 2018摘要:第一部分

简介: CVPR 2018年回顾,第一部分
TB1X9XarXzqK1RjSZFoXXbfcXXa.jpg

本文为 AI 研习社编译的技术博客,原标题 :

NeuroNuggets: CVPR 2018 in Review,  Part I

作者 | Sergey Nikolenko、Aleksey Artamonov

翻译 | 老赵    校对 | 李晶

整理 | 菠萝妹

原文链接:

https://medium.com/neuromation-io-blog/neuronuggets-cvpr-2018-in-review-part-i-f22b8c223202

NeuroNuggets:CVPR 2018年回顾,第一部分

在Neuromation,我们一直在寻找有助于我们的研究的新的有趣想法。 还有什么比顶级会议更适合寻找它们的地方。 我们已经在CVPR(计算机视觉和模式识别)会议的研讨会DeepGlobe介绍了我们如何取得成功。 这次我们将仔细研究一下CVPR本身最有趣的论文。 这段时间,顶级会议是非常重要的事情,所以我们准备了一系列的推文。 我们介绍的论文没有特别的顺序,不仅选择优秀的论文,而且与我们在Neuromation所做的研究相关。 这一次,Aleksey Artamonov(你以前见过的人)准备了这份列表,我试图对其补充一些介绍。 在这个系列中,我们将非常简短,试图从每篇论文中提取最多一个有趣的点,所以在这种方式我们不能真正了解完整的工作,并强烈建议完整阅读论文。

GAN和计算机视觉

在第一部分中,我们专注于生成模型,即不仅可以区分猫狗,还可以生成新的猫和狗图像的机器学习模型。 对于计算机视觉,最成功的一类生成模型是生成性对抗网络(GAN),其鉴别器网络学习区分生成的对象和真实对象,生成器学习去欺骗鉴别器。 我们已经多次写过GAN(例如,这里和这里),所以让我们直接进入正题。

  寻找户外的小脸

Y. Bai等人,用生成性对抗网络在户外寻找小小的面孔

TB1SP6MrbPpK1RjSZFFXXa5PpXa.jpg

在沙特和中国研究人员的合作中,作者使用GAN来检测和放大人群照片上的非常小的面孔。 即使仅检测小面孔也是一个有趣的问题,普通的人脸检测器(例如,在我们之前的帖子中出现)通常无法解决该问题。 在这里,作者提出了一个端到端的流水线来提取面部,然后应用生成模型将其提升到4倍(一个称为超分辨率的过程)。 以下是论文中的流水线概览:

TB1b6_MrbPpK1RjSZFFXXa5PpXa.jpg

  PairedCycleGAN化妆

H. Chang等人,PairedCycleGAN:用于和去除化妆的不对称样式转移

TB1DF2HrjDpK1RjSZFrXXa78VXa.jpg

条件GAN已经广泛用于图像处理; 我们已经提到过超分辨率,GAN也成功应用于风格转换。 使用GAN,可以学习与特定图像元素相对应的显着特征 - 然后更改它们。 在这项工作中,来自普林斯顿、伯克利和Adobe的研究人员提出了一个修饰照片的框架。 这项工作的一个有趣的部分是作者为不同的脸部组成部分(眼睛,嘴唇,皮肤)训练单独的生成器并分别应用它们,用不同的网络提取脸部组成部分:

TB1WV2HrjDpK1RjSZFrXXa78VXa.jpg

  GANerated Hands

F. Mueller等人,GANerated Hands for Mon-time RGB for Real-Time 3D Hand Tracking

TB1QP_IrmzqK1RjSZPxXXc4tVXa.jpg

我们已经写过关于姿势估计的文章。 姿势估计的一个非常重要的子集(通常需要单独的模型)是手部跟踪。 通过挥动双手来操纵计算机的科幻主题尚未完全实现,仍然需要专门的硬件,如Kinect。 像往常一样,主要问题之一是数据:在哪里可以找到3D标记的真实视频流?在这项工作中,作者提出了一种条件GAN架构,能够将合成的3D模型转换为图像 然后用于训练手部跟踪网络。 这项工作非常吸引我们,合成数据是Neuromation研究的重点,所以我们之后可能会更详细地考虑它。 同时,这里是“合成到实际”的GAN架构:

TB16J_QrkPoK1RjSZKbXXX1IXXa.jpg

  行人迁移GAN

L. Wei 等人,Person Transfer GAN to Bridge Domain Gap for Person Re-Identification

TB1bwrLrmzqK1RjSZFLXXcn2XXa.jpg

人物重新识别(ReID)是在不同条件和不同情况下拍摄的不同照片上找到同一个人的问题。 这个问题自然而然地成为许多研究的主题,现在已经相对较好地解决了,但是领域差异问题仍然存在:不同的数据集与人物的图像具有非常不同的条件(照明,背景等),在一个数据集上训练的网络在转移到另一个数据集(以及例如现实世界的应用程序)时损失很大。 上图展示了不同的数据集。 为了解决这个问题,这项工作提出了一种GAN架构,能够将图像从一种“数据集样式”转移到另一种“数据集样式”,使用GAN来通过复杂的变换增强真实数据。 它的工作原理如下:

TB13MvLrmzqK1RjSZFLXXcn2XXa.jpg

  生成模型的眼睛图像合成

K.Wang等人,用于眼睛图像合成和眼睛凝视估计的分层生成模型

TB1MVjIrmrqK1RjSZK9XXXyypXa.jpg

伦斯勒理工学院的这项工作解决一个非常特殊的问题:生成人眼的图像。 这不仅对于生成图像中漂亮的眼睛重要,而且用生成的眼睛解决视线估计问题:人们在看什么? 这将为真正的科幻界面铺平道路......但这仍然是未来,目前甚至合成眼睛生成也是一个非常难的问题。 作者提出了一个复杂的眼形合成概率模型,并提出了一个GAN架构,根据这个模型生成眼睛 - 取得了巨大的成功。

TB1ZTzNrb2pK1RjSZFsXXaNlXXa.jpg

  图像修复:填写空白

J. Yu等人,Generative Image Inpainting with Contextual Attention

TB1X4kbrhjaK1RjSZKzXXXVwXXa.jpg

Adobe Research和伊利诺伊大学厄本那 - 香槟分校的这项工作试图解决填补图像空白这个极具挑战性的问题(见上面的例子)。 通常,修复图像需要了解潜在场景:在上图中的右上角,你已经知道脸部是什么样的,以及我们根据看到的头发和颈部预测脸可能是什么样的。 在这项工作中,作者提出了一种基于GAN的方法,可以利用周围图像的特征来改善生成。 该结构由两部分组成,首先生成粗略结果,然后使用另一个网络对其进行细化。 结果非常不错:

TB1UAYNrhTpK1RjSZFKXXa2wXXa.jpg TB1ht2OrcbpK1RjSZFyXXX_qFXa.jpg

今天就是这样。 这只是第一部分,我们将在下一期继续进行CVPR 2018回顾,再见。雷锋网(公众号:雷锋网)雷锋网雷锋网

Sergey Nikolenko

Chief Research Officer, Neuromation

Aleksey Artamonov

Senior Researcher, Neuromation

想要继续查看该篇文章相关链接和参考文献?

长按链接点击打开或点击【CVPR 2018摘要:第一部分】:

http://ai.yanxishe.com/page/TextTranslation/1193

AI研习社每日更新精彩内容,观看更多精彩内容:

使用 SKIL 和 YOLO 构建产品级目标检测系统

如何极大效率地提高你训练模型的速度?

良心推荐:一份 20 周学习计算机科学的经验贴(附资源)

数据科学家应当了解的五个统计基本概念:统计特征、概率分布、降维、过采样/欠采样、贝叶斯统计

目录
相关文章
|
7月前
|
机器学习/深度学习 决策智能
2024年1月论文推荐
2024年1月论文推荐
93 1
|
7月前
|
机器学习/深度学习 人工智能 计算机视觉
2023年12月 论文推荐
12月已经过了一半了,还有2周就是2024年了,我们来推荐下这两周我发现的一些好的论文,另外再推荐2篇很好的英文文章。
173 1
|
机器学习/深度学习 自然语言处理 算法
WikiRank论文解读
WikiRank是2018年提出来的,作者认为背景知识可以提供文档的有价值信息,但是它们很少呗应用到关键词抽取任务中来。
96 0
|
算法 搜索推荐 数据挖掘
CollabRank论文解读
以前的方法通常对单个文档单独执行关键字短语提取任务,而不对每个文档进行交互,假设文档被视为彼此独立。
89 0
|
机器学习/深度学习 移动开发 算法
【论文】SimCLS:摘要总结的对比学习(2)
【论文】SimCLS:摘要总结的对比学习(2)
109 0
|
机器学习/深度学习 自然语言处理 算法
2023无监督摘要顶会论文合集
2023无监督摘要顶会论文合集
205 0
|
机器学习/深度学习 编解码 自然语言处理
Segmenter论文解读
图像分割通常在单个图像patch的级别上是模糊的,并且需要上下文信息来达成标签共识。本文介绍了一种用于语义分割的transformer模型——segmenter。
326 0
|
自然语言处理 算法
EmbedRank论文解读
EmbedRank筛选关键词是通过关键词句子的嵌入和完整文档的嵌入之间的距离获得的信息量
139 0
|
自然语言处理 并行计算 算法
PositionRank论文解读
PositionRank是2017年提出的论文,是一种用于从学术文档中提取关键短语的无监督模型,它将单词出现的所有位置的信息合并到有偏置的PageRank中。
128 0
|
机器学习/深度学习 存储 人工智能
7 Papers | AAAI22杰出论文、WSDM22最佳论文;200+文献ViT综述
7 Papers | AAAI22杰出论文、WSDM22最佳论文;200+文献ViT综述
138 0