【ECCV 2018】Facebook开发姿态转换模型,只需一张照片就能让它跳舞(视频)

简介: DensePose团队在ECCV 2018发表又一杰作:密集人体姿态转换!这是一个基于DensePose的姿势转换系统,仅根据一张输入图像和目标姿势,生成数字人物的动画效果。

DensePose 是 Facebook 研究员 Natalia Neverova、Iasonas Kokkinos 和法国 INRIA 的 Rıza Alp Guler 开发的一个令人惊叹的人体实时姿势识别系统,它在 2D 图像和人体3D 模型之间建立映射,最终实现密集人群的实时姿态识别。

具体来说,DensePose 利用深度学习将 2D RPG 图像坐标映射到 3D 人体表面,把一个人分割成许多 UV 贴图(UV 坐标),然后处理密集坐标,实现动态人物的精确定位和姿态估计。

a8a1a855974f712e1926548b9e4abb963cddd90e

DensePose 模型以及数据集已经开源,传送门:

http://densepose.org/

最近,该团队更进一步,发布了基于 DensePose 的一个姿势转换系统:Dense Pose Transfer,仅根据一张输入图像和目标姿势,创造出 “数字化身” 的动画效果。

e17949351c1a14428c0b8bb61ef996dc2e309d77

在这项工作中,研究者希望仅依赖基于表面(surface-based)的对象表示(object representations),类似于在图形引擎中使用的对象表示,来获得对图像合成过程的更强把握。

研究者关注的重点是人体。模型建立在最近的 SMPL 模型和 DensePose 系统的基础上,将这两个系统结合在一起,从而能够用完整的表面模型来说明一个人的图像。

下面的视频展示了更多生成结果:

089b61c4753edebcb2ad10d9de2cb10db55990c1

具体而言,这项技术是通过 surface-based 的神经合成,渲染同一个人的不同姿势,从而执行图像生成。目标姿势(target pose)是通过一个 “pose donor” 的图像表示的,也就是指导图像合成的另一个人。DensePose 系统用于将新的照片与公共表面坐标相关联,并复制预测的外观。

我们在 DeepFashion 和 MVC 数据集进行了实验,结果表明我们可以获得比最新技术更好的定量结果。

除了姿势转换的特定问题外,所提出的神经合成与 surface-based 的表示相结合的方法也有希望解决虚拟现实和增强现实的更广泛问题:由于 surface-based 的表示,合成的过程更加透明,也更容易与物理世界连接。未来,姿势转换任务可能对数据集增强、训练伪造检测器等应用很有用。

Dense Pose Transfer

研究人员以一种高效的、自下而上的方式,将每个人体像素与其在人体参数化的坐标关联起来,开发了围绕 DensePose 估计系统进行姿势转换的方法。

我们以两种互补的方式利用 DensePose 输出,对应于预测模块和变形模块(warping module),如图 1 所示。

51136e20df5e7185c49e6f5444191fec08399577

图 1:pose transfer pipeline 的概览:给定输入图像和目标姿势,使用 DensePose 来执行生成过程。

变形模块使用 DensePose 表面对应和图像修复(inpainting)来生成人物的新视图,而预测模块是一个通用的黑盒生成模型,以输入和目标的 DensePose 输出作为条件。

这两个模块具有互补的优点:预测模块成功地利用密集条件输出来为熟悉的姿势生成合理的图像;但它不能推广的新的姿势,或转换纹理细节。

相比之下,变形模块可以保留高质量的细节和纹理,允许在一个统一的、规范的坐标系中进行修复,并且可以自由地推广到各种各样的身体动作。但是,它是以身体为中心的,而不是以衣服为中心,因此没有考虑头发、衣服和配饰。

将这两个模块的输出输入到一个混合模块(blending module)可以得到最好的结果。这个混合模块通过在一个端到端可训练的框架中使用重构、对抗和感知损失的组合,来融合和完善它们的预测。

113a1434f5b372d47dfad6cf060758789a334e63

如图 3 所示,在修复过程(inpainting process),可以观察到一个均匀的表面,捕捉了皮肤和贴身衣服的外观,但没有考虑头发、裙子或外衣,因为这些不适合 DensePose的表面模型。

实验和结果

我们在 DeepFashion 数据集上进行实验,该数据集包含 52712 个时装模特图像,13029 件不同姿势的服装。我们选择了 12029 件衣服进行训练,其余 1000 件用于测试。

a91e56216eca2021fb41552322b18006f00c6bfc

表1:根据结构相似度 (SSIM)、 Inception Score(IS)[41] 和 detection score(DS)指标,对DeepFashion 数据集的几种 state-of-the-art 方法进行定量比较。

我们首先将我们的框架与最近一些基于关键点的图像生成或多视图合成方法进行比较。

表 1 显示,我们的 pipeline 在结构逼真度(structural fidelity)方面有显著优势。在以IS 作为指标的感知质量方面,我们模型的输出生成具有更高的质量,或可与现有工作相媲美。

定性结果如图 4 所示。

0c9b451685e0a33747debdfa915968e03a376281

图 4:与最先进的 Deformable GAN (DSC) 方法的定性比较。

密集人体姿态转换应用

在这项工作中,我们介绍了一个利用密集人体姿态估计的 two-stream 姿态转换架构。我们已经证明,密集姿势估计对于数据驱动的人体姿势估计而言是一种明显优越的调节信号,并且通过 inpainting 的方法在自然的体表参数化过程中建立姿势转换。在未来的工作中,我们打算进一步探索这种方法在照片级真实图像合成,以及处理更多类别方面的潜力。

作者:

026271ff6be5fb6c772efabff16da9aecb8f13eb

● Rıza Alp Güler,INRIA, CentraleSupélec
● Natalia Neverova,Facebook AI Research

● Iasonas Kokkinos,Facebook AI Research


原文发布时间为:2018-09-10

本文作者:肖琴

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”。

原文链接:【ECCV 2018】Facebook开发姿态转换模型,只需一张照片就能让它跳舞(视频)

相关文章
|
3月前
|
缓存 前端开发 JavaScript
【专栏】GraphQL,Facebook 开发的API查询语言,正在前端开发中崭露头角
【4月更文挑战第27天】GraphQL,Facebook 开发的API查询语言,正在前端开发中崭露头角。它提供强类型系统、灵活查询和实时更新,改善数据获取效率和开发体验。掌握GraphQL涉及学习基础概念、搭建开发环境和实践应用。结合前端框架,利用缓存和批量请求优化性能,与后端协作设计高效API。尽管有挑战,但GraphQL为前端开发开辟新道路,引领未来趋势。一起探索GraphQL,解锁前端无限可能!
64 2
|
机器学习/深度学习 人工智能 自然语言处理
无监督学习站起来了!Facebook第三代语音识别wav2vec-U,匹敌监督模型,Lecun看了都说好
Facebook在语音识别上又出重磅新作,继wav2vec, wav2vec 2.0以来,又出完全不需要监督数据的wav2vec-U,小众语言也能用语音识别啦!
547 0
无监督学习站起来了!Facebook第三代语音识别wav2vec-U,匹敌监督模型,Lecun看了都说好
|
机器学习/深度学习 人工智能 自然语言处理
10亿参数,10亿张图!Facebook新AI模型SEER实现自监督学习,LeCun大赞最有前途
刚刚,Facebook公布了一个在10亿张图片上训练的AI模型SEER。该模型包含10亿个参数,可以从网上任何未标记图像的中学习,并在一系列计算机视觉基准上取得了先进的结果。Facebook的这一突破能否实现计算机视觉的自监督学习革命?
303 0
10亿参数,10亿张图!Facebook新AI模型SEER实现自监督学习,LeCun大赞最有前途
|
机器学习/深度学习 人工智能 算法
人类玩德州扑克也扑街了?Facebook开发玩德州扑克的AI,大比分击败顶尖人类选手!
最近,Facebook的研究人员开发了一个玩德州扑克的人工智能,可以轻松击败人类玩家,它跟DeepMind的AlphaZero有何不同?今天我们就来看下。
299 0
人类玩德州扑克也扑街了?Facebook开发玩德州扑克的AI,大比分击败顶尖人类选手!
|
机器学习/深度学习 人工智能 算法
把你手机里的照片秒变3D!Facebook训练了一个CNN端到端系统
Facebook研究人员,开发出一个卷积神经网络端到端系统,已经能实现几秒钟内,将任何设备上拍摄的2D图像转换成3D图像。
242 0
把你手机里的照片秒变3D!Facebook训练了一个CNN端到端系统
|
算法 vr&ar
拒绝晕眩呕吐,Facebook 公布 VR 全景视频稳定技术
VR 晕动症是一个一直未能很好解决的问题,除了硬件方面未能取得突破外,软件部分也是一个原因,特别是 VR 全景视频,如果使用手持式的全景相机拍摄,画面的抖动会进一步加速 VR 晕动症的产生。
176 0
拒绝晕眩呕吐,Facebook 公布 VR 全景视频稳定技术
|
机器学习/深度学习 算法 数据挖掘
ResNet压缩20倍,Facebook提出新型无监督模型压缩量化方法
怎样用量化方法解决模型压缩问题?Facebook 近日提出了一个基于向量的量化方法,无需标注数据即可对 ResNet 模型进行20倍压缩,还能够获得很高的准确率。
389 0
ResNet压缩20倍,Facebook提出新型无监督模型压缩量化方法
Facebook开发新闻app
其实Facebook开发独立于社交媒体的新闻app消息早已甚嚣尘上, 这款app将有着类似 Flipboard 风格,不纯粹是系统撮合而是经由专业编辑来挑选新闻。app还同时加入了使用者的 Facebook 状态以及 Instagram 图片更新。
192 0
Facebook开发新闻app
|
机器学习/深度学习 自动驾驶 安全
AWS 和 Facebook 合作推出 PyTorch 模型服务框架 TorchServe
  近日,Facebook 和 AWS 合作推出了 PyTorch 模型服务库 TorchServe,强强联手剑指 Google TensorFlow。   PyTorch 是当下最火的深度学习开源库之一,可以帮助开发者和研究人员更轻松地构建和训练模型。即便有了 PyTorch,在生产中部署和管理模型仍然是机器学习的一大难题,包括构建定制的预测 API,对其进行缩放以及保证其安全等问题。   简化模型部署过程的一种方法是使用模型服务器,即专门设计用于在生产中提供机器学习预测的现成的 Web 应用程序。模型服务器可轻松加载一个或多个模型,并自动创建由可伸缩 Web 服务器支持的预测 API。
191 0
|
存储 缓存 运维
OIL + VCache如何改善Facebook视频延迟 并减少存储和计算开销?
OIL将存储空间抽象化,并与分布式缓存系统VCache配合,降低了Facebook视频延迟的同时,并减少了存储与计算开销。感谢赵化强、李东明完成本文技术审校。
249 0
OIL + VCache如何改善Facebook视频延迟 并减少存储和计算开销?