CVPR2022 前沿研究成果解读：基于生成对抗网络的深度感知人脸重演算法

2022-04-18 968

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 《基于生成对抗网络的深度感知人脸重演算法》（Depth-Aware Generative Adversarial Network for Talking Head Video Generation）

凭借在人脸生成领域的扎实积累和前沿创新，阿里云视频云与香港科技大学合作的最新研究成果《基于生成对抗网络的深度感知人脸重演算法》（Depth-Aware Generative Adversarial Network for Talking Head Video Generation）被 CVPR2022 接收。本文为最新研究成果解读。

论文题目：《Depth-Aware Generative Adversarial Network for Talking Head Video Generation》
arxiv链接：https://arxiv.org/abs/2203.06605

人脸重演算法将使视频编解码有新突破？

近年来随着视频直播的大火，越来越多的人开始关注视频云领域。而视频传输的低延迟，高画质，一直是难以平衡的两个点。当前直播延时最低可以降到 400ms 以内，但是在视频会议等各场景的需求不断增加的情况下，比如远程 PPT 演示，我们对画质和延迟的平衡有着更高的要求。而突破直播延迟的关键是编解码技术的提升，人脸重演算法与编解码技术的结合，在视频会议场景的应用中将使带宽需求大幅减少，而获得更具身临其境的体验，这是迈向超低延时优画质视频会议非常重要的一步。

人脸重演（face reenactment/talking head）算法是指，利用一段视频来驱动一张图像，使图像中的人脸能够模仿视频中人物的面部姿态、表情和动作，实现静态图像视频化的效果。

1.5mb.gif

图 1

人脸重演发展现状

目前的人脸重演方法严重依赖于从输入图像中学习到的 2D 表征。然而，我们认为稠密的 3D 几何信息（例如：像素级深度图）对于人脸重演非常重要，因为它可以帮助我们生成更准确的 3D 人脸结构，并将噪声和复杂背景与人脸区分开来。不过，稠密的视频 3D 标注代价高昂。

研究动机&创新点

在本文中，我们介绍了一种自监督的 3D 几何学习方法，可以在不需要任何 3D 标注的情况下，从视频中估计出头部深度（depth maps）。我们进一步利用深度图来辅助检测人脸关键点，从而捕捉头部的运动。此外，深度图还用于学习一种 3D 感知的跨模态注意力（3D-aware cross-model attention），以指导运动场（motion field）的学习和特征的形变。