REALY头部重建榜单冠军模型HRN解读【OpenVI—论文解读系列】

本文涉及的产品
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,图像资源包5000点
简介: 高保真 3D 头部重建在许多场景中都有广泛的应用,例如 AR/VR、医疗、电影制作等。尽管大量的工作已经使用 LightStage 等专业硬件实现了出色的重建效果,从单一或稀疏视角的单目图像估计高精细的面部模型仍然是一个具有挑战性的任务。 本文中,我们将介绍CVPR2023最新的头部重建论文,该工作在单图头部重建榜单REALY上取得正脸、侧脸双榜第一,并在其他多个数据集中取得了SOTA的效果。

一、前言



     高保真 3D 头部重建在许多场景中都有广泛的应用,例如 AR/VR、医疗、电影制作等。尽管大量的工作已经使用 LightStage 等专业硬件实现了出色的重建效果,从单一或稀疏视角的单目图像估计高精细的面部模型仍然是一个具有挑战性的任务。 本文中,我们将介绍CVPR2023最新的头部重建论文,该工作在单图头部重建榜单REALY上取得正脸、侧脸双榜第一,并在其他多个数据集中取得了SOTA的效果。



二、论文地址


论文题目:A Hierarchical Representation Network for Accurate and Detailed Face Reconstruction from In-The-Wild Images


论文地址:https://arxiv.org/abs/2302.14434


项目主页:HRN


三、摘要

       受限于 3DMM 的低维表征,大多数基于 3DMM 的头部重建方法无法恢复高频面部细节,如皱纹、酒窝等。一些方法尝试引入细节贴图或非线性操作,结果仍然不理想。 为此,我们在本文中提出了一种新颖的层次化表征网络 (HRN),以实现单图的高精细头部重建。 具体来说,我们对头部几何细节进行了解耦并引入了层次表征来实现精细的头部建模。 同时,结合面部细节的3D先验,提高重建结果的准确性和真实性。 我们还提出了一个de-retouching模块,以实现更好的几何和纹理解耦。 值得注意的是,通过考虑不同视图的细节一致性,我们的框架可以扩展到多视图重建。 在两个单视图和两个多视图头部重建基准上的大量实验表明,我们的方法在重建精度和视觉效果方面优于现有方法。

四、方法解读


4.1 核心思想



     现有的一些方法 [1、2、3] 尝试通过预测displacement map来捕捉高频面部细节,例如皱纹等,并取得了不错的效果。但是,displacement map由于其定义方式,无法对更大尺度的细节进行建模,例如下巴、脸颊的轮廓细节等。为此,我们将头部的几何进行拆解,并分别用不同的表征分别对其进行表示,如上图所示。具体的,我们将头部几何拆分为低频部分、中频细节以及高频细节:

  • 低频部分描述了头部的整体骨架(胖瘦、五官位置及大致形状),对于这个部分,我们使用现有的参数化3DMM方法,利用低维的系数及对应形状基进行表征。
  • 中频部分描述了头部骨架基础上的较大尺度的细节(如肌肉走向、面部轮廓等),该部分我们利用在UV空间的3通道的deformation map作为表征,其描述了每个顶点在低频基础上的xyz三方向上的形变。
  • 高频部分描述了头部的小尺度的细节,比如皱纹等,该部分我们利用displacement map进行像素尺度上的细节建模。

     总体来说,我们将头部几何拆分为三个部分,并根据其尺度大小及细节特征,引入了三种层次化的表征,分别从头部、顶点、像素三个不同颗粒度进行建模,实现头部的精准化、精细化重建。


4.2 网络结构


       在HRN (hierarchical representation network) 网络结构中,我们整体采用了coarse-to-fine的框架,首先,我们利用现有的3DMM-based方法deep3d[4],预测头部的低频几何部分(图2蓝色区域),同时,我们可以获得对应的position map以及texture map,这两者将作为细节预测的输入。而后,我们分别利用两个串联的pix2pix网络,预测deformation map以及displacement map(图2绿色区域)。最后,我们结合预测的精细化几何、光照、优化后漫反射贴图,进行可微分渲染,得到重建后的头部图像(图2紫色区域)。通过将中频、高频的渲染头部分别与原图计算损失,可引导头部的几何形变,从而获得对应的几何细节。在此整体流程中,我们还引入了一些新颖的模块和损失函数,来提升建模精度。


4.3 3D细节先验


     尽管可以使用重建损失从单个图像中粗略地重建面部细节,但由于其本质是个高度ill-posed的任务,仅从单图获取的细节存在模糊性和歧义性。 添加额外的正则化可能有助于缩小解空间,但也会导致细节准确性和保真度严重下降。 为了解决这个问题,我们从真实3D数据中获取真实的头部3D细节,从而作为先验信息引导网络的预测。如上图,我们利用提出的网络结构,对真实的3D mesh进行拟合,从而获得deformation map以及displacement map的groud-truth。而后,我们在网络训练中,引入判别器网络,用真实的分布引导细节图的生成。消融实验表明,引入3D细节先验可使预测的头部几何更加的平滑、真实。


3.4 De-Retouching模块



     头部图像是几何、光照和面部漫反射率组合的结果。 之前的工作假设面部漫反射率是平滑的,并使用 3DMM 的低频反照率对其进行建模。 然而,实际皮肤纹理充满了高频细节,如痣、疤痕、雀斑和其他瑕疵,这给几何细节学习带来了歧义,尤其是在单视图头部重建任务中。 受[5]的启发,我们提出了一个De-Retouching模块,旨在生成具有高频细节的面部反照率,并促进更精确的几何和外观解耦。我们首先从FFHQ数据集中收集了10, 000张头部图像,并训练了一个retouching网络G,去除头部的瑕疵等高频细节。给定头部纹理 T' ,我们首先使用 G 去除其纹理细节并得到 T0,如上图所示。而后,我们旨在将纹理细节烘焙到粗糙的反照率 A0 中以获得优化后的反照率 A' 用于渲染 . 我们假设从 A0 到 T0 的光照应该与从 A' 到 T' 的光照一致,如:



     其中 S 表示shading,⊙ 表示逐元素矩阵乘法。 然后我们可以求解方程并获得 A' 为:



     其中 ϕ(T0) 避免了 0 附近的值爆炸,默认情况下 ε = 1e−6。 与 A0 相比,优化后的反照率 A' 包含更多高频纹理细节,这减轻了几何和纹理之间的歧义,尤其是在单视图人脸重建任务中。


4.5 Contour-aware Loss



     我们提出了一种新颖的轮廓感知损失 L_con 来实现面部轮廓的精确建模。 L_con 作用在中频几何M1 (figure 2)上,旨在拉动边缘的顶点以对齐面部轮廓。 如上图所示,我们首先将 M1 的顶点投影到图像空间中。 然后我们使用预训练的面部抠图网络 [6] 预测面部掩码M_face 并进行后处理以获得每一行的左侧和右侧点。 给定顶点 p 和 M_face 上对应的投影点 p',我们得到向量 l_p 和 r_p(从 p' 到水平方向的边缘点)。 那么L_con可以描述为:



     可以看到,L_con 惩罚了人脸 soft margin 之外的顶点(如上图中的蓝色和灰色点)并将它们拉到人脸轮廓,同时保持人脸内部的顶点不动。我们只关注面部轮廓的下部以避免头发的干扰。 与常见的分割损失相比,L_con 给出了更直接的人脸轮廓优化方向,也更容易训练。消融研究也证实了 Lcon 在提升重建轮廓精度中的有效性。


4.6 MV-HRN



     归功于层次化建模以及3D先验引导,我们可以轻易地将HRN适用于多视角人脸重建任务中。通过添加不同视角之间的几何一致性,我们可以使用两到三个少量的视角完成整体面部几何的精确建模。 上图显示了 MV-HRN 的流程。 我们假设人脸低频部分和中频细节在不同视图之间是一致的,而照明、姿态、表情和高频细节等应该是视角相关的。 因此,我们引入了一个标准空间以及视角独立空间,分别对共享的固有面部形状以及每个视图的姿势、光照、表情和高频细节等进行建模。 通过拟合过程,在不同视角图像的监督下,脸型逐渐被限制在更小、更准确的空间内。 实验表明,MV-HRN 在短时间内(不到一分钟)仅给出少量(2∼5)个图像视图即可实现准确重建。


五、实验结果


5.1 与SOTA方法对比


5.1.2 定性对比




     可以看出,无论是在单图,还是多图重建中,我们的方法在几何的精确性上以及细节的还原度上都相比于现有方法有较大提升。


5.1.2 定量对比



     同样,在与真实mesh的平均误差等定量指标的对比中,我们的方法也在多个单图、多图人脸重建benchmark中超越了现有的SOTA方法。


5.2 消融实验




六、参考文献


[1] Anpei Chen, Zhang Chen, Guli Zhang, Kenny Mitchell, and Jingyi Yu. Photo-realistic facial details synthesis from single image. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 9429–9439, 2019. 1, 6

[2] Yudong Guo, Juyong Zhang, Jianfei Cai, Boyi Jiang, and Jianmin Zheng. Cnn-based real-time dense face reconstruction with inverse-rendered photo-realistic face images. IEEE Transactions on Pattern Analysis and Machine Intelligence, pages 1–1, 2018. 1

[3] E. Richardson, M. Sela, R. Or-El, and R. Kimmel. Learning detailed face reconstruction from a single image. In 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017. 1

[4] Yu Deng, Jiaolong Yang, Sicheng Xu, Dong Chen, Yunde Jia, and Xin Tong. Accurate 3d face reconstruction with weakly-supervised learning: From single image to image set. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, pages 0–0, 2019. 2, 4, 6

[5] Biwen Lei, Xiefan Guo, Hongyu Yang, Miaomiao Cui, Xuansong Xie, and Di Huang. Abpn: Adaptive blend pyramid network for real-time local retouching of ultra highresolution photo. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 2108–2117, 2022. 2, 5

[6] Jinlin Liu, Yuan Yao, Wendi Hou, Miaomiao Cui, Xuansong Xie, Changshui Zhang, and Xian-sheng Hua. Boosting semantic human matting with coarse annotations. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 8563–8572, 2020. 4


七、应用

     高保真 3D 头部重建在许多场景中都有广泛的应用。

     接下来给大家介绍下我们视觉智能平台中一些相似、相关的应用功能,欢迎大家体验~

相关文章
|
6月前
|
机器学习/深度学习 人工智能 算法
从300亿分子中筛出6款,结构新且易合成,斯坦福抗生素设计AI模型登Nature子刊
【4月更文挑战第12天】斯坦福大学研究团队在Nature子刊发表论文,展示人工智能如何从300亿个分子中筛选出6种新型抗生素候选分子,为抗药性问题提供新解决方案。利用深度学习算法,AI模型考虑化学结构及合成可行性,发现独特化合物,加速药物研发。然而,成功应用还需临床试验验证及克服安全性和耐药性挑战。AI技术在药物设计中的角色引起关注,强调平衡使用与基础科学研究的重要性。
56 1
从300亿分子中筛出6款,结构新且易合成,斯坦福抗生素设计AI模型登Nature子刊
|
3月前
|
人工智能 数据库
【科研技巧】如何判断某个期刊是什么类别及影响因子?是否是顶会?如何期刊内检索?AI写综述?AI做PPT?
本文提供了关于如何判断期刊类别、影响因子,识别顶级会议,以及在期刊内部进行检索的科研技巧,并探讨了AI技术在撰写综述和制作PPT方面的应用。
154 6
【科研技巧】如何判断某个期刊是什么类别及影响因子?是否是顶会?如何期刊内检索?AI写综述?AI做PPT?
|
机器学习/深度学习 自然语言处理 算法
超越PaLM!北大硕士提出DiVeRSe,全面刷新NLP推理排行榜
超越PaLM!北大硕士提出DiVeRSe,全面刷新NLP推理排行榜
103 0
超越PaLM!北大硕士提出DiVeRSe,全面刷新NLP推理排行榜
|
机器学习/深度学习 人工智能 缓存
为内存塞不下Transformer犯愁?OpenAI应用AI研究负责人写了份指南(3)
为内存塞不下Transformer犯愁?OpenAI应用AI研究负责人写了份指南
323 0
|
机器学习/深度学习 人工智能 算法
为内存塞不下Transformer犯愁?OpenAI应用AI研究负责人写了份指南(2)
为内存塞不下Transformer犯愁?OpenAI应用AI研究负责人写了份指南
198 0
|
机器学习/深度学习 存储 人工智能
为内存塞不下Transformer犯愁?OpenAI应用AI研究负责人写了份指南(1)
为内存塞不下Transformer犯愁?OpenAI应用AI研究负责人写了份指南
196 0
|
机器学习/深度学习 人工智能 搜索推荐
AAAI 2023 | 超越SOTA 3.27%,上交大等提出自适应本地聚合新方法
AAAI 2023 | 超越SOTA 3.27%,上交大等提出自适应本地聚合新方法
192 0
|
自然语言处理 区块链
长文本生成更流畅,斯坦福研究者引入时间控制方法,论文入选ICLR 2022
长文本生成更流畅,斯坦福研究者引入时间控制方法,论文入选ICLR 2022
|
机器学习/深度学习 自然语言处理 安全
少到4个示例,击败所有少样本学习:DeepMind新型800亿模型真学会了
少到4个示例,击败所有少样本学习:DeepMind新型800亿模型真学会了
182 0
|
机器学习/深度学习 文件存储 计算机视觉
CVPR 2022 Oral | 腾讯优图&厦门大学提出无需训练的ViT结构搜索算法
CVPR 2022 Oral | 腾讯优图&厦门大学提出无需训练的ViT结构搜索算法
125 0

热门文章

最新文章