CVPR 2022 | 实时渲染、可直接编辑,中科大提出高保真人头参数化模型HeadNeRF

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: CVPR 2022 | 实时渲染、可直接编辑,中科大提出高保真人头参数化模型HeadNeRF

《黑客帝国: 觉醒》演示中的灵魂发问:当我们打造出的世界和我们自己的世界同等真实时,那现实到底意味着什么?


还记得去年 12 月,美国电子游戏与软件开发公司 Epic 发布的基于自家虚幻 5 打造的《黑客帝国: 觉醒》的演示吗?Demo 中所展示的主演人物的毛孔毛发级高真实感建模,着实让人惊叹 Epic 的强大技术能力。


据悉,以上演示 Demo 中的人物形象是由 Epic 名下的 MetaHuman Creator 创建生成,该应用可以让用户自由编辑调整目标数字形象的各种面部特征和皮肤细节,甚至于精确编辑调整发型、眼型、妆容等各个局部语义属性,且调整结果具有超逼真的显示渲染效果。


可以说,MetaHumane Creator 在高保真数字人创建与渲染效果方面确立了一个新的标杆。

不过略有瑕疵的是,尽管 MetaHuman 构建的虚拟数字人呈现了超逼真的成像渲染效果,但当我们刻意去观察其合成结果时,却总能发现结果有不够真实的地方。如下图所示。

上述所谈到的不真实感可能是由 MetaHuman 的渲染假设导致的。具体来说,随着图形相关研究技术的发展,该领域其实是在不断修正三维模型的光照渲染模型的,在该过程中也是提出多种三维光照类型,如朗伯光照模型,Phong 光照模型以及 BRDF 光照模型等。然而,由于真实世界的复杂性,这些假设的渲染模型仍是不可避免的会与真实物理世界的渲染存在差异,从而导致相关渲染结果不够真实。

近期,一种新的渲染模型,即最近广为关注的神经辐射场体渲染模型(Neural Radiance Field,缩写 NeRF),有打破上述各种假设枷锁的趋势,以下为一些 NeRF 相关工作的渲染效果。可以发现 NeRF 具有照片级的渲染精度,渲染结果亦具有 GAN 等二维生成模型所不具备的多视角一致性,更是能对玻璃、火焰、液体等进行统一表示。


NeRF 通过神经渲染与神经隐式表示来自适应地学习适合目标渲染对象的渲染方式,这使得 NeRF 相关的渲染假设少于上述传统的渲染方法,从而使得 NeRF 的渲染逻辑与真实世界的渲染更加贴合。

高保真人头参数化模型 HeadNeRF,可创建与编辑高保真数字人

基于上述观察,来自中科大张举勇教授课题组提出了 HeadNeRF,一种基于 NeRF 的高效全息人脸头部参数化模型,该工作发表于 CVPR 2022,相关代码已开源。


HeadNeRF

效果上,HeadNeRF 可以实时地渲染高清图像级别的人脸头部,且支持直接编辑调整渲染结果的多种语义属性,如身份、表情以及颜色外观等。得益于 NeRF 结构的引入,HeadNeRF 也支持直接编辑调整渲染对象的渲染视角,同时不同视角的渲染结果具有优秀的渲染一致性。相关编辑效果如下所示:

HeadNeRF: 高帧率版

HeadNeRF: 高质量版

方法介绍

HeadNeRF 的 Motivation 在于,NeRF 本身可看作一种三维表示,尽管 NeRF 没有显式地重建目标场景的几何信息,但其本身通过预测场景的辐射场其实隐式地编码了目标场景的几何结构。进而使得,针对渲染任务,NeRF 一定程度上可以等价甚至优于传统的纹理材质网格。且由于 NeRF 是完全基于神经网络的,因此 NeRF 的渲染过程是天然可微的,而其他传统的几何表示,如三维网格,点云,体素等则往往需要各种近似策略来缓解相关表示的渲染不可微问题,与之对应的参数化表示工作往往则需要收集并处理大量的三维扫描数据。相对的,HeadNeRF 的构建过程只需要二维人脸图片。

HeadNeRF 的表示可概述如下:


这里P表示相机参数,z_{*}分别表示身份、表情、反照率和光照相关的语义向量。R表示HeadNeRF的渲染成像过程,I则为HeadNeRF根据上述输入参数渲染生成的人脸头部图片。HeadNeRF的算法流程图如下所示:

HeadNeRF-Pipeline

HeadNeRF 的表示过程整体上通过 conditional-NeRF 实现。训练方面,该研究则通过收集了三个大规模人脸头部图片数据集,并基于这些数据设计有效的 Loss 函数来使得 HeadNeRF 可以语义解耦地编辑渲染结果的各种语义属性。此外,该研究也将 NeRF 体渲染与 2D 神经渲染相结合,以加速 NeRF 渲染速度。

具体而言,代替直接渲染高分辨的人脸头部图片,HeadNeRF先是基于 NeRF 的体渲染管线生成低分辨率、高通道数的特征图(Feature Map),接着使用特殊设计的 2D 神经渲染网络层,逐步对上述特征图进行神经上采样,进而输出最终的预测结果。该 2D 神经渲染模块的引入大幅度提升了原始 NeRF 体渲染的渲染速度,且同时很好地保持了 NeRF 隐式编码的几何结构。如下图所示,针对给定的语义参数组合,连续地编辑调整 HeadNeRF 的渲染视角、相机距离以及相机视野(FoV),其相应地生成结果保持了优秀的渲染一致性,这进一步验证了 HeadNeRF 中 2D 神经渲染模块的有效性。

编辑渲染视角

编辑相机距离和 FoV
此外,2D 神经渲染模块的引入也有效改善了 NeRF 的渲染效率,从而让 HeadNeRF 可以在一般的显卡设备上单次前馈计算获得目标渲染图片的所有像素预测结果。因此,HeadNeRF在 NeRF 的 Photometric Loss 的基础上,额外地使用 Perceptual Loss来监督模型训练。如下图所示,Perceptual Loss 这种全局Instance类型的监督Loss有效提升了 HeadNeRF 渲染结果的渲染细节。

关于 Perceptual Loss 的消融实验

在训练 HeadNeRF 的过程中,该研究也借助 In-the-wild 的单视角数据集 (FFHQ) 来进一步增强 HeadNeRF 的表示能力和泛化能力。得益于所设计的训练策略,HeadNeRF 可以同时使用来自不同渠道、不同类型的人脸数据来训练参数化模型。其中,多人多表情 (多光照) 多视角的人脸头部数据使得 HeadNeRF 可以学习人脸头部的几何形状先验、视角一致先验以及语义解耦先验。另一方面,In-the-wild 的单视角数据则让 HeadNeRF 在训练过程中感知更多的身份、表情以及渲染风格类别,从而有效增强其表示、泛化能力。如下图所示,单视角数据集的引入有效提升了 HeadNeRF 的拟合能力,多人多表情多视角 (多光照) 数据集提供的相关先验则使 HeadNeRF 可以进一步解耦地编辑调整拟合结果的各个语义属性和渲染视角。

FFHQ 单视角数据的引入有效增强了 HeadNeRF 的泛化拟合能力

以下展示了 HeadNeRF 关于更多人脸头部图片的拟合结果,这些图片均来自 In-the-wild 的采集环境,且完全没有参与 HeadNeRF 模型的训练构建。可以发现 HeadNeRF 对于图中展示的多类型数据均可进行有效拟合。这一定程度也验证了 HeadNeRF 的表达能力和泛化能力。


得益于 HeadNeRF 高质量的渲染精度、优秀的解耦能力以及实时的渲染速度, 研究者可以基于 HeadNeRF 设计多种相关应用。如通过训练所获得的 HeadNeRF 模型,可提取输入视频的 HeadNeRF 表情参数序列以及目标图像的 HeadNeRF 表示参数,并进一步的将目标图像的表情参数替换为视频的表情参数,从而实现用视频中的表情来驱动目标图像。相关结果如下所示

网络异常,图片无法展示
|
基于 HeadNeRF 的表情迁移应用

更多结果和介绍,请参考 HeadNeRF 的项目主页与文章 。

该研究相信,基于 NeRF 的数字人技术还将进一步演化,在不远的将来,关于《黑客帝国: 觉醒》演示中的灵魂发问将变成现实。

参考链接 :https://github.com/CrisHY1995/HeadNeRFonDigitalHuman

相关文章
|
6月前
|
人工智能 vr&ar 图形学
开源单图生成3D模型TripoSR的局限性分析
【2月更文挑战第25天】开源单图生成3D模型TripoSR的局限性分析
314 6
开源单图生成3D模型TripoSR的局限性分析
|
6月前
|
人工智能 文字识别 计算机视觉
【AAAI 2024】M2Doc:文档版面分析的可插拔多模态融合方法
M2Doc是一种创新的多模态融合方法,设计用于增强文档版面分析任务中的纯视觉目标检测器。该方法包括Early-Fusion和Late-Fusion模块,前者通过门控机制融合视觉和文本特征,后者则在框级别合并这两种特征。M2Doc易于集成到各种目标检测器,实验证明它能显著提升DocLayNet和M6Doc数据集上的性能,特别是与DINO结合时,在多个数据集上达到SOTA结果。此外,研究表明M2Doc对于增强复杂逻辑版面分析任务中的文本理解和语义关联特别有效。
|
机器学习/深度学习 人工智能 自然语言处理
一文尽览 | 开放世界目标检测的近期工作及简析!(基于Captioning/CLIP/伪标签/Prompt)(上)
人类通过自然监督,即探索视觉世界和倾听他人描述情况,学会了毫不费力地识别和定位物体。我们人类对视觉模式的终身学习,并将其与口语词汇联系起来,从而形成了丰富的视觉和语义词汇,不仅可以用于检测物体,还可以用于其他任务,如描述物体和推理其属性和可见性。人类的这种学习模式为我们实现开放世界的目标检测提供了一个可以学习的角度。
一文尽览 | 开放世界目标检测的近期工作及简析!(基于Captioning/CLIP/伪标签/Prompt)(上)
|
5月前
|
人工智能 API 计算机视觉
吴恩达团队新作:多模态多样本上下文学习,无需微调快速适应新任务
【6月更文挑战第27天】吴恩达团队提出多模态模型新方法—多样本上下文学习,允许模型无需微调即可快速适应新任务。通过扩大上下文窗口至2000个示例,模型性能在图像分类等任务上显著提升,同时研究了批处理优化以减少计算成本。尽管面临计算开销和数据需求的挑战,但该方法为AI的高效泛化开辟了新途径。[论文链接:https://arxiv.org/abs/2405.09798]
97 5
|
2月前
|
传感器 人工智能 算法
AI计算机视觉笔记二十七:YOLOV8实现目标追踪
本文介绍了使用YOLOv8实现人员检测与追踪的方法。通过为每个人员分配唯一ID,实现持续追踪,并可统计人数,适用于小区或办公楼出入管理。首先解释了目标检测与追踪的区别,接着详细描述了使用匈牙利算法和卡尔曼滤波实现目标关联的过程。文章提供了基于IOU实现追踪的具体步骤,包括环境搭建、模型加载及追踪逻辑实现。通过示例代码展示了如何使用YOLOv8进行实时视频处理,并实现人员追踪功能。测试结果显示,该方法在实际场景中具有较好的应用潜力。
|
4月前
|
图形学
Sora信息问题之使用数据驱动的物理引擎进行训练如何解决
Sora信息问题之使用数据驱动的物理引擎进行训练如何解决
24 0
|
6月前
|
人工智能 自然语言处理 数据可视化
开源单图生成3D模型TripoSR有哪些特点?
【2月更文挑战第16天】开源单图生成3D模型TripoSR有哪些特点?
175 2
开源单图生成3D模型TripoSR有哪些特点?
|
11月前
|
机器学习/深度学习 人工智能 算法
AI Earth有没有相关文档或论文介绍平台地物分类、目标提取、变化检测等算法的原理呢?
AI Earth有没有相关文档或论文介绍平台地物分类、目标提取、变化检测等算法的原理呢?
337 1
|
机器学习/深度学习 编解码 人工智能
AI降维打击人类画家,文生图引入ControlNet,深度、边缘信息全能复用
AI降维打击人类画家,文生图引入ControlNet,深度、边缘信息全能复用
227 0
|
机器学习/深度学习 编解码 计算机视觉
真的这么丝滑吗?Hinton组提出基于大型全景掩码的实例分割框架,图像视频场景丝滑切换
真的这么丝滑吗?Hinton组提出基于大型全景掩码的实例分割框架,图像视频场景丝滑切换

热门文章

最新文章