上科大最新工作!实时面捕天花板,微表情像素级一致,AI让你告别手Key|SIGGRAPH Asia 2022

简介: 上科大最新工作!实时面捕天花板,微表情像素级一致,AI让你告别手Key|SIGGRAPH Asia 2022

驱动一个数字人往往被拆分为追踪(Tracking)重定向(Retargeting)两个环节。

追踪由专业的面部捕捉设备及其辅助算法完成,负责记录演员的面部动作信息,重定向则是将捕捉到的动作信息迁移到新的角色。


在传统的流程中,这两个环节往往是分离的两套体系,难以融合,且两个环节都有大量不可控的人工发挥成分,互相影响。


近些年,随着计算机图形学技术的发展与渲染硬件性能的不断提升,人们已经能够通过复杂的物理模拟,借助离线渲染技术得到无限真实的静态人像。


但即便如此,在动态数字人角色的呈现上,我们距离跨越恐怖谷效应还有很长的路要走。


虽然人们已经能够在诸如《阿凡达》《双子杀手》等电影中带来与真实演员别无二致的数字替身,但其背后是艺术家手工绑定与手工制作关键帧动画带来的大量资金投入。


针对上述问题,上海科技大学科研团队联合数字人底层技术公司影眸科技提出了这样的思路:将首创的4D PBR扫描技术与神经网络表达相结合,训练多VAE的网络结构,跳过了传统的绑定与动态贴图制作流程。


这意味着,无需面捕头盔、无需人工绑定,只需要一段4D序列作为训练,RGB视频就可以实现精细到微表情级别的实时面部捕捉。


Deemos影眸科技

,赞137


这项工作已经被计算机图形学顶会SIGGRAPH Asia 2022 接收为Technical Paper - Journal Track并受邀作报告分享


据研究人员介绍,这项技术不仅能够生产出与现有渲染引擎兼容的面部几何模型和多层材质贴图,还能让任何人凭借手机进行轻量级面部捕捉,实时驱动高质量的面部资产,该技术已经投入国内影视特效与游戏行业使用。


论文链接:https://arxiv.org/abs/2202.05592


使用神经网络构建面部资产


上科大联合影眸科技研发团队将预先捕捉好的高质量面部资产与轻量级的输入设备相结合,填补了两种不同解决方案中间的空白。他们带来了全新的思路——基于高质量的4D面部资产数据,实现对面部动态几何和材质贴图的隐式表达,从而得到更真实自然的面部驱动效果。



首先是训练数据采集。研究人员使用了穹顶光场设备采集演员的面部资产。模特按照研究人员的设计进行面部表演,由穹顶光场以24fps采集了模特表演的动态面部几何和材质贴图(漫反射、高光、法线贴图)。



接着,研究人员实现了神经网络重定向(Neural Retargeting)。他们将该任务分解为:使用神经网络解析输入视频的表情信息(捕捉),并将其迁移到面部资产上(重定向)。


具体实现时,任务被拆解为了三个分支——表情、几何、材质贴图。研究人员针对每个部分分别训练了一个VAE以提取相关信息。表情网络负责捕捉,后两个则负责重定向。



在训练表情网络时,他们使用了全新的三元训练法来监督训练。


训练时,将某张图片与其相同视角不同表情的照片,以及不同视角相同表情的照片分在一组,使得网络能够学会从输入视频帧中解耦表情与视角信息,从而在视角变换的情况下也能稳定地以隐向量形式提取出表情信息。



面部几何网络也用类似的方法训练。训练时,网络需要预测当前表情面部几何与无表情面部几何的差值。


对于材质贴图训练,VAE网络只需要能提取输入贴图中的表情隐向量,并根据其恢复出输入材质贴图即可。值得注意的是,这里使用了皱纹图的方式来表达材质贴图变化,具体来说,是网络输出当前帧材质贴图与无表情材质贴图的差值。


将这张皱纹图线性放大到4K分辨率下并与无表情材质贴图叠加,就能得到高分辨率的面部材质贴图。这样既可以保留高分辨率贴图下的毛孔级面部细节,又可以精准表达皱纹、阴影等在动态表情中出现的面部特征。



此外,为了让三个VAE所提取的表情隐向量处于一致的隐空间,研究人员还训练了两个MLP来实现不同VAE之间表情信息的转化。


几何和材质贴图网络的训练,将训练集中的高质量面部资产编码于神经网络所构建的隐空间中。只需要一个表情隐向量,就可以得到对应的高质量几何、纹理资产。


最后使用时,对于某一视频输入帧,由表情VAE的编码器提取表情信息,由两个MLP分别将其转化为几何、材质贴图VAE的表情隐向量,再由两个VAE的解码器得到对应的几何和材质贴图。


资产的比较与使用


与之前的工作相比,该方法在几何精度上有了一定提高。



更重要的是,该方法扩展了多样的应用场景。


首先,模特本人的视频可以被用来驱动生成的资产。即便是面对训练集中没有做出过的表情,网络也能立刻给出高真实度的几何和材质贴图预测。这免去了后续专门为演员安装面部捕捉设备的工作。


其次,该方法也支持自由环境跨对象重定向(in-the-wild cross-identity retargeting),即,非模特本人的面部表演视频,也可以驱动面部资产。

只需要一小部分视频帧混入网络训练中进行优化,并使用指示变量告知网络输入图片是手机拍摄输入或是设备采集结果,网络就可以提取输入视频中的人脸表情信息,并预测原模特做出该表情时,对应的面部几何和材质贴图。



此外,视频输入也可以驱动艺术加工过的人物形象。在艺术家对模特无表情的几何和材质贴图进行一定的修改后,网络对表情的预测结果可以直接应用在它们上面。因为网络预测的是相对无表情几何和贴图的偏差,所以表情变化和皱纹运动都可以真实地反映在修改后的面部几何和材质贴图上。




总结


该项目基于4D动态几何和材质贴图的训练数据,训练多VAE的网络结构从输入的人脸面部表演视频解耦出表情信息并解算出高精度的面部几何和材质贴图,最终得到了真实而细腻的视频驱动人脸效果。


将追踪与重定向两个环节自动化与标准化,极大程度地降低了高精度数字人制作与驱动的成本,减少了数字人艺术家的大量重复工作,使他们有更多的时间进行内容向的创作。


相关文章
|
存储 人工智能 编解码
CVPR‘2023 | 港科大 & 腾讯 AI Lab & 港大联合出品:有趣的动态 3D 场景重建
CVPR‘2023 | 港科大 & 腾讯 AI Lab & 港大联合出品:有趣的动态 3D 场景重建
246 0
|
机器学习/深度学习 传感器 人工智能
AI:AI与爱无处不在,大赛与奖金齐飞—【科大讯飞】AI开发者大赛—与你在AI盛会中遨游!
AI:AI与爱无处不在,大赛与奖金齐飞—【科大讯飞】AI开发者大赛—与你在AI盛会中遨游! 导读:学习人工智能技术,其实,最重要的是理论与实践相结合。如果单纯的去学习理论知识,有时候会比较乏味,极易打消学习的积极性,但是,如果多参加一些人工智能竞赛,从大赛实践中用编程的方式去实现一些idea,这样做,除了可以锻炼自己的coding能力,增加实践经验,这种方法会让你更加容易获得成就感,当然,哈哈,更重要些的是,还有奖金可拿。
AI:AI与爱无处不在,大赛与奖金齐飞—【科大讯飞】AI开发者大赛—与你在AI盛会中遨游!
|
人工智能 自然语言处理 文字识别
AI:2020 科大讯飞AI开发者大赛,总奖金池180+万元!拿下比赛,大厂offer到手,那么,你还在等什么?
AI:2020 科大讯飞AI开发者大赛,总奖金池180+万元!拿下比赛,大厂offer到手,那么,你还在等什么?
AI:2020 科大讯飞AI开发者大赛,总奖金池180+万元!拿下比赛,大厂offer到手,那么,你还在等什么?
|
人工智能 自然语言处理 搜索推荐
科大讯飞也推AI智能硬件,K12“知识图谱型”AI教育“真香”?
一次性推出5款新硬件产品,公众认知中一向ToB的“明星企业”科大讯飞前两天的发布会让人“意外”,ToC转型似乎说来就来。
科大讯飞也推AI智能硬件,K12“知识图谱型”AI教育“真香”?
|
机器学习/深度学习 人工智能 并行计算
光速执行AI运算,港科大双层「全光学」神经网络不要计算机也能做分类
完全通过光学,不要计算机也能构建个神经网络?港科大的研究团队提出了一种全光学神经网络,所有线性变换、激活函数通过光学模块就能实现。
271 0
光速执行AI运算,港科大双层「全光学」神经网络不要计算机也能做分类
|
人工智能 自然语言处理 语音技术
AI公开课:19.04.24刘聪-科大讯飞AI副院长《人工智能的“顶天立地”之路》课堂笔记以及个人感悟
AI公开课:19.04.24刘聪-科大讯飞AI副院长《人工智能的“顶天立地”之路》课堂笔记以及个人感悟
|
机器学习/深度学习 人工智能 算法
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
转载:【AI系统】AI的领域、场景与行业应用
本文概述了AI的历史、现状及发展趋势,探讨了AI在计算机视觉、自然语言处理、语音识别等领域的应用,以及在金融、医疗、教育、互联网等行业中的实践案例。随着技术进步,AI模型正从单一走向多样化,从小规模到大规模分布式训练,企业级AI系统设计面临更多挑战,同时也带来了新的研究与工程实践机遇。文中强调了AI基础设施的重要性,并鼓励读者深入了解AI系统的设计原则与研究方法,共同推动AI技术的发展。
转载:【AI系统】AI的领域、场景与行业应用