如何在淘宝人生2一键定制你的专属3D数字人(下)

简介: 如何在淘宝人生2一键定制你的专属3D数字人(下):

如何在淘宝人生2一键定制你的专属3D数字人(上):https://developer.aliyun.com/article/1443487


照片捏脸难点


 超写实人脸重建


用户上传的是2D照片,如何把2D的人脸特征迁移到3D的人脸模型上


 风格人脸重建


不但要映射到3D数字人的基础模型(简称基底)上还要有一定的风格化特征,比如说有些3D形象的基础模型是偏卡通的风格,或者是偏武侠的风格,如何保持整个基底的风格化同时又很像用户是整个项目的核心难点


 离散属性匹配对相似度的影响


除了脸型轮廓鼻型眼型还有哪些特征会影响到像的评判?

--- 发型,眼镜,胡型等其他人脸属性都会对像有影响

做照片捏脸重建要解决的主要难点有3个,第一个是如何将用户上传的2D照片的特征映射到3D人脸模型上。第二个是不但要将2D人脸的特征映射到3D人脸模型上,还要基于该风格的卡通形象有一定的风格化特征同时不丢失用户的2D特征。第三个是除了脸型以外如何通过其他面部非脸型属性去提升用户的重建数字人的相似度。


淘宝人生2照片捏脸技术框架


为了解决上述照片捏脸的难点,整个照片捏脸技术框架分为四个模块,预处理模块,面部人脸属性&非面部人脸属性模块以及数字人形象生成模块。

 预处理模块


针对用户输入的图片进行合格性校验以及剔除敏感人物,同时会检测用户输入的人脸五官关键点以及发型的mask,为接下来的面部人脸属性模块和非面部属性模块提供有效信息。


 面部人脸属性模块


为了解决难点一基于单张照片进行3D真实人脸重建的问题,淘宝人生2使用的是基于3DMM(3D Morphable Model)重建人脸的方案。
基于3DMM技术将2D照片转换到3D人脸的核心思想是任何一张3D人脸都可以由一张3D平均人脸与一系列人脸正交基相加组合而成。所以可以将基于单张照片重建3D人脸的问题转化为求解目标3D人脸投影到2D人脸上并通过迭代求解不断贴合输入2D图片对应的人脸正交基系数的问题。

3DMM人脸形状基底和纹理基底 3DMM求解过程


基于3DMM重建后的3D真实人脸的特征会通过图形学的变形操作迁移到淘宝人生2的3D卡通形象的基础模型上,这样就巧妙的解决了难点二的问题,既保留了用户特征又有了一定的风格特征。但是由于图形学对人脸网格形变整体的耗时较慢,我们是利用一个MLP(多层感知机)训练了一个真实人脸系数到淘宝人生2捏脸系数的映射模型,提升了整体照片捏脸的性能,争取给用户带来更好的使用体验。



 非面部属性模块


为了加强一些离散属性(一般眼镜类型,发型,眉毛种类以及胡型在捏脸系统都由一些离散的素材ID来表示,所以一般称为离散属性)的表达来提升整体的相似度,我们对用户的眼镜,发型,眉型以及胡型都进行了细粒度的分类,提升用户的非面部属性特征与捏脸系统素材的匹配度,最终使得整体重建的形象更加立体饱满。


 数字人形象生成模块


通过上述模块得到的淘宝人生2捏脸系数,以及对应的素材ID会经过引擎渲染得到淘宝人生2的3D数字人形象。


这四个模块相互配合,最终实现了用户上传一张图片,一键定制用户的专属3D数字人的功能。此外每个重建的3D数字人都带有用户的特征,达到了生成形象的千人千面。


照片捏脸效果



总结以及后续规划


当前算法仅支持女版的卡通形象,基于淘宝人生2的男版卡通形象的照片捏脸正在同步研发,期待后续尽快落地。同时在眼型嘴型等五官细节拟合上仍需要提升,后续随着捏脸自由度的提升和算法的迭代会进一步提升这一块的相似度。


从友商的测试结果来看,受限于base风格的损失,业界的大多数照片捏脸应用也无法做到对用户特征的百分百的还原,但是输出的捏脸形象都比较美观,相信这也是经过了算法同学和美术产品同学的大量的联调得到了一个符合大众审美的捏脸形象,只有这样才能成功出圈,在用户侧打造很好的口碑。


淘宝人生2照片捏脸的迭代会延续既像又美的技术路线继续深耕,给用户带来更好的产品体验。同时计划引入更多模态的捏脸支持,使得用户可以通过文字或者语音自由捏脸。


引用


[1] Blanz V, Vetter T. A morphable model for the synthesis of 3D faces[C]. international conference on computer graphics and interactive techniques, 1999: 187-194.

[2] Cao C, Weng Y, Zhou S, et al. FaceWarehouse: A 3D Facial Expression Database for Visual Computing[J]. IEEE Transactions on Visualization and Computer Graphics, 2014, 20(3): 413-425.

[3] Paysan P, Knothe R, Amberg B, et al. A 3D Face Model for Pose and Illumination Invariant Face Recognition[C]. advanced video and signal based surveillance, 2009: 296-301.

附:照片捏脸秘籍


  1. 项目入口:淘宝APP首页->下拉进入淘宝二楼->搜索第二人生->点击图标进入淘宝人生2的广场->点击底部换装tab进入装扮页
  2. 进入照片捏脸页:在装扮页左侧切换到头部tab -> 点击右侧 智能捏脸 进入照片捏脸页面。
  3. 在照片捏脸页,选择拍照或从相册中选择照片,确定后触发照片捏脸。
  4. 系统会自动检测照片质量及合规情况,若两者都符合规范,则将基于照片生成新的数字人形象,并跳转回装扮页;如果有任何一项不符合规范,则会给出异常的提示。


团队介绍

我们是淘天FC淘宝人生技术团队,我们肩负着淘宝人生各类数字人玩法和为淘宝用户提供数字分身的使命,是淘天集团3D数字人业务的主阵地。淘天FC淘宝人生技术团队本着让用户在逛淘宝“好玩”的初心,构建了以3D捏脸为核心、互动类AI玩法(AI写真,淘宝购后链路虚拟服饰生成,AI占卜师等)相结合的玩法体系,为业务打造出覆盖千万级的淘宝人生用户的内容社区,通过3D和AI技术相结合,为淘宝用户提供既像又美的数字分身,降低3D内容的生产成本,提升淘宝人生的用户黏性和成就更高的商业价值。


目录
相关文章
|
2月前
|
人工智能 搜索推荐 物联网
3D大模型助力,15分钟即可训练高质量、个性化的数字人模型,代码已开放
《MimicTalk: 快速生成个性化3D数字人》介绍了一种创新方法,利用3D大模型在15分钟内训练出高质量、个性化的数字人模型。该方法基于NeRF技术,通过“静态-动态混合适应”实现高效训练,显著提升了数字人在视频会议、虚拟现实等领域的应用潜力。论文链接:https://arxiv.org/pdf/2410.06734
78 4
|
9月前
|
机器学习/深度学习 自然语言处理 图形学
CVPR 2024:文本一键转3D数字人骨骼动画,阿尔伯塔大学提出MoMask框架
【5月更文挑战第12天】CVPR 2024将展出阿尔伯塔大学的MoMask框架,该框架创新性地将文本转化为3D数字人骨骼动画,推动计算机图形学和动画制作的发展。MoMask结合NLP和计算机视觉,由文本编码器解析输入文本,动作生成器则将其转化为骨骼动画。该技术提升动画制作效率,降低门槛,但面临训练数据需求大和生成动画可能有偏差的挑战。[论文链接](https://arxiv.org/abs/2312.00063)
156 2
|
9月前
|
人工智能 算法 搜索推荐
如何在淘宝人生2一键定制你的专属3D数字人(上)
如何在淘宝人生2一键定制你的专属3D数字人(上)
1262 3
|
编解码 人工智能 自然语言处理
SIGGRAPH2023|DreamFace:一句话生成 3D 数字人?
SIGGRAPH2023|DreamFace:一句话生成 3D 数字人?
209 0
|
机器学习/深度学习 人工智能 自然语言处理
基于RTMP的智慧数字人|AI数字人传输技术方案探讨
随着智慧数字人、AI数字人的兴起,越来越多的公司着手构建全息、真实感数字角色等技术合成的数字仿真人虚拟形象,通过“虚拟形象+语音交互(T-T-S、ASR)+自然语言理解(NLU)+深度学习”,构建适用于数字客服、虚拟展厅讲解、 智慧城市、智慧医疗、智慧教育等场景,通过人机可视化语音交互,释放人员基础劳动力,降低运营成本,提升智慧交互体验。
185 0
|
人工智能
AI 绘画Stable Diffusion 研究(十二)SD数字人制作工具SadTlaker插件安装教程
AI 绘画Stable Diffusion 研究(十二)SD数字人制作工具SadTlaker插件安装教程
1016 0
|
9月前
|
数据采集 人工智能 Rust
『GitHub项目圈选周刊01』一款构建AI数字人项目开源了!自动实现音视频同步!
『GitHub项目圈选周刊01』一款构建AI数字人项目开源了!自动实现音视频同步!
1244 0
|
14天前
|
人工智能 自然语言处理 搜索推荐
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人
88 24
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
AigcPanel:开源的 AI 虚拟数字人系统,一键安装开箱即用,支持视频合成、声音合成和声音克隆
AigcPanel 是一款开源的 AI 虚拟数字人系统,支持视频合成、声音克隆等功能,适用于影视制作、虚拟主播、教育培训等多种场景。
285 12
AigcPanel:开源的 AI 虚拟数字人系统,一键安装开箱即用,支持视频合成、声音合成和声音克隆
|
2月前
|
人工智能 自然语言处理 前端开发
Lobe Vidol:AI数字人交互平台,可与虚拟人和3D模型聊天互动
Lobe Vidol是一款开源的AI数字人交互平台,允许用户创建和互动自己的虚拟偶像。该平台提供流畅的对话体验、丰富的动作姿势库、优雅的用户界面设计以及多种技术支持,如文本到语音和语音到文本技术。Lobe Vidol适用于娱乐互动、在线教育、客户服务、品牌营销和社交媒体等多个应用场景。
201 7
Lobe Vidol:AI数字人交互平台,可与虚拟人和3D模型聊天互动

热门文章

最新文章