开发一个自己的数字人,FACEGOOD把语音驱动表情技术开源了

简介: 开发一个自己的数字人,FACEGOOD把语音驱动表情技术开源了

助力 AI 数字人落地,FACEGOOD (量子动力)正式开源语音驱动表情技术 Audio2Face 技术。本文是对该技术的简要概述。


目前,元宇宙热潮下,AI  数字人也开始涉及众多领域,包含文娱、服务、教育、营销等。市面上出现的 AI 数字人包括功能型 AI  数字人,如虚拟助手、虚拟导游、虚拟客服等;陪伴型 AI 数字人,如虚拟伴侣、虚拟家属等;社会型 AI  数字人,如虚拟主播、虚拟偶像、虚拟教师、虚拟医生、虚拟导购等。

image.png

浦发银行的首位银行业数字员工「小浦」

image.png

虎牙 AI 数字人晚玉

image.png

搜狐新闻客户端联合搜狗推出的首个明星「AI 数字人」主播。

为了实现虚拟数字人的多域化渗透,让更多 AI 数字人的场景落地,FACEGOOD 决定将语音驱动口型的算法技术正式开源,这是 AI 虚拟数字人的核心算法,技术开源后将大程度降低 AI 数字人的开发门槛

项目地址:https://github.com/FACEGOOD/Audio2Face

项目背景

2019 年,第十届中国国际新媒体短片节组委会和 FACEGOOD 联合发布陆川导演 AI 数字人。

image.png

陆川导演 AI 数字人形象

观众可以和 AI 数字陆川面对面互动交流,为观众带来打破虚拟空间和现实空间次元壁的实时实感交流互动体验。为了能达到实时交互的效果,FACEGOOD 开发了一套数字人实时语音交互系统,实现了语音到表情动画的实时转换。

如今,FACEGOOD 选择将全套语音驱动表情的技术代码开源,免费提供给广大数字人开发者使用。

技术解读

该技术可以将语音实时转换成表情 blendshape 动画。这样做的原因是在现行的产业中,用 BS 去驱动数字形象的动画表情仍是主流,方便动画艺术家对最终动画产出最艺术调整,传输的数据量小,方便动画在不同的数字形象之间进行传递等等。

基于这些实际生产中的需求,FACEGOOD 对输入和输出数据做了相应的调整,声音数据对应的标签不再是模型动画的点云数据而是模型动画的 blendshape 权重。最终的使用流程如下图 1 所示:

image.png


在上面的流程中,FACEGOOD 主要完成 Audio2Face 部分,ASR、TTS 由思必驰智能机器人完成。如果你想用自己的声音,或第三方的,ASR、TTS 可以自行进行替换。

当然,FACEGOOD Audio2face 部分也可根据自己的喜好进行重新训练,比如你想用自己的声音或其它类型的声音,或者不同于 FACEGOOD 使用的模型绑定作为驱动数据,都可以根据下面提到的流程完成自己专属的动画驱动算法模型训练

那么 Audio2Face 这一步的框架是什么样呢?又如何制作自己的训练数据呢?具体如下图 2 所示:

image.png


常规的神经网络模型训练大致可以分为三个阶段:数据采集制作、数据预处理和数据模型训练。

  • 第一阶段,数据采集制作。这里主要包含两种数据,分别是声音数据和声音对应的动画数据。声音数据主要是录制中文字母表的发音,以及一些特殊的爆破音,包含尽可能多中发音的文本。而动画数据就是,在  maya 中导入录制的声音数据后,根据自己的绑定做出符合模型面部特征的对应发音的动画;
  • 第二阶段,主要是通过 LPC 对声音数据做处理,将声音数据分割成与动画对应的帧数据,及 maya 动画帧数据的导出。
  • 第三阶段就是将处理之后的数据作为神经网络的输入,然后进行训练直到 loss 函数收敛即可。


相关文章
|
人工智能 安全 API
如何在数字世界复刻一个高还原、高拟真的“你”
通过阿里云智能媒体服务IMS完成数字人形象训练、人声克隆定制,并使用Timeline实现视频合成及创作,打造一个“声形俱佳”的数字分身。
432 0
|
人工智能 自然语言处理 Linux
AI谱曲 | 基于RWKV的最佳开源AI作曲模型魔搭推理实践
AI谱曲 | 基于RWKV的最佳开源AI作曲模型魔搭推理实践
|
12月前
|
JavaScript 前端开发 开发者
ThreeJs控制模型骨骼实现数字人
这篇文章讲解了如何使用Three.js通过控制模型的骨骼来实现数字人的动态表现,包括加载模型、获取骨骼信息以及通过编程控制骨骼动作的具体方法。
1212 1
|
数据采集 存储 运维
物联网设备的数据处理与分析技术探讨
【7月更文挑战第2天】探索物联网(IoT)数据处理技术,涵盖数据采集(传感器、无线通信)、存储(分布式系统、NoSQL)、处理(清洗、压缩、转换)和分析(描述性、聚类、分类、异常检测)。未来趋势涉及AI集成、边缘计算、多模态处理和系统自主化。随着技术演进,期待更智能、高效的解决方案。
|
消息中间件 移动开发
PCIe RN (Readiness Notification)介绍
PCIe RN (Readiness Notification)介绍
1017 0
PCIe RN (Readiness Notification)介绍
三分钟教你学会设置PICO不自动休眠
本文介绍了如何在PICO设备上通过六步设置来延长自动休眠时间,避免因短暂离开而导致屏幕过早关闭的问题。
三分钟教你学会设置PICO不自动休眠
|
机器学习/深度学习 人工智能 TensorFlow
生成完美口型同步的 AI 数字人视频
在当今数字媒体和人工智能技术的推动下,生成完美口型同步的AI数字人视频成为备受关注的研究领域。本研究旨在开发一种技术,能够实现生成完美口型同步的AI数字人视频,使虚拟人物的口型与语音内容完美匹配。采用了深度学习方法,结合了语音识别、面部运动生成和视频合成技术,以实现这一目标。通过语音识别模型将输入的文本转换为音频波形,利用面部运动生成模型根据音频波形生成对应的面部动作序列,这些动作序列可以准确地反映出发音的口型和面部表情,最后生成口型同步的AI数字人视频。这项技术具有广泛的应用前景,可用于虚拟主持人、教育视频、学习平台等领域,提升视频内容的真实感和沟通效果。
1009 0
|
编译器 API C语言
芯片验证 | 理解SystemVerilog DPI并不难
芯片验证 | 理解SystemVerilog DPI并不难
881 0
|
存储 人工智能 运维
阿里云刘伟光:剖析企业数字化的降“本”增效
在全球经济发展放缓的今天,全天下都在进行“降本增效”,基于技术是数字化企业的差异化核心竞争力的这个重要前提,我们有必要重新审视“降本增效”的“本”到底是什么?
3203 1335
阿里云刘伟光:剖析企业数字化的降“本”增效
|
数据采集 机器学习/深度学习 人工智能
开发一个自己的数字人,FACEGOOD把语音驱动表情技术开源了
开发一个自己的数字人,FACEGOOD把语音驱动表情技术开源了
2702 0