开发者社区> 技术小达人> 正文

开发一个自己的数字人,FACEGOOD把语音驱动表情技术开源了

简介: 开发一个自己的数字人,FACEGOOD把语音驱动表情技术开源了
+关注继续查看

助力 AI 数字人落地,FACEGOOD (量子动力)正式开源语音驱动表情技术 Audio2Face 技术。本文是对该技术的简要概述。


目前,元宇宙热潮下,AI 数字人也开始涉及众多领域,包含文娱、服务、教育、营销等。市面上出现的 AI 数字人包括功能型 AI 数字人,如虚拟助手、虚拟导游、虚拟客服等;陪伴型 AI 数字人,如虚拟伴侣、虚拟家属等;社会型 AI 数字人,如虚拟主播、虚拟偶像、虚拟教师、虚拟医生、虚拟导购等。

image.png

浦发银行的首位银行业数字员工「小浦」

image.png

虎牙 AI 数字人晚玉

image.png

搜狐新闻客户端联合搜狗推出的首个明星「AI 数字人」主播。

为了实现虚拟数字人的多域化渗透,让更多 AI 数字人的场景落地,FACEGOOD 决定将语音驱动口型的算法技术正式开源,这是 AI 虚拟数字人的核心算法,技术开源后将大程度降低 AI 数字人的开发门槛

项目地址:https://github.com/FACEGOOD/Audio2Face

项目背景

2019 年,第十届中国国际新媒体短片节组委会和 FACEGOOD 联合发布陆川导演 AI 数字人。

image.png

陆川导演 AI 数字人形象

观众可以和 AI 数字陆川面对面互动交流,为观众带来打破虚拟空间和现实空间次元壁的实时实感交流互动体验。为了能达到实时交互的效果,FACEGOOD 开发了一套数字人实时语音交互系统,实现了语音到表情动画的实时转换。

如今,FACEGOOD 选择将全套语音驱动表情的技术代码开源,免费提供给广大数字人开发者使用。

技术解读

该技术可以将语音实时转换成表情 blendshape 动画。这样做的原因是在现行的产业中,用 BS 去驱动数字形象的动画表情仍是主流,方便动画艺术家对最终动画产出最艺术调整,传输的数据量小,方便动画在不同的数字形象之间进行传递等等。

基于这些实际生产中的需求,FACEGOOD 对输入和输出数据做了相应的调整,声音数据对应的标签不再是模型动画的点云数据而是模型动画的 blendshape 权重。最终的使用流程如下图 1 所示:

image.png


在上面的流程中,FACEGOOD 主要完成 Audio2Face 部分,ASR、TTS 由思必驰智能机器人完成。如果你想用自己的声音,或第三方的,ASR、TTS 可以自行进行替换。

当然,FACEGOOD Audio2face 部分也可根据自己的喜好进行重新训练,比如你想用自己的声音或其它类型的声音,或者不同于 FACEGOOD 使用的模型绑定作为驱动数据,都可以根据下面提到的流程完成自己专属的动画驱动算法模型训练

那么 Audio2Face 这一步的框架是什么样呢?又如何制作自己的训练数据呢?具体如下图 2 所示:

image.png


常规的神经网络模型训练大致可以分为三个阶段:数据采集制作、数据预处理和数据模型训练。

  • 第一阶段,数据采集制作。这里主要包含两种数据,分别是声音数据和声音对应的动画数据。声音数据主要是录制中文字母表的发音,以及一些特殊的爆破音,包含尽可能多中发音的文本。而动画数据就是,在 maya 中导入录制的声音数据后,根据自己的绑定做出符合模型面部特征的对应发音的动画;
  • 第二阶段,主要是通过 LPC 对声音数据做处理,将声音数据分割成与动画对应的帧数据,及 maya 动画帧数据的导出。
  • 第三阶段就是将处理之后的数据作为神经网络的输入,然后进行训练直到 loss 函数收敛即可。


版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
Python 技术篇-百度语音API鉴权认证获取Access Token实例演示
Python 技术篇-百度语音API鉴权认证获取Access Token实例演示
50 0
嵌入式端音频开发(Unisound篇)之 7.1 蜂鸟M离线语音芯片简介
嵌入式端音频开发(Unisound篇)之 7.1 蜂鸟M离线语音芯片简介
125 0
语音顶会Interspeech 论文解读|Constrained output embeddings for end-to-end code-switching speech recognition with only monolingual data
Interspeech是世界上规模最大,最全面的顶级语音领域会议,本文为 Nanyang Technological University等学校联合作者的入选论文
789 0
一对一直播开发,语音聊天的路还能走多久
一对一直播开发从问世到现在已经经历了多次洗礼,在直播、短视频热度趋于平稳后,一对一直播的关注量和入驻流量变得越来越多。
255 0
阿里云服务器怎么设置密码?怎么停机?怎么重启服务器?
如果在创建实例时没有设置密码,或者密码丢失,您可以在控制台上重新设置实例的登录密码。本文仅描述如何在 ECS 管理控制台上修改实例登录密码。
20056 0
疫情之后,半数美国人认为智能设备中语音控制必不可少
消费者将智能手机、智能电视/遥控器和家用电器列为需要语音控制的三大智能设备。
1225 0
阿里云服务器端口号设置
阿里云服务器初级使用者可能面临的问题之一. 使用tomcat或者其他服务器软件设置端口号后,比如 一些不是默认的, mysql的 3306, mssql的1433,有时候打不开网页, 原因是没有在ecs安全组去设置这个端口号. 解决: 点击ecs下网络和安全下的安全组 在弹出的安全组中,如果没有就新建安全组,然后点击配置规则 最后如上图点击添加...或快速创建.   have fun!  将编程看作是一门艺术,而不单单是个技术。
18346 0
《BREW进阶与精通——3G移动增值业务的运营、定制与开发》连载之71---BREW中语音与短信的开发
版权声明:本文为半吊子子全栈工匠(wireless_com,同公众号)原创文章,未经允许不得转载。
726 0
「72变的云开发」一键创建和部署高分电影推荐语音技能
本场景使用天猫精灵技能应用平台提供的技能模板,在2-5分钟内,创建一个好玩的高分电影推荐技能,使用模板后无须代码开发,系统自动配置意图、实体等,新手0基础也可体验创建技能的乐趣
156 0
977
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
JS零基础入门教程(上册)
立即下载
性能优化方法论
立即下载
手把手学习日志服务SLS,云启实验室实战指南
立即下载