开发者社区> 云栖号资讯小哥> 正文

只用嘴唇动一动,AI就能合成语音,效果自然流畅看不出破绽

简介:
+关注继续查看

云栖号资讯:【点击查看更多行业资讯
在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来!


光动嘴不用出声,AI自动给你合成语音。

这就是来自印度信息技术研究所(IIIT)的黑科技——一个名为Lip2Wav的AI程序。

Lip2Wav可以学习个体的说话方式,并且实现准确的唇语合成。

1

△示例

值得注意的是,Lip2Wav和B站那些机械风格的鬼畜调音不一样。

这个AI效果炸裂,你几乎感觉不到是机器配音,就像人类在发言一样。

真实效果可以参见他们发布在油管的视频。

毕竟涉及到语音效果,光看文字是感觉不完整的。

另外,不要用来做坏事哟。

这是怎么实现的?

目前工业界普遍使用的唇语到语音/文本的数据集有两种。

一种是小规模的、受约束的词汇数据集,如GRID和TCD-TIMIT数据集,还有一种是无约束、开源的多人词汇数据集,如LRS2、LRW和LRS3数据集。

这些数据集前者存在数量不足,不足以模拟真实环境的问题,后者问题在于适用对象过于宽泛,个性化特征不够鲜明。

基于上述问题,作者提出新的思路,步骤如下:

1、准备数据。

准备针对个人的语音、视频大量数据,这是Lip2Wav的第一个显著特点,增加数据量来增强模型的拟合效果。

2

△5个演讲者

作者为Lip2Wav准备的数据集包含了5位演讲者的演说视频,这些视频包括国际象棋分析、化学课程、深度学习课程等类型。

每个演讲者都有大约20个小时的YouTube视频内容,作者使用了5个人、共计100+小时的数据,跨越5000+的丰富词汇量,基本涵盖日常英语词汇。

2、面部识别中得到唇部动作编码。

在整理好数据后,作者的思路是学习精确的个体说话风格,换言之追求对个体风格的极致模拟,而非普遍适用的通用模型。

3

△训练流程

这个示例针对的是国际象棋分析,训练AI去分析演讲者的面部表情动作,并进行特征编码。

当然,作者没有重复造轮子,而是利用face_alignment模型上二次开发,修改为一次分批提取人脸。

face_alignment模型对3D人脸识别效果良好,在GitHub有3.9k Star。

5

△face_alignment模型对人脸进行3D建模

3、使用LSTM根据唇部动作进行文字生成。

在得到人脸特征后,研究者要做的是把唇部动作和语音文字结合起来。

6

△训练示例

在数轮3D卷积神经网络训练后,研究者使用LSTM进行文字生成,以期匹配先前的唇语动作。

4、评估结果。

在得到训练结果后,研究者使用另外两份数据集进行验证,检测Lip2Wav模型的泛化能力。

他们使用了GRID和TCD-TIMIT数据集,其中的WER列为错误率❌的衡量参数。

7

根据比较结果,和现有模型相比,Lip2Wav模型得分最低,效果最好。

而更有创意的是,研究者为弥补他们数据集过于针对个人风格的特点,还设计了人类评估的步骤。

让人类志愿者进行客观评估。

他们要求志愿者手动识别并报告A,错误发音的百分比,B,单词跳字的百分比(单词跳读是指由于噪声或语调不清而完全无法理解的单词数量。),以及C,同音字的百分比。

8

△人类客观评估平均数

上图是从Lip2Wav数据集中的每个演讲者的未读测试分词中选取10个预测的结果。

个人风格过强的问题

作者发布之后,引起Reddit的热议。

但吃瓜群众的疑问在于,他们的模型是否能够针对普通人进行语音合成。

没想到模型作者现身说法,明确表示暂时还不行,只有针对训练的特定个人才能有效拟合数据。

9

而作者还在评论区回应,他们未来会增加视频字幕生成的能力,类似于YouTube的字幕生成功能,期待项目的进一步发展。

1

【云栖号在线课堂】每天都有产品技术专家分享!
课程地址:https://yqh.aliyun.com/live

立即加入社群,与专家面对面,及时了解课程最新动态!
【云栖号在线课堂 社群】https://c.tb.cn/F3.Z8gvnK

原文发布时间:2020-06-06
本文作者:梅宁航
本文来自:“量子位公众号”,了解相关信息可以关注“公众号QbitAI”

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
阿里云服务器如何登录?阿里云服务器的三种登录方法
购买阿里云ECS云服务器后如何登录?场景不同,阿里云优惠总结大概有三种登录方式: 登录到ECS云服务器控制台 在ECS云服务器控制台用户可以更改密码、更换系.
25238 0
疫情之后,半数美国人认为智能设备中语音控制必不可少
消费者将智能手机、智能电视/遥控器和家用电器列为需要语音控制的三大智能设备。
1228 0
阿里云服务器怎么设置密码?怎么停机?怎么重启服务器?
如果在创建实例时没有设置密码,或者密码丢失,您可以在控制台上重新设置实例的登录密码。本文仅描述如何在 ECS 管理控制台上修改实例登录密码。
20693 0
Planetary.js:帮助你构建超炫的互动球体效果
  Planetary.js 是一个 JavaScript 库,用于构建互动球体效果。它使用 D3 和 TopoJSON 解析和渲染地理数据。Planetary.js 采用了基于插件的架构,即使是默认的功能是作为插件实现的,这使得 Planetary.js 非常灵活。
907 0
阿里云服务器端口号设置
阿里云服务器初级使用者可能面临的问题之一. 使用tomcat或者其他服务器软件设置端口号后,比如 一些不是默认的, mysql的 3306, mssql的1433,有时候打不开网页, 原因是没有在ecs安全组去设置这个端口号. 解决: 点击ecs下网络和安全下的安全组 在弹出的安全组中,如果没有就新建安全组,然后点击配置规则 最后如上图点击添加...或快速创建.   have fun!  将编程看作是一门艺术,而不单单是个技术。
18992 0
从天而降并有幻影效果的窗口
     function move(x) {   if(self.moveBy){   self.moveBy (0,-800);   for(i = x; i > 0; i--)   {   self.
603 0
+关注
云栖号资讯小哥
云栖号小编在此 ^o^
1403
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
JS零基础入门教程(上册)
立即下载
性能优化方法论
立即下载
手把手学习日志服务SLS,云启实验室实战指南
立即下载