开发者社区> 行者武松> 正文

Facebook开源VoiceLoop,根据开放场景语音文字合成新语音

简介:
+关注继续查看

Facebook 研究员近日开源了他们在今年七月发表的一篇论文(Voice Synthesis for in-the-Wild Speakers via a Phonological Loop)中的语音合成方法。

Facebook 开源 VoiceLoop,根据开放场景语音文字合成新语音

在论文中,他们提出了一种新的文字转语音的神经网络方法,可以将从开放场景下采样到的声音中提取的文字转化为语音。不同于其他的文字转语音系统,这种方法能够处理从公开演讲中提取出来的非约束性的样本,而且网络架构比现存的解决同样问题的架构要简单。它基于新的移位缓冲内存储器区(shifting buffer working memory),这个缓冲区也可以用于评估注意力,计算输出音频,以及自身的更新。

Facebook 开源 VoiceLoop,根据开放场景语音文字合成新语音

通过使用与上下文无关( context-free)的查找表对输入语句进行编码,该表的每个条目包含一个字符或音素。同样,能通过一个短向量来表示说话者,这个短向量也适用于新说话者。而且在生成音频之前,优先准备好缓冲区可以使生成的语音具有可变性。

上图为实验样例中生成的注意力图,X 轴是输出时间(声学样本),Y 轴是输入(文本/音素)。


作者:佚名

来源:51CTO

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
国内首个开源架构治理平台 ArchGuard,专治分布式场景下各种不服
过去的 10 年间,软件的架构发生了巨大的变化,从早先流行的单体 MVC 架构,变成了所谓的 5:5 开,即分布式 vs 单体。只是呢,有大量的软件开发人员,无法看到系统的全貌,又或者是从单体的思维转变过来。于是,哪怕是在使用了微服务的情况下,但是实现的却又是一个一个的单体,只是它们变成了“分布式的单体”。
135 0
使用 Arthas 排查开源 Excel 组件问题
有了实际的使用之后,不免会想到,Arthas 是如何做到在程序运行时,动态监测我们的代码的呢?带着这样的问题,我们一起来看下 Java Agent 技术实现原理。
13127 0
蚂蚁金服开源自动化测试框架 SOFAACTS
Scalable Open Financial Architecture Stack 是蚂蚁金服自主研发的金融级分布式架构,包含了构建金融级云原生架构所需的各个组件,是在金融场景里锤炼出来的最佳实践。
1202 0
WEBGL学习【十五】利用WEBGL实现三维场景的一般思路总结
版权声明:本文为博主原创文章,未经博主允许不得转载。更多学习资料请访问我爱科技论坛:www.52tech.tech https://blog.csdn.net/m0_37981569/article/details/79232119 实现三维场景载入操作的实现步骤: 主要知识点:着色器,纹理贴图,文件载入 实现思路: 获取canvas,初始化WEBGL上下文信息。
1100 0
Web防火墙应用场景:短信接口防刷
很多站长发现网站服务器变卡,短信注册接口费用大量增长,甚至注册用户被竞争对手精确营销,客户流失。 这是什么情况? 且听我们慢慢道来:
10959 0
性能、稳定性、反压、Exactly Once,Jstorm开源最佳实践全解析
在2017年在线技术峰会——阿里开源项目最佳实践上,来自阿里巴巴中间件的技术专家卫乐分享了Jstorm开源最佳实践。他主要介绍了Jstorm的架构,从性能、稳定性、监控系统、大规模部署、反压、灰度发布&热升级、Exactly-Once、新的窗口机制等方面详细扥想了Jstorm做的优化。
9172 0
+关注
行者武松
杀人者,打虎武松也。
17112
文章
2569
问答
文章排行榜
最热
最新
相关电子书
更多
JS零基础入门教程(上册)
立即下载
性能优化方法论
立即下载
手把手学习日志服务SLS,云启实验室实战指南
立即下载