现实版「柯南变声器」来了,搜狗变声让你声音随心变-阿里云开发者社区

开发者社区> 开发者小助手-bz8> 正文

现实版「柯南变声器」来了,搜狗变声让你声音随心变

简介: 声音秒变志玲姐姐,秒变「矮大紧」,秒变萝莉、正太,现在通通不是问题!
+关注继续查看


近日,搜狗公司 CEO 王小川在一场大会上展示了搜狗变声功能,可以让你的声音秒变志玲姐姐,下一秒变马云,下一秒再变高晓松。

这一语音变声技术可以实现把任何人的声音转化成特定声音,即「Anyone to One」. 这是表征学习在变声应用方面的一个突破,搜狗将这项技术落地搜狗输入法中,在行业率先实现落地商用。

在搜狗输入法中,搜狗目前提供了明星、卡通人物、游戏 IP、方言等几个类别供 19 种特定声音,你可以将自己的声音自由变换成喜欢的声音,目前在微信、QQ、陌陌等主要社交场景均可使用。

更为重要的是,当搜狗将自身的语音变声技术、AI 合成主播技术等与行业结合,尤其尤其是与媒体、教育、内容制作、旅游等场景结合,将会带来更大的价值想象空间。

一、搜狗语音变声实测:逼真度高、自由度高

在搜狗输入法中,通过「变声」功能,我们的声音可以转化为明星、动漫人物、游戏人物等各种炫酷的嗓音。目前,搜狗输入法的「变声」功能可转化为 19 种不同音色的语音,可以在微信、QQ 等聊天时使用,更像一种「语音表情包」,为社交增添新的玩法。

我们先看看语音变声到底是什么样的:

19B35E59-F89F-49F3-9EEF-543171AE6B4B.jpeg

48点击查看原视频

可以看出,搜狗语音变声是一种将任意说话人音色实时高逼真度变换到指定说话人音色的技术,即把我们的说话内容和风格完整地迁移到特定对象的语音上。这种变声要比单纯的变音难很多,最重要的是模型需要通过深度学习从语音抽取特定的嵌入向量,这些嵌入向量表示了说话的内容、风格、情感、音色等信息,并用目标音色代替原始音色实现变声。

它主要有如下三大特点:

  • 高还原度的变声:变声结果和目标说话人的真实嗓音非常像; 
  • 自由度极高的变声:使用者的语音没有任何限制,选定目标嗓音后,不同使用者变声后的嗓音能保持一致。也就是说这是一种 Any-to-One 的方式,任意人变声到一人的能力; 
  • 风格迁移的变声:我们的说话内容、风格(语速、停顿、情感等)都能保留下来,只是音色变换到选定的目标嗓音。

语音变声是搜狗的创新,这是全新的发展领域比语音合成更具有广泛的使用场景。同时,搜狗则在语音表征学习、迁移学习技术的突破基础上,再进一步将其部署到产品中,率先在行业实现落地。

而 Any-to-One 的方式意味着,模型不对说话人做约束,就可以实现变声到制定目标音色的迁移效果。模型训练只需要几十分钟的声音语料即可学习到目标语音的特点,所以如果你想定制一个变声语音,成本并不会很大。

二、受益表征学习突破 详解搜狗变声模型

搜狗语音交互中心高级总监陈伟表示,搜狗语音变声技术的突破,主要是在表征学习的研究上取得的,基于大量的语音数据,从中学习到有效表达说话人不同维度信息和属性的表征。

针对变声的任务需要学习到三类表征: 

  1. 说话人无关的内容表征:基于大量说话人语音数据,从中学习提取说话人无关表征的模型; 
  2. 目标说话人声纹表征,它表示不同人的「嗓音」差别。不同的声纹特征向量,对应着不同的目标音色; 
  3. 说话风格的表征,模型还应该学习到各种说话风格韵律相关的特征,例如语速的快慢和情感的起伏等。

搜狗构建的模型,主要会从说话人语音的音色、内容和韵律 (讲话节奏、情感语气等信息) 三个维度描述相关特征。并将学习到的说话人音色特征替换成目标说话人,最后基于搜狗语音到语音的新技术生成变声音频。

当这三类特征都能学习出来时,通过模型的学习进行解码生成对应目标音色的语音,从而实现将源说话人的内容和风格迁移到目标说话人的音色。

变声的架构

那么这些特征都是怎样联合,并完成变声的呢?陈伟解释了变声功能的整体架构与过程,它是一个端到端的高效模型。对应上面所述的三类特征,编码部分可以分为 A、B、C 三个子模块。每一个模块负责一类特征,最后结合三种特征而解码为目标语音、。如下为变声功能的整体架构:

81D929A0-6293-48DF-8B88-DE8193639402.jpeg

其中 A、B、C 组成了表征学习部分,后面的注意力机制和解码器组成了语音变声模块。这里可能令人疑惑的是,为什么说 B 和 C 两个嵌入向量能学习到内容与韵律,注意力机制又是怎样结合三大特征?

嵌入向量是什么?

A 的嵌入向量能学习到声纹信息并不难理解。如果嵌入向量能区分不同的说话人,那么就表示它学习到了不同人的音色或嗓音,A 也就完成了对音色语料的声纹特征编码。

但问题是,为什么 B 和 C 两个模块能从输入音频中学习到内容与韵律?

陈伟表示,这两个向量都要加一些约束才能学习到不同的特征。现在很多模型学习到的表征都是采用无监督的方式,例如自编码器、基于流的方法,学习到的表征并不能确定具体表示什么。只有人工再去判断,我们才能知道它可能和语音、图像的哪些属性相关。

但是在 B 和 C 两个模块中,模型的目的非常明确,它希望学习到与内容和风格相关的特征。在这个过程中需要其它约束与监督信息,使模型朝着具体的方向学习。具体而言,如果 B 希望学习到内容相关的特征,那么可能就需要语音内容进行约束。只有 B 的嵌入向量能重构出文本内容,这才表示它确实学到了。

注意在 B 中会有一个说话人归一化的模块,主要用来去除音色信息。

注意的是什么?

对于语音变声中,若得到各种嵌入向量,并通过注意力机制加权成特征编码,那么就可以继续通过 WaveRNN 等神经网络声码器将其恢复为语音,从而最终得到带有目标音色的音频。

所以注意力机制到底「注意」的是什么?

陈伟表示,整个注意力机制需要将三种不同的表征信息进行对齐,其中说话人编码器(A)学到的声纹嵌入向量是与时间无关,是基于整段音频学习到的表征矢量,但是对于内容和风格韵律而言,它们与时间相关,不同时间点的表征是不同的。

在时间序列上,模型需要逐帧地解码而生成目标语音。在每一个时间步上,或者说每一步解码上,模型都需要通过注意力机制确定到底要用那些内容、风格与目标说话人声纹进行融合。融合这些信息之后,模型才能完成整个序列的解码,从而生成目标音色对应的语音。

三、想象空间远不止步于输入法

针对语音变声技术在搜狗输入法中的应用,陈伟表示,变声功能上线第一天,使用次数就有数百万次,目前用户使用量在持续增长。在当前上线的目标音色中,林志玲的声音是使用最多的,东北方言、磁性男声等具有特色的嗓音,也非常受欢迎。

他还表示,搜狗输入法除了解决效率问题外,正在不断尝试提升用用户体验,比如这次的搜狗变声,让输入法变得更加有趣好玩。

但搜狗语音变声技术的想象空间远不止如此。

陈伟说,变声能力本质解决两个问题,一个是声音美化(声音滤镜以及音色迁移),一个是隐私保护,这两块有非常大的潜在应用空间,甚至会对行业带来重要的影响。

比如在教育行业,远程直播 / 网络课程非常红火,但是有些老师往往带有口音,普通话并不标准。通过变声技术,可以把网络教师的音色变为一个普通话标准的、更加有品质的音色,同时保留老师自身的内容、风格特色。

再比如未来的内容制作领域,以儿童故事、有声内容为例,假如你拥有蜡笔小新的 IP 版权,结合变声技术就可以以蜡笔小新的口吻讲述小朋友喜欢的故事。

除了教育、有声内容制作外,电商、旅游、宣传等中多领域,变声技术都有用武之地。陈伟也表示,目前公司正在跟一些行业企业接触,未来会走向行业应用。

搜狗语音变声技术,再结合搜狗近期推出的 AI 合成主播,相信与内容制作、教育、娱乐等行业的进一步结合,将会有更大的商用空间有待探索。3CC7BF46-50D7-4202-A148-EE1172B6CFE1.png


本文为机器之心原创,转载请联系本公众号获得授权

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
阿里云服务器怎么设置密码?怎么停机?怎么重启服务器?
如果在创建实例时没有设置密码,或者密码丢失,您可以在控制台上重新设置实例的登录密码。本文仅描述如何在 ECS 管理控制台上修改实例登录密码。
8839 0
使用NAT网关轻松为单台云服务器设置多个公网IP
在应用中,有时会遇到用户询问如何使单台云服务器具备多个公网IP的问题。 具体如何操作呢,有了NAT网关这个也不是难题。
26675 0
阿里云服务器如何登录?阿里云服务器的三种登录方法
购买阿里云ECS云服务器后如何登录?场景不同,大概有三种登录方式:
2865 0
阿里云服务器端口号设置
阿里云服务器初级使用者可能面临的问题之一. 使用tomcat或者其他服务器软件设置端口号后,比如 一些不是默认的, mysql的 3306, mssql的1433,有时候打不开网页, 原因是没有在ecs安全组去设置这个端口号. 解决: 点击ecs下网络和安全下的安全组 在弹出的安全组中,如果没有就新建安全组,然后点击配置规则 最后如上图点击添加...或快速创建.   have fun!  将编程看作是一门艺术,而不单单是个技术。
10657 0
使用OpenApi弹性释放和设置云服务器ECS释放
云服务器ECS的一个重要特性就是按需创建资源。您可以在业务高峰期按需弹性的自定义规则进行资源创建,在完成业务计算的时候释放资源。本篇将提供几个Tips帮助您更加容易和自动化的完成云服务器的释放和弹性设置。
11962 0
阿里云服务器安全组设置内网互通的方法
虽然0.0.0.0/0使用非常方便,但是发现很多同学使用它来做内网互通,这是有安全风险的,实例有可能会在经典网络被内网IP访问到。下面介绍一下四种安全的内网互联设置方法。 购买前请先:领取阿里云幸运券,有很多优惠,可到下文中领取。
11782 0
腾讯云服务器 设置ngxin + fastdfs +tomcat 开机自启动
在tomcat中新建一个可以启动的 .sh 脚本文件 /usr/local/tomcat7/bin/ export JAVA_HOME=/usr/local/java/jdk7 export PATH=$JAVA_HOME/bin/:$PATH export CLASSPATH=.
4575 0
阿里云ECS云服务器初始化设置教程方法
阿里云ECS云服务器初始化是指将云服务器系统恢复到最初状态的过程,阿里云的服务器初始化是通过更换系统盘来实现的,是免费的,阿里云百科网分享服务器初始化教程: 服务器初始化教程方法 本文的服务器初始化是指将ECS云服务器系统恢复到最初状态,服务器中的数据也会被清空,所以初始化之前一定要先备份好。
6789 0
1574
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载