定制语音四部曲,从冬奥虚拟主持人说起

简介: “冰雪是冬天的礼物;而我,最懂冰雪的快乐。驭冰雪是我独具的智慧。想要玩转冰雪的更多可能?跟上我,去未来!” 当冬奥虚拟主持人冬冬以语音合成的方式说出这句话时,原始发音人吃惊地告诉我们,她已经分不出来这究竟是不是她说的。什么是语音合成?顾名思义,就是将文本变成语音,即TTS(text-to-speech)。

image.png

如今,在自媒体创作视频配音以及虚拟人需要结合2D图像乃至3D建模与人交流的需求等一些新涌现的需求下,对TTS的要求除了需要将文本变成对应的语音,也需要将合成语音变得更具有表现力,韵律、音质和情感上都更加贴近真人。


那么如何定制一款具有高表现力的声音呢?我们从冬奥虚拟主持人冬冬说起。


,时长01:50


❄️ PART #01 发音人挑选

首先需要明确想要的声音是什么样子的,我们称之为声音画像——“像十八九岁的少女,有一口标准的普通话,音色清甜、具有运动感,时尚活泼,如行走的张子枫”,根据这样的描述,我们让多个发音人进行一两句特定语句的试音。

与传统的发音人直接挑选不同,我们这里采用个性化语音合成技术(PTTS)进行合成效果的评估,根据发音人仅有的一两句试音,来合成其他特定文案的音频,而后根据原始音频和初步合成效果进行一个综合的评估来确定目标发音人。

image.png


❄️ PART #02 录音环节

为了保证音频效果稳定和高质量,我们把冬冬的目标发音人请到符合录制要求的录音棚中。而后,根据冬奥主持素材和通用场景的内容,我们通过音素覆盖的计算设计出冬冬发音人需要录制的文案。在录音人不同状态下录制的音频可能会出现较大的差异,在录制的过程中,需要录音指导,在录音完成后,进行数据质检。音频的质量决定了定制声音的上限,为了保证得到的录音音频能够有较好的一致性,与传统的人工质检不同,我们根据音频特征进行自动化的风格一致性筛选,且经过筛选音频的数量也能保证音素覆盖。

image.png

❄️ PART #03 数据标注

可以通过ASR进行自动标注,但也需要人工进行检验和调整。



❄️ PART #04 模型训练、调优及部署

为了达到高表现力的定制效果,达摩院语音实验室自研KAN-TTS模型能够使得韵律更加自然,HIFI-TTS模型能够使得合成音频音质更优,情感TTS则丰富了说话人的情感和说话风格。最终结合三者,我们的冬冬能够实现主持人和脱口秀的两种风格自由切换,在自然度综合评测上98%接近原始目标发音人。得到调优后的TTS模型后,冬冬的声音依托于阿里云,可供冬奥会期间全天候时长的语音播报使用

image.png

跟冬冬的定制流程一样,你想要的任何精品声音的定制都可以通过这四部曲来进行。


冬冬的声音属于独家版权,目前仅供定制方使用。但我们在阿里云上提供了不受限制的多种场景、多种语音、多种口音的约百种语音合成定制声音,有客服艾夏、文学艾媛、直播场景小仙等,在超高清一栏,还有舌尖上的中国同款音色知厨。


image.gif


我们也提供了不同层级的语音定制,除了像冬冬一样,精品的声音有一听可知的定制效果;还有能保证少量音频即可完成较好的合成效果,普通人也能定制属于自己的TTS音色,即个性化人声定制。


image.png


Future Work

从标准定制到个性化定制,着力高表现力的合成语音,是我们未来技术重点打磨的方向之一。我们通过使用显隐式韵律建模,提高单句文本时的韵律起伏和韵律还原度;对长文本建模,尤其加强句首、句尾的韵律连续性和彼此影响,增强段落文本时的上下文韵律;融入例如磕绊、重复、语气词等,提升合成音频真实感,以期实现稳定可靠的高采样率高音质高表现力的合成效果。

目录
相关文章
|
资源调度 安全 架构师
沉浸式互动体验升级,虚拟3D走向消费场景——一场手机“冰雪派对”背后的成功经验
第12期云谷创新谈邀请了超次元CEO——陈坚,阿里云无影解决方案架构师——屈立威,通过超次元的发展了解虚拟行业的趋势,一起解密天猫App“3D冰雪派对”背后与阿里云的技术合作,共同探讨元宇宙的技术趋势及互动形态的发展。
297 0
沉浸式互动体验升级,虚拟3D走向消费场景——一场手机“冰雪派对”背后的成功经验
|
安全 UED
开发语音直播平台,需要认清的某些概念
开发语音直播平台,需要认清的某些概念
|
自然语言处理 算法 搜索推荐
这家默默做技术的创业公司,想要重新定义国产智能硬件的语音交互
Win 10 已经开放下载,可能你已经将电脑升级到这个倾注整个微软团队精力研发的全新系统。在 Win 10 界面的任务栏上,属于 Cortana 语音助理的搜索栏清晰可见。你可以通过“嘿,小娜”直接唤醒,然后让 Ta 回答你的问题。
214 0
这家默默做技术的创业公司,想要重新定义国产智能硬件的语音交互
|
物联网 开发者
投稿IoT征文,抢与技术大牛连线机会!
想要T恤、背包、键盘这些开发者必备装备吗?想跟技术大牛连线吗?参与征文投稿,下一个“天选之子”就是你!
投稿IoT征文,抢与技术大牛连线机会!
|
人工智能 安全 物联网
实况视频直播,虚拟终将反噬现实
百度在六一推出了一款比较有特色的产品,百度网络动物园,将动物园的部分动物实况在网上进行直播,其传播效果来说,还是不错的,从另一个角度去看这件事,暴露了用户观看实况直播视频的需求,更想要知道每时每刻每地在发生些什么。加上物联网的发展趋势,未来的摄像头将成为一部全新的电脑,我们所有人都将成为全世界的监视者。
230 0
|
Java 数据库
千字打通接口的任督二脉 | 带你学《Java面向对象编程》之五十八
本节为读者讲述了接口使用过程中遇到的转型问题以及接口与抽象类之间对于子类的继承、实现的要求。
千字打通接口的任督二脉   | 带你学《Java面向对象编程》之五十八