定制语音四部曲,从冬奥虚拟主持人说起

简介: “冰雪是冬天的礼物;而我,最懂冰雪的快乐。驭冰雪是我独具的智慧。想要玩转冰雪的更多可能?跟上我,去未来!” 当冬奥虚拟主持人冬冬以语音合成的方式说出这句话时,原始发音人吃惊地告诉我们,她已经分不出来这究竟是不是她说的。什么是语音合成?顾名思义,就是将文本变成语音,即TTS(text-to-speech)。

image.png

如今,在自媒体创作视频配音以及虚拟人需要结合2D图像乃至3D建模与人交流的需求等一些新涌现的需求下,对TTS的要求除了需要将文本变成对应的语音,也需要将合成语音变得更具有表现力,韵律、音质和情感上都更加贴近真人。


那么如何定制一款具有高表现力的声音呢?我们从冬奥虚拟主持人冬冬说起。


,时长01:50


❄️ PART #01 发音人挑选

首先需要明确想要的声音是什么样子的,我们称之为声音画像——“像十八九岁的少女,有一口标准的普通话,音色清甜、具有运动感,时尚活泼,如行走的张子枫”,根据这样的描述,我们让多个发音人进行一两句特定语句的试音。

与传统的发音人直接挑选不同,我们这里采用个性化语音合成技术(PTTS)进行合成效果的评估,根据发音人仅有的一两句试音,来合成其他特定文案的音频,而后根据原始音频和初步合成效果进行一个综合的评估来确定目标发音人。

image.png


❄️ PART #02 录音环节

为了保证音频效果稳定和高质量,我们把冬冬的目标发音人请到符合录制要求的录音棚中。而后,根据冬奥主持素材和通用场景的内容,我们通过音素覆盖的计算设计出冬冬发音人需要录制的文案。在录音人不同状态下录制的音频可能会出现较大的差异,在录制的过程中,需要录音指导,在录音完成后,进行数据质检。音频的质量决定了定制声音的上限,为了保证得到的录音音频能够有较好的一致性,与传统的人工质检不同,我们根据音频特征进行自动化的风格一致性筛选,且经过筛选音频的数量也能保证音素覆盖。

image.png

❄️ PART #03 数据标注

可以通过ASR进行自动标注,但也需要人工进行检验和调整。



❄️ PART #04 模型训练、调优及部署

为了达到高表现力的定制效果,达摩院语音实验室自研KAN-TTS模型能够使得韵律更加自然,HIFI-TTS模型能够使得合成音频音质更优,情感TTS则丰富了说话人的情感和说话风格。最终结合三者,我们的冬冬能够实现主持人和脱口秀的两种风格自由切换,在自然度综合评测上98%接近原始目标发音人。得到调优后的TTS模型后,冬冬的声音依托于阿里云,可供冬奥会期间全天候时长的语音播报使用

image.png

跟冬冬的定制流程一样,你想要的任何精品声音的定制都可以通过这四部曲来进行。


冬冬的声音属于独家版权,目前仅供定制方使用。但我们在阿里云上提供了不受限制的多种场景、多种语音、多种口音的约百种语音合成定制声音,有客服艾夏、文学艾媛、直播场景小仙等,在超高清一栏,还有舌尖上的中国同款音色知厨。


image.gif


我们也提供了不同层级的语音定制,除了像冬冬一样,精品的声音有一听可知的定制效果;还有能保证少量音频即可完成较好的合成效果,普通人也能定制属于自己的TTS音色,即个性化人声定制。


image.png


Future Work

从标准定制到个性化定制,着力高表现力的合成语音,是我们未来技术重点打磨的方向之一。我们通过使用显隐式韵律建模,提高单句文本时的韵律起伏和韵律还原度;对长文本建模,尤其加强句首、句尾的韵律连续性和彼此影响,增强段落文本时的上下文韵律;融入例如磕绊、重复、语气词等,提升合成音频真实感,以期实现稳定可靠的高采样率高音质高表现力的合成效果。

目录
相关文章
|
3月前
|
XML 监控 网络协议
云深处绝影四足机器人协议学习解析
本文详细介绍并解析了云深处绝影X20四足机器人的通信协议,包括TCP服务端端口号、基于Service的请求/响应通信机制、通信帧结构、消息类型、常见的通信示例如获取状态和导航请求,以及运动控制的参数和命令。文中还提出了对协议中某些未明确说明或可能存在的问题的疑惑。
46 0
云深处绝影四足机器人协议学习解析
|
1月前
|
移动开发 Linux PHP
群雄逐鹿,谁主沉浮?三国战纪H5游戏详细图文架设教程
群雄逐鹿,谁主沉浮?三国战纪H5游戏详细图文架设教程
|
3月前
|
机器学习/深度学习 自然语言处理 算法
尖叫!FunAudioLLM 技术掀起狂潮,开启语音交互的惊天巨变之门!
【8月更文挑战第8天】随着科技的进步,语音交互已成为日常不可或缺的部分。FunAudioLLM凭借其先进的自然语言处理和深度学习技术,在语音理解和生成方面实现了突破。相较于传统技术,它提升了理解和响应速度。通过简单的Python代码示例,我们可以测试其对如天气查询等指令的快速准确反馈。FunAudioLLM不仅适用于日常交流,还在医疗、教育等领域展现出应用潜力。尽管存在多语言环境下的准确性挑战,其为语音交互领域带来的革新仍值得期待。随着技术的持续发展,FunAudioLLM将为更多领域带来便利和效率。
67 0
|
边缘计算 运维 算法
超越感官,沉浸赛场——大型体育赛事云上实战精选-第六章 CUBA:“自由视角”的畅快赛事-5G+边缘计算+自由视角,让体育赛事更畅快
超越感官,沉浸赛场——大型体育赛事云上实战精选-第六章 CUBA:“自由视角”的畅快赛事-5G+边缘计算+自由视角,让体育赛事更畅快
223 0
|
缓存 监控 网络协议
互动直播还有多远?从三大技术难题说起
2个月前,我在某直播平台上看了一场游戏直播,那叫一个难受,连延迟带卡顿,看到后半场卡的我直上厕所,回来后发现画面虽变了但仍旧卡,一气之下果断的关了直播。上个月去上海参加华为手机的发布会,想在现场做一下直播,移动4G竟然连信号都没有,只能退回到3G网络在朋友群发一些图片。面对移动网络的问题,只能是沉默再沉默了。
161 0
互动直播还有多远?从三大技术难题说起
下一篇
无影云桌面