定制语音四部曲,从冬奥虚拟主持人说起

简介: “冰雪是冬天的礼物;而我,最懂冰雪的快乐。驭冰雪是我独具的智慧。想要玩转冰雪的更多可能?跟上我,去未来!” 当冬奥虚拟主持人冬冬以语音合成的方式说出这句话时,原始发音人吃惊地告诉我们,她已经分不出来这究竟是不是她说的。什么是语音合成?顾名思义,就是将文本变成语音,即TTS(text-to-speech)。

image.png

如今,在自媒体创作视频配音以及虚拟人需要结合2D图像乃至3D建模与人交流的需求等一些新涌现的需求下,对TTS的要求除了需要将文本变成对应的语音,也需要将合成语音变得更具有表现力,韵律、音质和情感上都更加贴近真人。


那么如何定制一款具有高表现力的声音呢?我们从冬奥虚拟主持人冬冬说起。


,时长01:50


❄️ PART #01 发音人挑选

首先需要明确想要的声音是什么样子的,我们称之为声音画像——“像十八九岁的少女,有一口标准的普通话,音色清甜、具有运动感,时尚活泼,如行走的张子枫”,根据这样的描述,我们让多个发音人进行一两句特定语句的试音。

与传统的发音人直接挑选不同,我们这里采用个性化语音合成技术(PTTS)进行合成效果的评估,根据发音人仅有的一两句试音,来合成其他特定文案的音频,而后根据原始音频和初步合成效果进行一个综合的评估来确定目标发音人。

image.png


❄️ PART #02 录音环节

为了保证音频效果稳定和高质量,我们把冬冬的目标发音人请到符合录制要求的录音棚中。而后,根据冬奥主持素材和通用场景的内容,我们通过音素覆盖的计算设计出冬冬发音人需要录制的文案。在录音人不同状态下录制的音频可能会出现较大的差异,在录制的过程中,需要录音指导,在录音完成后,进行数据质检。音频的质量决定了定制声音的上限,为了保证得到的录音音频能够有较好的一致性,与传统的人工质检不同,我们根据音频特征进行自动化的风格一致性筛选,且经过筛选音频的数量也能保证音素覆盖。

image.png

❄️ PART #03 数据标注

可以通过ASR进行自动标注,但也需要人工进行检验和调整。



❄️ PART #04 模型训练、调优及部署

为了达到高表现力的定制效果,达摩院语音实验室自研KAN-TTS模型能够使得韵律更加自然,HIFI-TTS模型能够使得合成音频音质更优,情感TTS则丰富了说话人的情感和说话风格。最终结合三者,我们的冬冬能够实现主持人和脱口秀的两种风格自由切换,在自然度综合评测上98%接近原始目标发音人。得到调优后的TTS模型后,冬冬的声音依托于阿里云,可供冬奥会期间全天候时长的语音播报使用

image.png

跟冬冬的定制流程一样,你想要的任何精品声音的定制都可以通过这四部曲来进行。


冬冬的声音属于独家版权,目前仅供定制方使用。但我们在阿里云上提供了不受限制的多种场景、多种语音、多种口音的约百种语音合成定制声音,有客服艾夏、文学艾媛、直播场景小仙等,在超高清一栏,还有舌尖上的中国同款音色知厨。


image.gif


我们也提供了不同层级的语音定制,除了像冬冬一样,精品的声音有一听可知的定制效果;还有能保证少量音频即可完成较好的合成效果,普通人也能定制属于自己的TTS音色,即个性化人声定制。


image.png


Future Work

从标准定制到个性化定制,着力高表现力的合成语音,是我们未来技术重点打磨的方向之一。我们通过使用显隐式韵律建模,提高单句文本时的韵律起伏和韵律还原度;对长文本建模,尤其加强句首、句尾的韵律连续性和彼此影响,增强段落文本时的上下文韵律;融入例如磕绊、重复、语气词等,提升合成音频真实感,以期实现稳定可靠的高采样率高音质高表现力的合成效果。

目录
相关文章
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
【EMNLP2024】阿里云人工智能平台 PAI 多篇论文入选 EMNLP2024
阿里云人工智能平台 PAI 的多篇论文在 EMNLP2024 上入选。论文成果是阿里云与华南理工大学金连文教授团队、复旦大学王鹏教授团队共同研发。EMNLP 是人工智能自然语言处理领域的顶级国际会议,聚焦于自然语言处理技术在各个应用场景的学术研究,尤其重视自然语言处理的实证研究。该会议曾推动了预训练语言模型、文本挖掘、对话系统、机器翻译等自然语言处理领域的核心创新,在学术和工业界都有巨大的影响力。此次入选标志着阿里云人工智能平台 PAI 在自然语言处理和多模态算法能力方面研究获得了学术界认可。
|
存储 缓存 算法
Linux中的红黑树(rbtree)【ChatGPT】
Linux中的红黑树(rbtree)【ChatGPT】
148 13
|
监控 安全 测试技术
现在公司都在用的CI/CD框架到底是什么?
现在公司都在用的CI/CD框架到底是什么?
5280 1
|
传感器 算法 机器人
基于 IMU 的位姿解算
解算 IMU 采样数据的过程与惯导解算技术原理有关,而提高定位精度的方法主要依赖于IMU自身精度的提高和算法改进。
1664 0
|
人工智能 分布式计算 数据可视化
大数据导论
大数据导论
186 0
|
SQL 关系型数据库 MySQL
实时计算 Flink版产品使用合集之使用 MySQL CDC 进行数据同步时,设置 server_id 参数如何解决
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
存储 设计模式 Python
Python中的类(Class)和对象(Object)
Python中的类(Class)和对象(Object)
376 0
|
JavaScript 前端开发 安全
[前端学习]一文 Vue指令
[前端学习]一文 Vue指令
89 1
|
弹性计算
阿里云5大基础产品——ECS云服务器
阿里云5大基础产品——ECS云服务器自制脑图
368 1
阿里云5大基础产品——ECS云服务器
|
负载均衡 JavaScript 安全
vue配置反向代理的使用
vue配置反向代理的使用
337 0