如今,在自媒体创作视频配音以及虚拟人需要结合2D图像乃至3D建模与人交流的需求等一些新涌现的需求下,对TTS的要求除了需要将文本变成对应的语音,也需要将合成语音变得更具有表现力,韵律、音质和情感上都更加贴近真人。
那么如何定制一款具有高表现力的声音呢?我们从冬奥虚拟主持人冬冬说起。
,时长01:50
❄️ PART #01 发音人挑选
首先需要明确想要的声音是什么样子的,我们称之为声音画像——“像十八九岁的少女,有一口标准的普通话,音色清甜、具有运动感,时尚活泼,如行走的张子枫”,根据这样的描述,我们让多个发音人进行一两句特定语句的试音。
与传统的发音人直接挑选不同,我们这里采用个性化语音合成技术(PTTS)进行合成效果的评估,根据发音人仅有的一两句试音,来合成其他特定文案的音频,而后根据原始音频和初步合成效果进行一个综合的评估来确定目标发音人。
❄️ PART #02 录音环节
为了保证音频效果稳定和高质量,我们把冬冬的目标发音人请到符合录制要求的录音棚中。而后,根据冬奥主持素材和通用场景的内容,我们通过音素覆盖的计算设计出冬冬发音人需要录制的文案。在录音人不同状态下录制的音频可能会出现较大的差异,在录制的过程中,需要录音指导,在录音完成后,进行数据质检。音频的质量决定了定制声音的上限,为了保证得到的录音音频能够有较好的一致性,与传统的人工质检不同,我们根据音频特征进行自动化的风格一致性筛选,且经过筛选音频的数量也能保证音素覆盖。
❄️ PART #03 数据标注
可以通过ASR进行自动标注,但也需要人工进行检验和调整。
❄️ PART #04 模型训练、调优及部署
为了达到高表现力的定制效果,达摩院语音实验室自研KAN-TTS模型能够使得韵律更加自然,HIFI-TTS模型能够使得合成音频音质更优,情感TTS则丰富了说话人的情感和说话风格。最终结合三者,我们的冬冬能够实现主持人和脱口秀的两种风格自由切换,在自然度综合评测上98%接近原始目标发音人。得到调优后的TTS模型后,冬冬的声音依托于阿里云,可供冬奥会期间全天候时长的语音播报使用。
跟冬冬的定制流程一样,你想要的任何精品声音的定制都可以通过这四部曲来进行。
冬冬的声音属于独家版权,目前仅供定制方使用。但我们在阿里云上提供了不受限制的多种场景、多种语音、多种口音的约百种语音合成定制声音,有客服艾夏、文学艾媛、直播场景小仙等,在超高清一栏,还有舌尖上的中国同款音色知厨。
我们也提供了不同层级的语音定制,除了像冬冬一样,精品的声音有一听可知的定制效果;还有能保证少量音频即可完成较好的合成效果,普通人也能定制属于自己的TTS音色,即个性化人声定制。
Future Work
从标准定制到个性化定制,着力高表现力的合成语音,是我们未来技术重点打磨的方向之一。我们通过使用显隐式韵律建模,提高单句文本时的韵律起伏和韵律还原度;对长文本建模,尤其加强句首、句尾的韵律连续性和彼此影响,增强段落文本时的上下文韵律;融入例如磕绊、重复、语气词等,提升合成音频真实感,以期实现稳定可靠的高采样率高音质高表现力的合成效果。