近年来,随着人工智能技术的飞速发展,语音合成技术在各个领域得到了广泛应用。其中,基于大语言模型的语音合成系统因其出色的性能和广泛的适用性而备受关注。FireRedTTS 就是这样一种系统,它由郭浩瀚等人提出,旨在满足日益增长的个性化和多样化语音合成需求。
FireRedTTS 系统由三个主要部分组成:数据处理、基础系统和下游应用。首先,数据处理部分负责将海量的音频数据转化为大规模的高质量语音合成数据集,该数据集包含丰富的标注信息,涵盖了广泛的内容、说话风格和音色。这一步骤对于构建一个性能优良的语音合成系统至关重要,因为它直接影响到系统对不同语音特征的学习能力。
其次,基础系统部分采用了基于语言模型的架构。在这种架构中,语音信号被压缩为离散的语义标记,然后通过一个语义感知的语音标记器进行处理。这样,系统就可以根据提示文本和音频生成相应的语音信号。为了进一步提高语音质量,FireRedTTS 还提出了一种两阶段的波形生成器,用于将语义标记解码为高保真的波形信号。
在下游应用方面,FireRedTTS 系统展示了两个典型的应用场景:配音和聊天机器人。在配音应用中,FireRedTTS 能够以零样本的方式克隆目标语音,适用于用户生成内容(UGC)场景。而在专业用户生成内容(PUGC)场景中,通过少量样本的微调,FireRedTTS 能够适应工作室级别的表达性语音角色。在聊天机器人应用中,FireRedTTS 能够通过指令微调实现可控的类人语音合成,包括非正式风格、副语言行为和情感,从而更好地服务于口语聊天机器人。
实验结果表明,FireRedTTS 系统具有出色的上下文学习能力,能够稳定地合成与提示文本和音频一致的高质量语音。在配音任务中,FireRedTTS 能够仅使用1小时的录音数据进行微调,就实现对目标语音的克隆。而在聊天机器人应用中,FireRedTTS 能够根据不同的需求生成具有特定风格、情感和副语言行为的语音,为用户提供更加自然和个性化的交互体验。
然而,FireRedTTS 系统也存在一些潜在的挑战和限制。首先,由于语音合成技术的复杂性,FireRedTTS 系统可能需要大量的计算资源和训练数据来达到最佳性能。这对于一些资源有限的应用场景可能是一个挑战。其次,尽管 FireRedTTS 系统在合成类人语音方面取得了显著进展,但要实现完全自然和真实的语音合成仍然是一个挑战。这涉及到对语音的韵律、语调、情感等多个方面的精确建模,而这些方面在目前的语音合成技术中仍然存在一定的局限性。
技术报告及 Demo 链接:https://arxiv.org/abs/2409.03283