首个支持普通话和方言混说的TTS大模型：河南话、上海话、粤语说得溜-阿里云开发者社区

首个支持普通话和方言混说的TTS大模型：河南话、上海话、粤语说得溜

2024-09-06 300

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【9月更文挑战第6天】近年来，人工智能技术的进步推动了文本到语音（TTS）系统的高质量语音生成能力。针对现有TTS系统在中文方言生成上的不足，研究人员开发了Bailing-TTS模型。此模型利用大规模数据集与连续半监督学习方法，结合特定的Transformer架构及多阶段训练流程，实现了自然流畅的方言语音合成。实验结果显示，Bailing-TTS在客观和主观测试中均能生成接近真实的人类发音，并具备零样本学习能力。尽管仍面临复杂方言质量和多样性等挑战，但Bailing-TTS为中文方言语音合成提供了新的可能，并有望在未来技术发展中发挥更大作用。

近年来，随着人工智能技术的发展，文本到语音（TTS）系统在生成高质量语音方面取得了显著进步。然而，在生成中文方言语音方面，这些系统仍然存在一些不足。为了解决这个问题，研究人员提出了一种名为Bailing-TTS的新型TTS大模型，该模型能够生成高质量的中文方言语音。

Bailing-TTS是一种基于大型数据集的TTS模型，它通过使用连续的半监督学习方法，实现了文本和语音标记之间的有效对齐。此外，该模型还采用了一种特定的Transformer架构和多阶段训练过程，以进一步提高方言语音的生成质量。

Bailing-TTS的主要创新之处在于其能够生成高质量的中文方言语音。与传统的TTS系统相比，Bailing-TTS在生成方言语音时更加自然和流畅。这得益于其独特的网络架构和训练策略，使得模型能够更好地理解和生成方言语音。

实验结果表明，Bailing-TTS在生成中文方言语音方面表现出色。无论是在客观指标还是主观评价上，Bailing-TTS都能够生成与人类发音相似的高质量方言语音。此外，该模型还具有出色的零样本学习能力，能够在没有特定方言数据的情况下生成高质量的方言语音。

然而，尽管Bailing-TTS在生成方言语音方面取得了显著进展，但仍存在一些挑战和限制。首先，方言语音的生成质量仍然有待提高，特别是在一些复杂的方言中。其次，方言语音的多样性和变化性也给模型的训练和生成带来了一定的困难。此外，方言语音的标注和数据集的构建也是一个挑战，因为方言语音的标注通常比普通话语音更加复杂和困难。

尽管如此，Bailing-TTS的出现为中文方言语音的生成提供了一种新的解决方案。它不仅能够生成高质量的方言语音，还能够支持普通话和方言的混合发音，为语音合成应用提供了更广阔的空间。未来，随着技术的不断进步和数据集的不断完善，相信Bailing-TTS的性能将进一步提升，为中文语音合成领域的发展做出更大的贡献。

ArXiv: https://arxiv.org/pdf/2408.00284