语音克隆达到人类水平，微软全新VALL-E 2模型让DeepFake堪比配音员-阿里云开发者社区

语音克隆达到人类水平，微软全新VALL-E 2模型让DeepFake堪比配音员

2024-08-10 182 发布于北京

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【8月更文挑战第10天】微软的VALL-E 2模型标志零样本语音合成新高度，通过重复感知采样与分组编码建模，显著提升语音合成的稳定性与效率。在LibriSpeech等数据集上，VALL-E 2的语音自然度与说话者相似度超越前代和其他系统，达到人类水平。然而，其卓越性能也引发了潜在滥用风险的关注。尽管如此，VALL-E 2在辅助沟通、教育、娱乐等领域的应用前景广阔。[论文](https://arxiv.org/pdf/2406.05370)

近年来，随着深度学习技术的飞速发展，人工智能在各个领域的应用不断突破人们的想象。特别是在语音合成领域，最新的研究成果更是让人眼前一亮。微软研究院推出的VALL-E 2模型，标志着零样本文本到语音合成（TTS）技术达到了一个新的高度，甚至在某些方面超越了人类的表现。

VALL-E 2模型是在其前身VALL-E的基础上进行改进的。它通过两种主要的技术手段——重复感知采样和分组编码建模——显著提升了语音合成的稳定性和效率。重复感知采样通过在解码过程中考虑令牌重复，优化了原有的核心采样过程，不仅稳定了解码，还避免了无限循环的问题。而分组编码建模则通过将编码码分组，有效地缩短了序列长度，提高了推理速度，同时解决了长序列建模的挑战。

在LibriSpeech和VCTK数据集上的实验表明，VALL-E 2在语音的鲁棒性、自然度和说话者相似度方面均超越了以往的系统。它首次在这些基准测试中达到了与人类相媲美的水平。这意味着VALL-E 2能够生成高质量、自然的语音，即使是那些因复杂性或重复短语而传统上难以处理的句子，也能稳定地生成。

VALL-E 2的训练基于大规模的Libriheavy数据集，这使得它在不同领域的语音合成任务中表现出色。在LibriSpeech数据集上，VALL-E 2在鲁棒性、自然度和相似度评分上显著优于VALL-E及其他先前的工作。这些评分是基于原始论文中报告的结果计算的相对数值，显示了VALL-E 2在生成准确、自然语音方面的能力。

然而，VALL-E 2的卓越表现也引发了一些担忧。由于其能够生成保持说话者身份的语音，可能存在被滥用的风险，例如欺骗语音识别系统或冒充特定说话者。为此，微软在进行实验时假设用户同意成为语音合成的目标说话者，并建议在将模型推广到现实世界中未见过的说话者时，应包括一个协议，确保说话者同意使用他们的声音，并建立一个合成语音检测模型。

在实际应用中，VALL-E 2的潜力巨大。它可以用于为失语症患者或肌萎缩侧索硬化症患者生成语音，帮助他们在无法自然发声的情况下进行交流。此外，VALL-E 2还可以应用于教育学习、娱乐、新闻、自创内容、无障碍功能、交互式语音响应系统、翻译和聊天机器人等领域。

尽管VALL-E 2在技术上取得了显著进步，但其应用也需谨慎。模型的相似度和自然度依赖于语音提示的长度和质量、背景噪音等因素。因此，在使用VALL-E 2时，需要考虑这些因素对最终输出的影响。同时，微软也强调，VALL-E 2目前仅是一个研究项目，尚无计划将其纳入产品或向公众开放。

论文地址：https://arxiv.org/pdf/2406.05370

语音克隆达到人类水平，微软全新VALL-E 2模型让DeepFake堪比配音员

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

直播

下载

镜像站

技术资料

语音克隆达到人类水平，微软全新VALL-E 2模型让DeepFake堪比配音员

热门文章

最新文章

相关课程

相关电子书

相关实验场景