“柯南领结”变成现实,字节跳动智创语音团队SAMI发布新一代实时AI变声方案

简介: “柯南领结”变成现实,字节跳动智创语音团队SAMI发布新一代实时AI变声方案

字节跳动智能创作语音团队 SAMI(Speech, Audio and Music Intelligence)近日发布了新一代的低延迟、超拟人的实时 AI 变声技术。不同于传统的变声,AI 变声是基于深度学习的声音转换(Voice Conversion)技术来实现的,可以实现任意发音人的音色定制,极大程度保留原始音色的特点。

该方案的亮点如下:

  • 在 CPU 单核上就能做到极低延迟的实时输入实时变声,就像 “柯南领结” 一样;
  • 能够高度还原输入语音的抑扬顿挫、情感、口音,甚至连轻微的呼吸、咳嗽声也能还原;
  • 媲美真人的高保真音质,以及高度的目标音色一致性;


从语音合成到声音转换:探索更多元的声音玩法
语音合成作为人工智能的一个重要分支,旨在通过输入文字,经由人工智能的算法,合成像真人语音一样自然的音频,该技术已被广泛的应用于音视频创作场景中。而相比语音合成,声音转换创造了新的语音交互形式:其不再需要输入文字,而是根据用户输入的说话音频,将音频中的音色转换到目标发音人上,并保持说话内容、韵律情感等一致。相较于输入文本,输入音频包含了更丰富的副语言信息,例如各个段落的情感、抑扬顿挫、停顿等。声音转换能够做到改变音色的同时,将这些副语言信息很好的还原:



同基于深度学习的语音合成一样,声音转换的模型也由声学模型(acoustic model)和声码器(vocoder)组成。声学模型通过内容编码器从输入音频中提取出发音内容序列,并通过音色编码器从参考音频中提取出音色特征,最后通过声音转换模型生成带有输入音频内容和参考音频音色的频谱;声码器负责将声学模型生成的频谱还原为能够被设备直接播放的音频采样点:


面向实时场景的声音转换模型优化
相较于非实时场景下对完整音频的声音转换,实时声音转换有着更加丰富的落地场景。典型的场景包括直播、虚拟人这类实时交互的娱乐场景,变声的结果需要在很短的延迟内实时流式的生成,才能保证音画同步。

实时声音转换的难点在于:1. 模型在每个时刻只能获取到很短的未来音频片段,因此发音内容的正确识别更加困难;2. 流式推理的实时率(计算时长 / 音频时长)需要稳定小于 1,因此在设计模型时需要更加关注推理性能。这给研发人员带来了更大的挑战,一方面需要通过设计合理的模型结构来降低模型感受野和推理延时,另一方面需要尽可能保证变声的发音内容、音色和音质不受影响。

为了达到上述要求,研究人员对模型进行了一系列改进,使得模型的首包延时压缩到 250ms 左右。实时声音转换的整体框架如下:


对于内容编码器,研究人员采用细粒度发音提取模块代替了传统基于音素后验概率的方法,使得更多的发音细节、韵律情感能够被保留下来,且显著降低了对模型感受野的要求;对于声音转换模型,研究人员结合了 chunk 级别的信息编码和帧级别的自回归解码,并引入了基于教师指导的训练机制,从而确保了生成频谱的发音、音质和音色足够好;对于声码器,研究人员通过精巧的模型结构设计大大压缩了感受野,并通过对抗生成训练提高了生成音频的自然度。

现实版“柯南领结”:各种复杂场景不在话下
现实的语音交互中往往包含许多复杂的场景,使得现有大部分的 AI 变声系统的转换结果变得极不自然。例如,当用户输入中包含叹气、咳嗽这类声音时,现有系统倾向于对其过滤而非保留,从而导致用户想表达的副语言信息的丢失。并且,现有系统的跨域性能较差,从而导致用户进行多语种 / 方言输入时,无法转换出正确的内容。此外,现有系统在低延迟场景下的转换结果容易出现发音错误与音色不稳定的问题。

相较于现有系统,本系统在各个场景下的转换效果均显著提升。以下视频演示了无网环境下在 Macbook 上的实时流式变声效果。用户通过蓝牙耳机实时输入语音,

SAMI 的新一代 AI 变声系统对于复杂场景的适应性显著提升。这项声音转换服务可以支持云端在线服务形式输出,也支持本地化部署。未来在虚拟人、短视频玩法、客服服务、直播互动玩法上有着很大的落地空间。

目前这项技术已经可以在火山引擎 - 音频技术下的声音转换模块(电脑端点击「阅读原文」体验和开通。针对一些商业化的合作,特别是发音人的音色定制会严格审核音色的版权和授权许可。一些实时性要求比较高的业务,可以通过火山留资页沟通实时转换方案。

声音转换模块链接:https://www.volcengine.com/product/Voice-conversion

火山留资页https://www.volcengine.com/contact/product?t=Voice-conversion


相关文章
|
4月前
|
人工智能 文字识别 监控
|
8月前
|
人工智能 文字识别 安全
趣丸千音MCP首发上线魔搭社区,多重技术引擎,解锁AI语音无限可能
近日,趣丸千音(All Voice Lab)MCP正式首发上线魔搭社区。用户只需简单文本输入,即可调用视频翻译、TTS语音合成、智能变声、人声分离、多语种配音、语音转文本、字幕擦除等多项能力。
879 32
|
7月前
|
传感器 机器学习/深度学习 人工智能
从仿真到现实:数字孪生解锁具身AI全景应用
Embodied AI正在重塑智能机器人系统的格局,尤其通过为复杂且动态的环境中的行动执行提供许多现实可行的解决方案。然而,具身AI需要生成大量数据用于训练和评估,以确保其与物理环境交互的安全性。因此,有必要构建一个成本效益高的模拟环境,能够从物理特性、物体属性及交互中提供充足的训练和优化数据。Digital Twins是工业5.0中的关键议题,它通过镜像真实世界对应体的状态和行动,实现对物理过程的实时监控、模拟与优化。本综述探讨了将数字孪生与具身AI结合的方式,通过将虚拟环境转化为动态且数据丰富的平台,弥合仿真与现实之间的差距。
867 7
|
7月前
|
人工智能 Android开发 iOS开发
安卓版快捷指令,加了AI语音可以一句话操作v0.2.7
Shortcuts for Android(SFA)是一款安卓自动化工具,支持语音创建快捷指令,实现听歌、导航、发消息等操作。操作简单,提升效率,快来体验语音控制的便捷!
988 0
安卓版快捷指令,加了AI语音可以一句话操作v0.2.7
|
7月前
|
人工智能 自然语言处理 语音技术
深度解析:AI语音客服系统如何重塑客户服务体验与主流解决方案探析
在数字化浪潮下,AI语音客服凭借高效、便捷、24小时在线的优势,成为企业提升服务效率、优化体验的重要工具。本文详解其核心技术、应用价值、选型要点及市场主流方案,如阿里云通义晓蜜、合力亿捷等,助力企业智能化升级。
549 1
|
8月前
|
人工智能 移动开发 开发工具
H5录音、图文视频IndexDB储存最佳实践:用AI生成语音备忘录
随心记是一个由 AI 生成的网页备忘录,它支持语音录入(可下载)、图文视频记录。最重要的是,它支持离线使用,所有数据都储存在浏览器中,不依赖后端,刷新页面数据也不会丢失!
282 0
H5录音、图文视频IndexDB储存最佳实践:用AI生成语音备忘录
|
7月前
|
存储 人工智能 Java
Springboot集成AI Springboot3 集成阿里云百炼大模型CosyVoice2 实现Ai克隆语音(未持久化存储)
本项目基于Spring Boot 3.5.3与Java 17,集成阿里云百炼大模型CosyVoice2实现音色克隆与语音合成。内容涵盖项目搭建、音色创建、音频合成、音色管理等功能,适用于希望快速掌握Spring Boot集成语音AI技术的开发者。需提前注册阿里云并获取API Key。
|
8月前
|
机器学习/深度学习 人工智能 测试技术
让大模型“言简意赅”:马里兰大学团队破解AI推理冗长之谜
说到底,这项研究解决的是一个非常实际的问题:如何让强大的AI推理模型变得更加"经济实用"。通过巧妙的训练策略,研究团队成功地让模型学会了"话不多说,直击要点"的能力。这不仅提高了计算效率,也为AI技术的普及应用扫除了一个重要障碍。对于普通用户而言,这意味着未来我们能够以更低的成本享受到更高质量的AI推理服务。对于研究者和开发者来说,这项工作为优化AI模型性能提供了新的视角和工具。归根结底,这是一项让AI变得更聪明、更高效的研究,值得我们持续关注其后续发展。