驱动“超真人”虚拟助手Maya的实时语音对话模型CSM-1b开源!

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 3月14日,创造出病毒级虚拟助手 Maya 的Sesame团队开源了他们的语音生成模型 CSM-1b,可根据文本和音频输入生成 RVQ 音频代码。这意味着,我们每个人都可以0成本拥有一个真正的AI伴侣了,甚至可以自己动手搭建、测试和改进模型。

3月14日,创造出病毒级虚拟助手 Maya 的Sesame团队开源了他们的语音生成模型 CSM-1b,可根据文本和音频输入生成 RVQ 音频代码。这意味着,我们每个人都可以0成本拥有一个真正的AI伴侣了,甚至可以自己动手搭建、测试和改进模型。

模型尺寸:Sesame训练了三种模型大小,由backbone和解码器大小划分:

  • Tiny:1B backbone,100M 解码器
  • Small:3B backbone,250M 解码器
  • Medium:8B backbone,300M 解码器

本次Sesame开源的模型是tiny版本 CSM-1b,开源模型在魔搭社区和HuggingFace都可以下载到。一个微调版的CSM可以在Sesame官网博客文章中展示的交互式语音演示中体验。

模型:

https://www.modelscope.cn/models/sesameAILabs/csm-1b

CSM-1B体验:

https://modelscope.cn/studios/sesameAILabs/csm-1b/summary

微调版CSM体验(Maya效果):

Sesame官网:https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice

01.会话语音模型

模型结构

CSM 是一种直接对 RVQ 标记进行操作的多模态文本和语音模型,使用了两个自回归变换器,在第零个码本处拆分变换器。第一个多模态主干网络处理交错的文本和音频以对第零个码本进行建模。第二个音频解码器对每个码本使用不同的线性头,并对剩余的 N – 1 个码本进行建模,以根据主干网络的表示重建语音。解码器比主干网络小得多,从而能够实现低延迟生成,同时保持模型的端到端。

CSM 模型推理过程

这两个转换器都是 Llama 架构的变体。文本标记通过 Llama 标记器生成,而音频则使用 Mimi(一种 split-RVQ 标记器)进行处理,以 12.5 Hz 的频率每帧生成一个语义码本和 N – 1 个声学码本。训练样本的结构为文本和音频的交替交错模式,说话者身份直接编码在文本表示中。

计算摊销

这种设计在训练过程中带来了巨大的基础设施挑战。音频解码器自回归处理有效批量大小为 B × S 和 N 个码本,即使模型很小,这种高内存负担也会减慢训练速度、限制模型扩展并阻碍快速实验。

为了应对这些挑战,该团队提出一种计算摊销方案,该方案可以缓解内存瓶颈,同时保持完整 RVQ 码本的保真度。音频解码器仅在音频帧的随机 1/16 子集上进行训练,而第零码本则在每个帧上进行训练。使用这种方法时,在训练过程中没有观察到音频解码器损失的明显差异。

摊销训练过程

效果评估

评估套件从四个关键方面衡量模型性能:文本忠实度、上下文利用率、韵律和延迟,从客观和主观指标两个方面进行全面的评估。

客观指标

传统基准,例如词错误率(WER)和说话人相似度(SIM),已经饱和,而包括 CSM 在内的现代模型现在在这些指标上实现了接近人类的表现。

词语错误率(Word Error Rate)和说话人相似度(Speaker Similarity)测试的客观指标结果显示,指标已饱和(与人类表现相匹配)。

为了更好地评估发音和上下文理解,Sesame引入了一套新的基于语音转录的基准。

  • 通过同形异义词消歧理解文本: 评估模型是否正确发音具有相同拼写的不同单词(例如,“lead” /lɛd/ 与“lead” /liːd/)。
  • 通过发音连续一致性理解音频: 评估模型是否能保持多轮语音中具有多种发音变体的特定单词的发音一致性。一个例子是“route”(/raʊt/ 或 /ruːt/),它会根据说话者所在地区和上下文而变化。

同形异义词消歧(Homograph Disambiguation)和发音一致性(Pronunciation Consistency)测试的客观指标结果,衡量每个模型正确发音的准确率百分比。下图比较了三种模型大小的客观指标结果。从同形异义词准确率和发音一致性的评估结果观察到,模型越大,性能越佳。这个结果支持了我们的假设,即缩放可以增强更真实语音的合成。

主观指标

Sesame团队使用Expresso数据集评估 CSM-Medium 生成的语音的自然度和韵律适宜性。向人类评估者展示成对的音频样本 - 一个由模型生成,另一个是真实的人类录音。听众根据 7 分偏好量表对生成的样本进行评分。

具体来说,在第一个 CMOS 研究中,提供了没有语境的生成音频和人类音频样本,并要求听众“选择哪种演绎更像人类语音”。在第二个 CMOS 研究中,提供了前 90 秒的音频和文本语境,并要求听众“选择哪种演绎更像对话的延续”。八十人受雇参与评估,平均每人对 15 个示例进行评分。

下图为Expresso 数据集上的主观评价结果。

无上下文:听众在不了解上下文的情况下选择“哪种演绎感觉更像人类语音” 。

上下文:听众在了解音频和文本上下文的情况下选择“哪种演绎感觉更适合继续对话”。

50:50 的胜负比表明听众没有明确的偏好。

上图显示了两项研究中真实人类录音与 CSM 生成的语音样本的胜率。在没有对话语境的情况下(顶部),人类评估者对生成的语音和真实语音没有明显的偏好,这表明自然度已经饱和。然而,当包含语境时(底部),评估者始终青睐原始录音。这些发现表明,在对话语音生成中,生成的语音和人类的韵律之间仍然存在明显的差距。

02.最佳实践

魔搭社区开发者第一时间部署体验了这个模型,本部分教你如何一步步在魔搭平台的notebook上运行CSM-1b模型。

step1: 申请魔搭免费实例

notebook地址:https://www.modelscope.cn/my/mynotebook

点击terminal,打开终端

step2:克隆代码

本次拉取的代码为基于gradio开发的版本,模型托管在modelscope上

git clone https://oauth2:Lj_V_qf8NsjT2RoCksjr@www.modelscope.cn/studios/sesameAILabs/csm-1b.git

step3:安装依赖

cd csm-1b
pip install -r requirements.txt

step4:运行命令

# 声明两个环境变量
export MS_TOKEN='xxxx' # MS_TOKEN 从https://www.modelscope.cn/my/myaccesstoken 获取
export WATERMARK_KEY="123 234 111 222 11"
cd csm-1b
python app.py

Github:

https://github.com/SesameAILabs/csm?tab=readme-ov-file

点击链接阅读原文,直达体验

csm-1b

目录
打赏
0
1
1
0
232
分享
相关文章
阿里语音AI提供了个性化人声定制功能
【2月更文挑战第24天】阿里语音AI提供了个性化人声定制功能
836 2
Weebo:支持多语言和实时语音交流的开源 AI 聊天机器人,回复具备语调、情感的语音
Weebo 是一款基于 Whisper Small、Llama 3.2 和 Kokoro-82M 技术的 AI 语音聊天机器人,支持实时语音交互和多语言对话,适用于个人助理、娱乐互动和教育辅导等多种场景。
308 17
Weebo:支持多语言和实时语音交流的开源 AI 聊天机器人,回复具备语调、情感的语音
三行代码实现实时语音转文本,支持自动断句和语音唤醒,用 RealtimeSTT 轻松创建高效语音 AI 助手
RealtimeSTT 是一款开源的实时语音转文本库,支持低延迟应用,具备语音活动检测、唤醒词激活等功能,适用于语音助手、实时字幕等场景。
449 18
三行代码实现实时语音转文本,支持自动断句和语音唤醒,用 RealtimeSTT 轻松创建高效语音 AI 助手
GLM-Realtime:智谱推出多模态交互AI模型,融入清唱功能,支持视频和语音交互
GLM-Realtime 是智谱推出的端到端多模态模型,具备低延迟的视频理解与语音交互能力,支持清唱功能、2分钟内容记忆及灵活调用外部工具,适用于多种智能场景。
109 4
GLM-Realtime:智谱推出多模态交互AI模型,融入清唱功能,支持视频和语音交互
Voice-Pro:开源AI音频处理工具,集成转录、翻译、TTS等一站式服务
Voice-Pro是一款开源的多功能音频处理工具,集成了语音转文字、文本转语音、实时翻译、YouTube视频下载和人声分离等多种功能。它支持超过100种语言,适用于教育、娱乐和商业等多个领域,为用户提供一站式的音频处理解决方案,极大地提高工作效率和音频处理的便捷性。
295 10
Voice-Pro:开源AI音频处理工具,集成转录、翻译、TTS等一站式服务
Fugatto:英伟达推出的多功能AI音频生成模型
Fugatto是由英伟达推出的多功能AI音频生成模型,能够根据文本提示生成音频或视频,并修改现有音频文件。该模型基于增强型的Transformer模型,支持复杂的组合指令,具有强大的音频生成与转换能力,广泛应用于音乐创作、声音设计、语音合成等领域。
214 1
Fugatto:英伟达推出的多功能AI音频生成模型
前沿探索:融合语音克隆与TTS技术实现个性化语音助手
【10月更文挑战第20天】随着人工智能技术的迅猛发展,语音助手已经成为我们日常生活不可或缺的一部分。然而,传统的语音助手往往缺乏个性化元素,无法充分满足用户的独特需求。作为技术专家或研究人员,我一直致力于探索如何将语音克隆(Voice Cloning)技术与文本到语音(Text-to-Speech, TTS)技术相结合,创造出更加个性化且自然流畅的语音助手。本文将分享我的研究成果和个人观点,希望能为这一领域的未来发展提供一些启示。
161 2
前沿探索:融合语音克隆与TTS技术实现个性化语音助手
|
5月前
|
三文带你轻松上手鸿蒙的AI语音03-文本合成声音
三文带你轻松上手鸿蒙的AI语音03-文本合成声音
154 1
三文带你轻松上手鸿蒙的AI语音03-文本合成声音
三文带你轻松上手鸿蒙的AI语音01-实时语音识别
三文带你轻松上手鸿蒙的AI语音01-实时语音识别
143 0
三文带你轻松上手鸿蒙的AI语音01-实时语音识别
交大x-lance跨媒体语言智能实验室等联合开源F5-TTS!零样本语音复刻,生成流畅,情感丰富!
上海交大x-lance跨媒体语言智能实验室联合剑桥大学、吉利汽车研究院(宁波)公司开源了一种基于流匹配的扩散变换器(Diffusion Transformer,DiT)的完全非自回归TTS模型-F5-TTS。

热门文章

最新文章