CosyVoice是阿里巴巴通义实验室语音团队于今年7月份开源的语音生成大模型,依托大模型技术,实现自然流畅的语音生成体验。与传统语音生成技术相比,CosyVoice具有韵律自然、音色逼真等特点。自开源以来,CosyVoice凭借高品质的多语言语音生成、零样本语音生成、跨语言语音生成、富文本和自然语言的细粒度控制能力获得了广大社区开发者们的喜爱和支持。
如今,CosyVoice迎来全面升级,我们将发布CosyVoice2.0版本,提供更准、更稳、更快、 更好的语音生成能力。
超低延迟:CosyVoice 2.0提出了离线和流式一体化建模的语音生成大模型技术,支持双向流式语音合成,在基本不损失效果的情况下首包合成延迟可以达到150ms。
高准确度:CosyVoice 2.0合成音频的发音错误相比于CosyVoice 1.0相对下降30%~50%,在Seed-TTS测试集的hard测试集上取得当前最低的字错误率。合成绕口令、多音字、生僻字上具有明显的提升。
强稳定性:CosyVoice 2.0在零样本语音生成和跨语言语音合成上能够出色地保证音色一致性,特别是跨语言语音合成相比于1.0版本具有明显提升。
自然体验:CosyVoice 2.0合成音频的韵律、音质、情感匹配相比于1.0具有明显提升。MOS评测分从5.4提升到5.53(相同评测某商业化语音合成大模型为5.52)。同时, CosyVoice 2.0对于指令可控的音频生成也进行了升级,支持更多细粒度的情感控制,以及方言口音控制。
📂 代码仓库及体验链接
- GitHub仓库:CosyVoice(https://github.com/FunAudioLLM/CosyVoice)查阅最新更新的CosyVoice 2
- 在线体验DEMO:https://www.modelscope.cn/studios/iic/CosyVoice2-0.5B
- 开源代码:https://github.com/FunAudioLLM/CosyVoice
- 开源模型:https://www.modelscope.cn/models/iic/CosyVoice2-0.5B
▎核心模型与算法亮点
图1. CosyVoice 2 模型结构框图
图2. CosyVoice 2 离线和流式一体化建模方案
CosyVoice 2.0采用和CosyVoice 1一致的LLM+FM的建模框架,但是在具体实现上进行了如下几个要点的算法优化:
1)LLM backbone:CosyVoice 2.0采用预训练好的文本基座大模型(Qwen2.5-0.5B)替换了原来的Text Encoder + random Transformer的结构。采用LLM进行初始化能够更好的进行文本的语义建模,使得在可控生成,音频和文本的情感匹配,多音字发音上会有明显的收益。
2)FSQ Speech Tokenizer:CosyVoice 1.0采用VQ来提取Supervised semantic codec,码本大小为4096,但是有效码本只有963。CosyVoice 2.0采用了FSQ替换VQ,训练了6561的码本,并且码本100%激活。FSQ-Speech Tokenizer的使用使得CosyVoice 2.0在发音准确性上有明显提升。
3)离线和流式一体化建模方案:目前主流的语音生成大模型(CosyVoice, F5-TTS,MaskGCT,GPT-SoViTs等)均不支持流式语音生成。CosyVoice 2.0提出了如图2所示的离线和流式一体化建模方案,使得LLM和FM均支持流式推理,接收5个文字就可以合成首包音频,延迟大致在150ms。同时合成音质相比于离线合成基本无损。
4)指令可控的音频生成能力升级:优化后的 CosyVoice 2.0 在基模型和指令模型的整合上取得了重要进展,不仅延续了对情感、说话风格和细粒度控制指令的支持,还新增了中文指令的处理能力。其指令控制功能的扩展尤为显著,现已支持多种主要方言,包括粤语、四川话、郑州话、天津话和长沙话等,为用户提供了更丰富的语言选择。此外,CosyVoice 2.0 也引入了角色扮演的功能,如能够模仿机器人、小猪佩奇的风格讲话等。这些功能的提升还伴随着发音准确性和音色一致性的显著改善,为用户带来了更自然和生动的语音体验。
▎Demo show
🎧 音色复刻
原声音频:
影视原声,阿里语音AI12秒
(对,这就是我,万人敬仰的太乙真人,虽然有点婴儿肥,但也掩不住我逼人的帅气。)
复刻音频:
复刻音色,阿里语音AI,18秒
(不少人从四面八方赶来,只为目睹我的风采。看,他们眼中流露出的崇敬,足以让我感到自豪。我微微一笑,挥手致意,心中默念着:责任重大,不容懈怠。)
🎧 多语言合成
一个文本,分别用中文,英文,日语,韩语多个语言来说
多语言合成,阿里语音AI,34秒
(中文:CosyVoice迎来全面升级,提供更准、更稳、更快、 更好的语音生成能力。
英文:CosyVoice is undergoing a comprehensive upgrade, providing more accurate, stable, faster, and better voice generation capabilities.
日语:CosyVoiceは全面的なアップグレードを迎え、より正確で、安定し、速く、さらに優れた音声生成能力を提供します。
韩语:CosyVoice가 전면 업그레이드를 맞이하여, 더 정확하고, 더 안정적이며, 더 빠르고, 더 나은 음성 생성 능력을 제공합니다.)
🎧 混合语种合成
混合语种合成,阿里语音AI,16秒
(今天早上开会时,经理说我们需要加强time management时间管理技能,这样才能更高效地完成任务。大家提议通过使用日程表来better organize工作,并且确保모두가 시간을 효율적으로 사용。)
🎧 多情感合成
多种情感合成,阿里语音AI,17秒
(#厌恶# 今天又是打工人的一天;#恐惧#啊已经9点了,怎么办,我要迟到了!#愤怒#都怪昨晚他非要拉我看电影,害我睡晚了!#平静#今年的年假都用光了,#开心#不过没关系,马上要放假啦!)
🎧 不同指令合成
指令合成,阿里语音AI,54秒
(#神秘#古老城堡笼罩在神秘的雾气中,吸引着无数冒险者前去探索奥秘。
#小猪佩奇#在忙碌之余,我和朋友像小猪佩奇一样,常去公园享受简单的快乐。
#四川话#而这些幽默的瞬间仿佛让我置身于四川的宽窄巷子,享受那份安逸。
#天津话#而在天津的古文化街,五花八门的手工艺品让人眼花缭乱,特别是那些色彩鲜艳的杨柳青年画,总能让人感受到文化的多姿多彩。
当然,生活中也少不了幽默。就像朋友在讲述荒诞故事时[laughter],自己都被逗笑了一样[laughter],给生活增添了不少乐趣。
追求卓越不是终点,它需要你每天都<strong>付出</strong>和<strong>精进</strong>,最终才能达到巅峰。)
🎧 绕口令
绕口令,阿里语音AI,17秒
(黑化肥发灰,灰化肥发黑,黑化肥挥发会发黑,灰化肥挥发会发灰。化肥会挥发,灰化肥挥发发黑会挥发,黑化肥挥发发灰会挥发)
🎧 生僻字
生僻字识读,阿里语音AI,16秒
(煢煢孑立 沆瀣一氣 踽踽獨行 醍醐灌頂 綿綿瓜瓞 奉為圭臬 龍行龘龘 犄角旮旯 娉婷嫋挪 涕泗滂沱 呶呶不休 不稂不莠)
🎧 多音字
多音字合成,阿里语音AI,10秒
(天气暖和,小王在家和泥抹墙;他讲原则性,是非面前,从不和稀泥,也不随声附和别人,更不会和别人大喊大叫)
▎效果体验与部署
目前我们在创空间上提供了cosyvoice2.0语音复刻体验服务,可以支持用户上传音频文件或录音方式进行语音复刻。同时支持流式推理,用户无需等待全部音频合成完毕即可体验效果。
>>>创空间地址:https://www.modelscope.cn/studios/iic/CosyVoice2-0.5B
CosyVoice 2支持音色克隆以及自然语言控制的音频生成,可以选择相应的推理模式。
1)3s极速复刻
- 输入待合成文案
- 选择是否流式推理,流式推理具有更低的延迟,离线推理具有更好的上限效果
- 上传prompt音频,或者录制prompt音频
- 点击生成音频,等待一会儿就会听到合成的音频。
2)自然语言控制
- 输入待合成文案
- 上传prompt音频,或者录制prompt音频
- 输入instruct文本:例如“用粤语说这句话”,“用开心的语气说”,“模仿机器人的声音”等
- 点击生成音频,等待一会儿就会听到合成的音频。
同时,通义实验室也开源了cosyvoice2-0.5B的代码以及预训练模型,方便用户进行本地体验或部署。
>>开源代码:https://github.com/FunAudioLLM/CosyVoice
>>开源模型:https://www.modelscope.cn/models/iic/CosyVoice2-0.5B
下载模型后并安装好环境后,本地体验有两种方法:
- 启动webui,执行python webui.py即可;
- 脚本推理,根据readme在python中执行如下代码:
相关文献参考:
【1】 Du Zhihao, Chen Qian, Zhang Shiliang, et al. Cosyvoice: A scalable multilingual zero-shot text-to-speech synthesizer based on supervised semantic tokens[J]. arXiv preprint arXiv:2407.05407, 2024.
【2】Mentzer F, Minnen D, Agustsson E, et al. Finite scalar quantization: Vq-vae made simple[J]. arXiv preprint arXiv:2309.15505, 2023.
【3】 Du Zhihao, Wang Yuxuan, Chen Qian, et al. CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models.