开源更新|语音生成大模型CosyVoice升级2.0版本

简介: 开源更新|语音生成大模型CosyVoice升级2.0版本

image.png


CosyVoice是阿里巴巴通义实验室语音团队于今年7月份开源的语音生成大模型,依托大模型技术,实现自然流畅的语音生成体验。与传统语音生成技术相比,CosyVoice具有韵律自然、音色逼真等特点。自开源以来,CosyVoice凭借高品质的多语言语音生成、零样本语音生成、跨语言语音生成、富文本和自然语言的细粒度控制能力获得了广大社区开发者们的喜爱和支持。


如今,CosyVoice迎来全面升级,我们将发布CosyVoice2.0版本,提供更准、更稳、更快、 更好的语音生成能力。


超低延迟:CosyVoice 2.0提出了离线和流式一体化建模的语音生成大模型技术,支持双向流式语音合成,在基本不损失效果的情况下首包合成延迟可以达到150ms


高准确度:CosyVoice 2.0合成音频的发音错误相比于CosyVoice 1.0相对下降30%~50%,在Seed-TTS测试集的hard测试集上取得当前最低的字错误率。合成绕口令、多音字、生僻字上具有明显的提升。


强稳定性:CosyVoice 2.0在零样本语音生成和跨语言语音合成上能够出色地保证音色一致性,特别是跨语言语音合成相比于1.0版本具有明显提升。


自然体验:CosyVoice 2.0合成音频的韵律、音质、情感匹配相比于1.0具有明显提升。MOS评测分从5.4提升到5.53(相同评测某商业化语音合成大模型为5.52)。同时, CosyVoice 2.0对于指令可控的音频生成也进行了升级,支持更多细粒度的情感控制,以及方言口音控制。


📂 代码仓库及体验链接


核心模型与算法亮点

image.png

图1. CosyVoice 2 模型结构框图

image.png image.png

图2. CosyVoice 2 离线和流式一体化建模方案

CosyVoice 2.0采用和CosyVoice 1一致的LLM+FM的建模框架,但是在具体实现上进行了如下几个要点的算法优化:


1)LLM backbone:CosyVoice 2.0采用预训练好的文本基座大模型(Qwen2.5-0.5B)替换了原来的Text Encoder + random Transformer的结构。采用LLM进行初始化能够更好的进行文本的语义建模,使得在可控生成,音频和文本的情感匹配,多音字发音上会有明显的收益。


2)FSQ Speech Tokenizer:CosyVoice 1.0采用VQ来提取Supervised semantic codec,码本大小为4096,但是有效码本只有963。CosyVoice 2.0采用了FSQ替换VQ,训练了6561的码本,并且码本100%激活。FSQ-Speech Tokenizer的使用使得CosyVoice 2.0在发音准确性上有明显提升。


3)离线和流式一体化建模方案:目前主流的语音生成大模型(CosyVoice, F5-TTS,MaskGCT,GPT-SoViTs等)均不支持流式语音生成。CosyVoice 2.0提出了如图2所示的离线和流式一体化建模方案,使得LLM和FM均支持流式推理,接收5个文字就可以合成首包音频,延迟大致在150ms。同时合成音质相比于离线合成基本无损。


4)指令可控的音频生成能力升级:优化后的 CosyVoice 2.0 在基模型和指令模型的整合上取得了重要进展,不仅延续了对情感、说话风格和细粒度控制指令的支持,还新增了中文指令的处理能力。其指令控制功能的扩展尤为显著,现已支持多种主要方言,包括粤语、四川话、郑州话、天津话和长沙话等,为用户提供了更丰富的语言选择。此外,CosyVoice 2.0 也引入了角色扮演的功能,如能够模仿机器人、小猪佩奇的风格讲话等。这些功能的提升还伴随着发音准确性和音色一致性的显著改善,为用户带来了更自然和生动的语音体验。


Demo show

🎧 音色复刻

原声音频:

影视原声,阿里语音AI12秒

(对,这就是我,万人敬仰的太乙真人,虽然有点婴儿肥,但也掩不住我逼人的帅气。)


复刻音频:

复刻音色,阿里语音AI,18秒

(不少人从四面八方赶来,只为目睹我的风采。看,他们眼中流露出的崇敬,足以让我感到自豪。我微微一笑,挥手致意,心中默念着:责任重大,不容懈怠。)


🎧 多语言合成

一个文本,分别用中文,英文,日语,韩语多个语言来说

多语言合成,阿里语音AI,34秒

(中文:CosyVoice迎来全面升级,提供更准、更稳、更快、 更好的语音生成能力。

英文:CosyVoice is undergoing a comprehensive upgrade, providing more accurate, stable, faster, and better voice generation capabilities.

日语:CosyVoiceは全面的なアップグレードを迎え、より正確で、安定し、速く、さらに優れた音声生成能力を提供します。

韩语:CosyVoice가 전면 업그레이드를 맞이하여, 더 정확하고, 더 안정적이며, 더 빠르고, 더 나은 음성 생성 능력을 제공합니다.)


🎧 混合语种合成

混合语种合成,阿里语音AI,16秒

(今天早上开会时,经理说我们需要加强time management时间管理技能,这样才能更高效地完成任务。大家提议通过使用日程表来better organize工作,并且确保모두가 시간을 효율적으로 사용。)


🎧 多情感合成

多种情感合成,阿里语音AI,17秒

(#厌恶# 今天又是打工人的一天;#恐惧#啊已经9点了,怎么办,我要迟到了!#愤怒#都怪昨晚他非要拉我看电影,害我睡晚了!#平静#今年的年假都用光了,#开心#不过没关系,马上要放假啦!)


🎧 不同指令合成

指令合成,阿里语音AI,54秒


(#神秘#古老城堡笼罩在神秘的雾气中,吸引着无数冒险者前去探索奥秘。

#小猪佩奇#在忙碌之余,我和朋友像小猪佩奇一样,常去公园享受简单的快乐。

#四川话#而这些幽默的瞬间仿佛让我置身于四川的宽窄巷子,享受那份安逸。

#天津话#而在天津的古文化街,五花八门的手工艺品让人眼花缭乱,特别是那些色彩鲜艳的杨柳青年画,总能让人感受到文化的多姿多彩。

当然,生活中也少不了幽默。就像朋友在讲述荒诞故事时[laughter],自己都被逗笑了一样[laughter],给生活增添了不少乐趣。

追求卓越不是终点,它需要你每天都<strong>付出</strong>和<strong>精进</strong>,最终才能达到巅峰。)


🎧 绕口令

绕口令,阿里语音AI,17秒

(黑化肥发灰,灰化肥发黑,黑化肥挥发会发黑,灰化肥挥发会发灰。化肥会挥发,灰化肥挥发发黑会挥发,黑化肥挥发发灰会挥发)


🎧 生僻字

生僻字识读,阿里语音AI,16秒

(煢煢孑立 沆瀣一氣 踽踽獨行 醍醐灌頂 綿綿瓜瓞 奉為圭臬 龍行龘龘 犄角旮旯 娉婷嫋挪 涕泗滂沱 呶呶不休 不稂不莠)


🎧 多音字

多音字合成,阿里语音AI,10秒

天气暖,小王在家泥抹墙;他讲原则性,是非面前,从不稀泥,也不随声附别人,更不会别人大喊大叫


效果体验与部署

目前我们在创空间上提供了cosyvoice2.0语音复刻体验服务,可以支持用户上传音频文件或录音方式进行语音复刻。同时支持流式推理,用户无需等待全部音频合成完毕即可体验效果。

>>>创空间地址https://www.modelscope.cn/studios/iic/CosyVoice2-0.5B

image.png

CosyVoice 2支持音色克隆以及自然语言控制的音频生成,可以选择相应的推理模式。


1)3s极速复刻

  • 输入待合成文案
  • 选择是否流式推理,流式推理具有更低的延迟,离线推理具有更好的上限效果
  • 上传prompt音频,或者录制prompt音频
  • 点击生成音频,等待一会儿就会听到合成的音频。


2)自然语言控制

  • 输入待合成文案
  • 上传prompt音频,或者录制prompt音频
  • 输入instruct文本:例如“用粤语说这句话”,“用开心的语气说”,“模仿机器人的声音”等
  • 点击生成音频,等待一会儿就会听到合成的音频。


同时,通义实验室也开源了cosyvoice2-0.5B的代码以及预训练模型,方便用户进行本地体验或部署。

>>开源代码:https://github.com/FunAudioLLM/CosyVoice

>>开源模型:https://www.modelscope.cn/models/iic/CosyVoice2-0.5B

下载模型后并安装好环境后,本地体验有两种方法:


  1. 启动webui,执行python webui.py即可;
  2. 脚本推理,根据readme在python中执行如下代码:

image.png


相关文献参考:


【1】 Du Zhihao, Chen Qian, Zhang Shiliang, et al. Cosyvoice: A scalable multilingual zero-shot text-to-speech synthesizer based on supervised semantic tokens[J]. arXiv preprint arXiv:2407.05407, 2024.


【2】Mentzer F, Minnen D, Agustsson E, et al. Finite scalar quantization: Vq-vae made simple[J]. arXiv preprint arXiv:2309.15505, 2023.


【3】 Du Zhihao,  Wang Yuxuan, Chen Qian, et al.  CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models.

相关文章
|
8天前
|
调度 云计算 芯片
云超算技术跃进,阿里云牵头制定我国首个云超算国家标准
近日,由阿里云联合中国电子技术标准化研究院主导制定的首个云超算国家标准已完成报批,不久后将正式批准发布。标准规定了云超算服务涉及的云计算基础资源、资源管理、运行和调度等方面的技术要求,为云超算服务产品的设计、实现、应用和选型提供指导,为云超算在HPC应用和用户的大范围采用奠定了基础。
179591 21
|
15天前
|
存储 运维 安全
云上金融量化策略回测方案与最佳实践
2024年11月29日,阿里云在上海举办金融量化策略回测Workshop,汇聚多位行业专家,围绕量化投资的最佳实践、数据隐私安全、量化策略回测方案等议题进行深入探讨。活动特别设计了动手实践环节,帮助参会者亲身体验阿里云产品功能,涵盖EHPC量化回测和Argo Workflows量化回测两大主题,旨在提升量化投研效率与安全性。
云上金融量化策略回测方案与最佳实践
|
17天前
|
人工智能 自然语言处理 前端开发
从0开始打造一款APP:前端+搭建本机服务,定制暖冬卫衣先到先得
通义灵码携手科技博主@玺哥超carry 打造全网第一个完整的、面向普通人的自然语言编程教程。完全使用 AI,再配合简单易懂的方法,只要你会打字,就能真正做出一个完整的应用。
9439 24
|
21天前
|
Cloud Native Apache 流计算
资料合集|Flink Forward Asia 2024 上海站
Apache Flink 年度技术盛会聚焦“回顾过去,展望未来”,涵盖流式湖仓、流批一体、Data+AI 等八大核心议题,近百家厂商参与,深入探讨前沿技术发展。小松鼠为大家整理了 FFA 2024 演讲 PPT ,可在线阅读和下载。
5106 15
资料合集|Flink Forward Asia 2024 上海站
|
21天前
|
自然语言处理 数据可视化 API
Qwen系列模型+GraphRAG/LightRAG/Kotaemon从0开始构建中医方剂大模型知识图谱问答
本文详细记录了作者在短时间内尝试构建中医药知识图谱的过程,涵盖了GraphRAG、LightRAG和Kotaemon三种图RAG架构的对比与应用。通过实际操作,作者不仅展示了如何利用这些工具构建知识图谱,还指出了每种工具的优势和局限性。尽管初步构建的知识图谱在数据处理、实体识别和关系抽取等方面存在不足,但为后续的优化和改进提供了宝贵的经验和方向。此外,文章强调了知识图谱构建不仅仅是技术问题,还需要深入整合领域知识和满足用户需求,体现了跨学科合作的重要性。
|
5天前
|
JSON 分布式计算 数据处理
加速数据处理与AI开发的利器:阿里云MaxFrame实验评测
随着数据量的爆炸式增长,传统数据分析方法逐渐显现出局限性。Python作为数据科学领域的主流语言,因其简洁易用和丰富的库支持备受青睐。阿里云推出的MaxFrame是一个专为Python开发者设计的分布式计算框架,旨在充分利用MaxCompute的强大能力,提供高效、灵活且易于使用的工具,应对大规模数据处理需求。MaxFrame不仅继承了Pandas等流行数据处理库的友好接口,还通过集成先进的分布式计算技术,显著提升了数据处理的速度和效率。
|
29天前
|
人工智能 自动驾驶 大数据
预告 | 阿里云邀您参加2024中国生成式AI大会上海站,马上报名
大会以“智能跃进 创造无限”为主题,设置主会场峰会、分会场研讨会及展览区,聚焦大模型、AI Infra等热点议题。阿里云智算集群产品解决方案负责人丛培岩将出席并发表《高性能智算集群设计思考与实践》主题演讲。观众报名现已开放。
|
16天前
|
消息中间件 人工智能 运维
12月更文特别场——寻找用云高手,分享云&AI实践
我们寻找你,用云高手,欢迎分享你的真知灼见!
1247 74