Qwen3-TTS全面开源:支持超低延迟流式合成的多语言语音大模型

简介: 通义千问Qwen3-TTS是业界领先的开源语音大模型,支持3秒声纹克隆、自然语言“设计”声音(如“紧张的17岁男生”)、97ms超低延迟实时生成,兼顾长文本稳定性与跨语言一致性,双编码器架构适配多场景,已全面开源。

还记得上一次被AI语音惊艳到是什么时候吗?

当大多数TTS模型还在为清晰度和自然度做权衡时,通义千问Qwen团队悄然发布了一款能真正"随心所欲"生成语音的大模型——Qwen3-TTS。

它不仅能用3秒音频实现完美声纹克隆,还能通过自然语言描述"设计"出你想象中的任何声音——稚嫩萝莉、沉稳大叔、异国腔调一应俱全。更令人惊叹的是,它支持97毫秒首包延迟的实时流式生成,让TTS真正迈入实时交互时代。

今天,我们就来深度拆解"集大成者"的Qwen3-TTS语音大模型,看看它究竟有何过人之处。


🌟 核心亮点一览

1. 两条技术路线,满足不同场景需求

Qwen3-TTS并非单一模型,而是一整套模型家族的统称,核心包含两种编码器路线:

特性 Qwen3-TTS-25Hz Qwen3-TTS-12Hz
编码频率 25 Hz 12.5 Hz
编码器类型 单码本+DiT解码 多码本(16层)+轻量CNN
优势 长文本稳定性强 超低延迟(97ms)、流式友好
适用场景 长文档合成、播客生成 实时对话、多轮交互
简单选择指南:追求极致低延迟能力选12Hz;长文本生成稳定性优先选25Hz。而本次开源的是Qwen3-TTS-12Hz系列模型。

2. 3秒声纹克隆,还原度拉满

无需大量样本,在仅有3秒参考音频的情况下,Qwen3-TTS便能精准捕捉说话者的声纹特征,并在多语言场景下保持一致的音色:

# 仅需一行代码即可完成克隆
wavs, sr = model.generate_voice_clone(
    text="I'm solving the equation: x = [-b ± √(b²-4ac)] / 2a",
    language="English",
    ref_audio="reference.wav",  # 3秒音频即可
    ref_text="This is my voice sample."
)

在多语言评测中,Qwen3-TTS在所有10种语言的说话人相似度指标上均超越MiniMax和ElevenLabs:

语言 中文 英语 日语 韩语 俄语
相似度 0.811 0.829 0.798 0.812 0.781
注:相似度基于WavLM说话人验证模型,1.0为完美匹配

3. 自然语言"定制语音",所想即所得

想要一个"略带紧张的17岁男生,音域偏高,紧张时元音会收紧"的声音?不再是天方夜谭。在VoiceDesign模式下,你只需要"描述"即可:

wavs, sr = model.generate_voice_design(
    text="H-hey! You dropped your... uh... calculus notebook?",
    language="English",
    instruct="Male, 17 years old, tenor range, gaining confidence - deeper breath support now, though vowels still tighten when nervous"
)

这一能力在InstructTTSEval评测中表现卓越,Description-Speech Consistency达到81.1%(中文)和82.4%(英文),超越Hume等专业产品。

4. 跨语言"无缝"切换,中→韩仅4.82%错误率

跨语言语音合成一直是个难题——如何在切换语言时保持音色不变?以往模型在中→韩等"远距离"语言对上错误率常超过20%,而Qwen3-TTS将其压至4.82%

语言对 Qwen3-TTS-12Hz-1.7B CosyVoice3
zh→ko 4.82 14.4
zh→en 2.77 2.98
en→zh 4.77 5.09
ko→zh 1.08 1.06

5. 10分钟长文本稳定生成,无重复无卡顿

长音频合成容易出现重复、遗漏或音色漂移。Qwen3-TTS-25Hz在超过10分钟的文本上仍能保持**1.52%**的超低词错率,远优于同类模型:

模型 中文长文本 英文长文本
Higgs-Audio-v2 5.505 6.917
VibeVoice 22.619 1.780
Qwen3-TTS-25Hz-1.7B 1.517 1.225

🔧 技术架构深度解析

为什么做两种Tokenizer?

在语音编解码器的设计上,团队面临一个经典矛盾:

  • 纯语义编码器(如S3 Tokenizer):压缩率高,但声音表现力不足
  • 纯声学编码器(如VQ-VAE):细节丰富,但难以用LLM建模


于是,团队采用了双轨设计:

Qwen-TTS-Tokenizer-25Hz:平衡语义与声学

  • 基于Qwen2-Audio继续预训练
  • 两阶段训练:第一阶段学语义(优化ASR任务),第二阶段加声学细节
  • 单码本,25Hz,用块注意力DiT+Flow Matching实现流式解码
为什么叫"平衡"?实验表明,语义信息不足时声音空洞,声学细节过多又会导致LLM建模困难、长序列误差累积——25Hz方案找到了最佳平衡点。

Qwen-TTS-Tokenizer-12Hz:为超低延迟而生

  • 参考Mimi架构,采用16层残差矢量量化(RVQ)
  • 第1层编码语义,后续15层渐进编码声学细节
  • 全因果编码器+轻量卷积解码器,无需look-ahead,即生成即解码
  • 双通道流式架构,集成多令牌预测(MTP) 模块


性能对比一目了然:

模型 1并发首包延迟 6并发首包延迟 实时因子(RTF)
Qwen3-TTS-12Hz-0.6B 97 ms 299 ms 0.434
Qwen3-TTS-12Hz-1.7B 101 ms 333 ms 0.463
而25Hz版本的首包延迟通常在140-500毫秒区间——这正是实时互动场景的分水岭。


🚀 快速上手

步骤1:环境准备

# 创建独立环境(推荐)
conda create -n qwen3-tts python=3.12 -y
conda activate qwen3-tts
# 安装核心包
pip install -U qwen-tts
# 可选:加速推理(需兼容硬件)
pip install -U flash-attn --no-build-isolation

步骤2:生成你的第一条语音

import torch
import soundfile as sf
from qwen_tts import Qwen3TTSModel
# 加载模型(自动下载,也可本地指定路径)
model = Qwen3TTSModel.from_pretrained(
    "Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice",
    device_map="cuda:0",
    dtype=torch.bfloat16,
    attn_implementation="flash_attention_2"
)
# 生成!
wavs, sr = model.generate_custom_voice(
    text="其实我真的有发现,我是一个特别善于观察别人情绪的人。",
    language="Chinese",
    speaker="Vivian",
    instruct="用特别愤怒的语气说"
)
# 保存
sf.write("output.wav", wavs[0], sr)

步骤3:试试Web界面(可选)

qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --port 8000
# 浏览器打开 http://localhost:8000

三种核心模式

1. 声音设计(Voice Design)

从文本描述创建全新的声音,适用于角色配音、虚拟主播等场景。

model.generate_voice_design(
    text="小猫咪,你是不是在家等我好久啦!来抱一个~",
    language="Chinese",
    instruct="采用清新甜美的少女音色,音调轻快有活力,语气自然俏皮,传递出亲切温暖又不失可爱的表达风格。"
)

2. 声音克隆(Voice Clone)

从参考音频中提取说话人特征,适用于配音、语音助手个性化等场景。

# 提示:可以构建一次缓存,避免重复提取特征
prompt = model.create_voice_clone_prompt(
    ref_audio="demo.wav",
    ref_text="这是我的声音样本"
)
# 多次复用
wavs = model.generate_voice_clone(
    text=["句子1", "句子2"],
    voice_clone_prompt=prompt
)

3. 自定义声音(Custom Voice)

使用内置的9个高品质预设音色,无需训练即可调用。

说话人 描述 母语
Vivian 明亮、略带锋芒的年轻女声 中文
Serena 温暖、柔和的年轻女声 中文
Uncle_Fu 沉稳的男性声音,音色低沉圆润 中文
Dylan 北京青年男声,音色清晰自然 中文(北京话)
Eric 活泼的成都男声,声音略带沙哑 中文(四川话)
Ryan 节奏感强的动态男声 英语
Aiden 阳光美式男声,中频清晰 英语
Ono_Anna 可爱的日语女声,音色轻快灵动 日语
Sohee 温暖的韩语女声,情感丰富 韩语

评测结果

零样本语音克隆(Seed-TTS测试集)

模型 中文 英文
Seed-TTS 1.12 2.25
FireRedTTS 2 1.14 1.95
CosyVoice 3 0.71 1.45
Qwen3-TTS-12Hz-1.7B 0.77 1.24

编解码器质量(LibriSpeech test-clean)

模型 PESQ_WB PESQ_NB STOI UTMOS 相似度
Mimi 2.88 3.42 0.94 3.87 0.87
FireRedTTS 2 2.73 3.28 0.94 3.88 0.87
Qwen-TTS-Tokenizer-12Hz 3.21 3.68 0.96 4.16 0.95

模型下载

所有模型均已开源在ModelScope,支持自动下载或手动下载:

modelscope download --model Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --local_dir ./model_path

🎯 总结:Qwen3-TTS意味着什么?

  1. 对开发者:
    一个模型覆盖多场景。无论是实时对话、长文本播客、跨语言配音,还是声纹克隆、声音设计,你不再需要拼凑不同工具链——Qwen3-TTS一套搞定。
  2. 对研究者:
    一个值得研究的架构案例。双编码器设计、残差多码本、流式因果编解码……这些思路为语音-语言一体化建模提供了新范式。
  3. 对未来:
    通向"全能音频模型"的基石。正如报告末尾所说:"Qwen3-TTS统一了多样的语音生成任务……为下一代全能音频系统铺平道路"——我们拭目以待。

参考资料

  • GitHub: https://github.com/QwenLM/Qwen3-TTS
  • ModelScope 模型库: https://modelscope.cn/collections/Qwen/Qwen3-TTS
  • 技术博客: https://qwen.ai/blog?id=qwen3tts-0115
  • 论文: https://github.com/QwenLM/Qwen3-TTS/blob/main/assets/Qwen3_TTS.pdf
  • ModelScope 在线 Demo: https://modelscope.cn/studios/Qwen/Qwen3-TTS
  • API 文档: https://www.alibabacloud.com/help/en/model-studio/qwen-tts-voice-design

点击即可跳转模型链接

https://modelscope.cn/collections/Qwen/Qwen3-TTS

目录
相关文章
|
3月前
|
自然语言处理 API 语音技术
Qwen3-TTS全面升级:声情并茂,语通八方
Qwen3-TTS是阿里云推出的旗舰语音合成模型,支持多音色、多语种及多方言,提供49+种情感丰富的高品质声音,覆盖中文、英文、日语等10大语言及多种方言,语速韵律自然拟人。通过Qwen API可轻松调用,适用于多样化场景。
1316 2
|
16天前
|
编解码 自然语言处理 语音技术
魔搭社区+OpenVINO™ 加速部署 Qwen3-TTS 实战
通义千问推出Qwen3-TTS系列开源语音模型,支持中英日韩等10种语言,具备声音克隆、情感适配与高保真端到端合成能力;结合Intel OpenVINO™可在CPU上高效推理,无需GPU,轻松部署于边缘设备。(239字)
356 6
|
3月前
|
人工智能 自然语言处理 语音技术
AI配音告别"罐头味儿",阿里Qwen3-TTS让机器"声情并茂"
2025年12月24日,阿里巴巴升级语音模型家族Qwen3-TTS,重磅发布音色创造模型Qwen3-TTS-VD(VoiceDesign)和音色克隆模型Qwen3-TTS-VC(VoiceClone)。仅用3秒音频就能"像素级"克隆人声,支持10大主流语言及9种方言,在权威测试中多项性能超越GPT-4
1030 0
|
1月前
|
人工智能 API 调度
别再只依赖 ChatGPT 了:多模型协同,才是 AI 项目走向生产的关键一步
本文剖析AI项目落地困局:ChatGPT Agent类应用用户流失率超70%,根源不在模型不够强,而在于单模型架构难以支撑生产环境——稳定性差、成本高、难治理。文章从数据冲击、痛点直击等五维度论证,提出“多模型协同”是破局关键:按场景选模、统一调度、动态兜底,构建可控、可替换、可长期运行的AI系统架构。
|
2月前
|
数据采集 编解码 自动驾驶
世界模型 LingBot-World,正式开源!
蚂蚁灵波团队开源世界模型LingBot-World,专为交互式仿真设计。其核心LingBot-World-Base具备高保真、强动态、长时序一致性(支持近10分钟稳定生成)和实时交互能力(≈16FPS,延迟<1秒),依托可扩展数据引擎,从游戏环境学习物理与因果规律,打造具身智能、自动驾驶等领域的“数字演练场”。
820 1
|
2月前
|
机器学习/深度学习 人工智能 JSON
大模型微调实战:从原理到落地的完整指南
本文系统讲解大模型微调的原理与实战,涵盖LoRA等高效方法,手把手教你用少量数据定制专属模型,结合数据准备、训练策略与效果评估,助力开发者低成本实现AI应用落地。
|
2月前
|
编解码 物联网 测试技术
FLUX.2-Klein 4B/9B开源:亚秒级统一图像生成与编辑
Black Forest Labs开源FLUX.2 [klein]模型家族,兼具文生图、图像编辑与多参考生成能力,端到端推理低至0.5秒,4B版本仅需13GB显存,支持消费级GPU高效运行,量化后速度提升最高2.7倍,Apache 2.0许可商用友好。
1478 1
|
2月前
|
机器学习/深度学习 文字识别 测试技术
10B击败200B!阶跃星辰10B视觉语言SOTA模型开源
阶跃星辰发布开源多模态小模型Step3-VL-10B,仅10B参数却媲美百亿级大模型,在视觉感知、逻辑推理、数学竞赛等任务中达同规模SOTA,支持端侧部署,推动智能终端交互革新。
268 6
|
2月前
|
测试技术 API
小而强,GLM-4.7-Flash开源
GLM-4.7-Flash正式开源,30B总参、3B激活参数,兼顾性能与效率,支持免费调用。在编程、中文写作、翻译等多场景表现优异,已上线智谱平台,替代GLM-4.5-Flash,提供全新轻量化部署选择。
1197 1

热门文章

最新文章