Qwen3-TTS全面开源:支持超低延迟流式合成的多语言语音大模型

简介: 通义千问Qwen3-TTS是业界领先的开源语音大模型,支持3秒声纹克隆、自然语言“设计”声音(如“紧张的17岁男生”)、97ms超低延迟实时生成,兼顾长文本稳定性与跨语言一致性,双编码器架构适配多场景,已全面开源。

还记得上一次被AI语音惊艳到是什么时候吗?

当大多数TTS模型还在为清晰度和自然度做权衡时,通义千问Qwen团队悄然发布了一款能真正"随心所欲"生成语音的大模型——Qwen3-TTS。

它不仅能用3秒音频实现完美声纹克隆,还能通过自然语言描述"设计"出你想象中的任何声音——稚嫩萝莉、沉稳大叔、异国腔调一应俱全。更令人惊叹的是,它支持97毫秒首包延迟的实时流式生成,让TTS真正迈入实时交互时代。

今天,我们就来深度拆解"集大成者"的Qwen3-TTS语音大模型,看看它究竟有何过人之处。


🌟 核心亮点一览

1. 两条技术路线,满足不同场景需求

Qwen3-TTS并非单一模型,而是一整套模型家族的统称,核心包含两种编码器路线:

特性 Qwen3-TTS-25Hz Qwen3-TTS-12Hz
编码频率 25 Hz 12.5 Hz
编码器类型 单码本+DiT解码 多码本(16层)+轻量CNN
优势 长文本稳定性强 超低延迟(97ms)、流式友好
适用场景 长文档合成、播客生成 实时对话、多轮交互
简单选择指南:追求极致低延迟能力选12Hz;长文本生成稳定性优先选25Hz。而本次开源的是Qwen3-TTS-12Hz系列模型。

2. 3秒声纹克隆,还原度拉满

无需大量样本,在仅有3秒参考音频的情况下,Qwen3-TTS便能精准捕捉说话者的声纹特征,并在多语言场景下保持一致的音色:

# 仅需一行代码即可完成克隆
wavs, sr = model.generate_voice_clone(
    text="I'm solving the equation: x = [-b ± √(b²-4ac)] / 2a",
    language="English",
    ref_audio="reference.wav",  # 3秒音频即可
    ref_text="This is my voice sample."
)

在多语言评测中,Qwen3-TTS在所有10种语言的说话人相似度指标上均超越MiniMax和ElevenLabs:

语言 中文 英语 日语 韩语 俄语
相似度 0.811 0.829 0.798 0.812 0.781
注:相似度基于WavLM说话人验证模型,1.0为完美匹配

3. 自然语言"定制语音",所想即所得

想要一个"略带紧张的17岁男生,音域偏高,紧张时元音会收紧"的声音?不再是天方夜谭。在VoiceDesign模式下,你只需要"描述"即可:

wavs, sr = model.generate_voice_design(
    text="H-hey! You dropped your... uh... calculus notebook?",
    language="English",
    instruct="Male, 17 years old, tenor range, gaining confidence - deeper breath support now, though vowels still tighten when nervous"
)

这一能力在InstructTTSEval评测中表现卓越,Description-Speech Consistency达到81.1%(中文)和82.4%(英文),超越Hume等专业产品。

4. 跨语言"无缝"切换,中→韩仅4.82%错误率

跨语言语音合成一直是个难题——如何在切换语言时保持音色不变?以往模型在中→韩等"远距离"语言对上错误率常超过20%,而Qwen3-TTS将其压至4.82%

语言对 Qwen3-TTS-12Hz-1.7B CosyVoice3
zh→ko 4.82 14.4
zh→en 2.77 2.98
en→zh 4.77 5.09
ko→zh 1.08 1.06

5. 10分钟长文本稳定生成,无重复无卡顿

长音频合成容易出现重复、遗漏或音色漂移。Qwen3-TTS-25Hz在超过10分钟的文本上仍能保持**1.52%**的超低词错率,远优于同类模型:

模型 中文长文本 英文长文本
Higgs-Audio-v2 5.505 6.917
VibeVoice 22.619 1.780
Qwen3-TTS-25Hz-1.7B 1.517 1.225

🔧 技术架构深度解析

为什么做两种Tokenizer?

在语音编解码器的设计上,团队面临一个经典矛盾:

  • 纯语义编码器(如S3 Tokenizer):压缩率高,但声音表现力不足
  • 纯声学编码器(如VQ-VAE):细节丰富,但难以用LLM建模


于是,团队采用了双轨设计:

Qwen-TTS-Tokenizer-25Hz:平衡语义与声学

  • 基于Qwen2-Audio继续预训练
  • 两阶段训练:第一阶段学语义(优化ASR任务),第二阶段加声学细节
  • 单码本,25Hz,用块注意力DiT+Flow Matching实现流式解码
为什么叫"平衡"?实验表明,语义信息不足时声音空洞,声学细节过多又会导致LLM建模困难、长序列误差累积——25Hz方案找到了最佳平衡点。

Qwen-TTS-Tokenizer-12Hz:为超低延迟而生

  • 参考Mimi架构,采用16层残差矢量量化(RVQ)
  • 第1层编码语义,后续15层渐进编码声学细节
  • 全因果编码器+轻量卷积解码器,无需look-ahead,即生成即解码
  • 双通道流式架构,集成多令牌预测(MTP) 模块


性能对比一目了然:

模型 1并发首包延迟 6并发首包延迟 实时因子(RTF)
Qwen3-TTS-12Hz-0.6B 97 ms 299 ms 0.434
Qwen3-TTS-12Hz-1.7B 101 ms 333 ms 0.463
而25Hz版本的首包延迟通常在140-500毫秒区间——这正是实时互动场景的分水岭。


🚀 快速上手

步骤1:环境准备

# 创建独立环境(推荐)
conda create -n qwen3-tts python=3.12 -y
conda activate qwen3-tts
# 安装核心包
pip install -U qwen-tts
# 可选:加速推理(需兼容硬件)
pip install -U flash-attn --no-build-isolation

步骤2:生成你的第一条语音

import torch
import soundfile as sf
from qwen_tts import Qwen3TTSModel
# 加载模型(自动下载,也可本地指定路径)
model = Qwen3TTSModel.from_pretrained(
    "Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice",
    device_map="cuda:0",
    dtype=torch.bfloat16,
    attn_implementation="flash_attention_2"
)
# 生成!
wavs, sr = model.generate_custom_voice(
    text="其实我真的有发现,我是一个特别善于观察别人情绪的人。",
    language="Chinese",
    speaker="Vivian",
    instruct="用特别愤怒的语气说"
)
# 保存
sf.write("output.wav", wavs[0], sr)

步骤3:试试Web界面(可选)

qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --port 8000
# 浏览器打开 http://localhost:8000

三种核心模式

1. 声音设计(Voice Design)

从文本描述创建全新的声音,适用于角色配音、虚拟主播等场景。

model.generate_voice_design(
    text="小猫咪,你是不是在家等我好久啦!来抱一个~",
    language="Chinese",
    instruct="采用清新甜美的少女音色,音调轻快有活力,语气自然俏皮,传递出亲切温暖又不失可爱的表达风格。"
)

2. 声音克隆(Voice Clone)

从参考音频中提取说话人特征,适用于配音、语音助手个性化等场景。

# 提示:可以构建一次缓存,避免重复提取特征
prompt = model.create_voice_clone_prompt(
    ref_audio="demo.wav",
    ref_text="这是我的声音样本"
)
# 多次复用
wavs = model.generate_voice_clone(
    text=["句子1", "句子2"],
    voice_clone_prompt=prompt
)

3. 自定义声音(Custom Voice)

使用内置的9个高品质预设音色,无需训练即可调用。

说话人 描述 母语
Vivian 明亮、略带锋芒的年轻女声 中文
Serena 温暖、柔和的年轻女声 中文
Uncle_Fu 沉稳的男性声音,音色低沉圆润 中文
Dylan 北京青年男声,音色清晰自然 中文(北京话)
Eric 活泼的成都男声,声音略带沙哑 中文(四川话)
Ryan 节奏感强的动态男声 英语
Aiden 阳光美式男声,中频清晰 英语
Ono_Anna 可爱的日语女声,音色轻快灵动 日语
Sohee 温暖的韩语女声,情感丰富 韩语

评测结果

零样本语音克隆(Seed-TTS测试集)

模型 中文 英文
Seed-TTS 1.12 2.25
FireRedTTS 2 1.14 1.95
CosyVoice 3 0.71 1.45
Qwen3-TTS-12Hz-1.7B 0.77 1.24

编解码器质量(LibriSpeech test-clean)

模型 PESQ_WB PESQ_NB STOI UTMOS 相似度
Mimi 2.88 3.42 0.94 3.87 0.87
FireRedTTS 2 2.73 3.28 0.94 3.88 0.87
Qwen-TTS-Tokenizer-12Hz 3.21 3.68 0.96 4.16 0.95

模型下载

所有模型均已开源在ModelScope,支持自动下载或手动下载:

modelscope download --model Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --local_dir ./model_path

🎯 总结:Qwen3-TTS意味着什么?

  1. 对开发者:
    一个模型覆盖多场景。无论是实时对话、长文本播客、跨语言配音,还是声纹克隆、声音设计,你不再需要拼凑不同工具链——Qwen3-TTS一套搞定。
  2. 对研究者:
    一个值得研究的架构案例。双编码器设计、残差多码本、流式因果编解码……这些思路为语音-语言一体化建模提供了新范式。
  3. 对未来:
    通向"全能音频模型"的基石。正如报告末尾所说:"Qwen3-TTS统一了多样的语音生成任务……为下一代全能音频系统铺平道路"——我们拭目以待。

参考资料

  • GitHub: https://github.com/QwenLM/Qwen3-TTS
  • ModelScope 模型库: https://modelscope.cn/collections/Qwen/Qwen3-TTS
  • 技术博客: https://qwen.ai/blog?id=qwen3tts-0115
  • 论文: https://github.com/QwenLM/Qwen3-TTS/blob/main/assets/Qwen3_TTS.pdf
  • ModelScope 在线 Demo: https://modelscope.cn/studios/Qwen/Qwen3-TTS
  • API 文档: https://www.alibabacloud.com/help/en/model-studio/qwen-tts-voice-design

点击即可跳转模型链接

https://modelscope.cn/collections/Qwen/Qwen3-TTS

目录
相关文章
|
6天前
|
JSON API 数据格式
OpenCode入门使用教程
本教程介绍如何通过安装OpenCode并配置Canopy Wave API来使用开源模型。首先全局安装OpenCode,然后设置API密钥并创建配置文件,最后在控制台中连接模型并开始交互。
3011 7
|
12天前
|
人工智能 JavaScript Linux
【Claude Code 全攻略】终端AI编程助手从入门到进阶(2026最新版)
Claude Code是Anthropic推出的终端原生AI编程助手,支持40+语言、200k超长上下文,无需切换IDE即可实现代码生成、调试、项目导航与自动化任务。本文详解其安装配置、四大核心功能及进阶技巧,助你全面提升开发效率,搭配GitHub Copilot使用更佳。
|
3天前
|
人工智能 API 开发者
Claude Code 国内保姆级使用指南:实测 GLM-4.7 与 Claude Opus 4.5 全方案解
Claude Code是Anthropic推出的编程AI代理工具。2026年国内开发者可通过配置`ANTHROPIC_BASE_URL`实现本地化接入:①极速平替——用Qwen Code v0.5.0或GLM-4.7,毫秒响应,适合日常编码;②满血原版——经灵芽API中转调用Claude Opus 4.5,胜任复杂架构与深度推理。
|
14天前
|
存储 人工智能 自然语言处理
OpenSpec技术规范+实例应用
OpenSpec 是面向 AI 智能体的轻量级规范驱动开发框架,通过“提案-审查-实施-归档”工作流,解决 AI 编程中的需求偏移与不可预测性问题。它以机器可读的规范为“单一真相源”,将模糊提示转化为可落地的工程实践,助力开发者高效构建稳定、可审计的生产级系统,实现从“凭感觉聊天”到“按规范开发”的跃迁。
2201 18
|
7天前
|
人工智能 前端开发 Docker
Huobao Drama 开源短剧生成平台:从剧本到视频
Huobao Drama 是一个基于 Go + Vue3 的开源 AI 短剧自动化生成平台,支持剧本解析、角色与分镜生成、图生视频及剪辑合成,覆盖短剧生产全链路。内置角色管理、分镜设计、视频合成、任务追踪等功能,支持本地部署与多模型接入(如 OpenAI、Ollama、火山等),搭配 FFmpeg 实现高效视频处理,适用于短剧工作流验证与自建 AI 创作后台。
1071 4
|
5天前
|
人工智能 运维 前端开发
Claude Code 30k+ star官方插件,小白也能写专业级代码
Superpowers是Claude Code官方插件,由核心开发者Jesse打造,上线3个月获3万star。它集成brainstorming、TDD、系统化调试等专业开发流程,让AI写代码更规范高效。开源免费,安装简单,实测显著提升开发质量与效率,值得开发者尝试。
|
17天前
|
人工智能 测试技术 开发者
AI Coding后端开发实战:解锁AI辅助编程新范式
本文系统阐述了AI时代开发者如何高效协作AI Coding工具,强调破除认知误区、构建个人上下文管理体系,并精准判断AI输出质量。通过实战流程与案例,助力开发者实现从编码到架构思维的跃迁,成为人机协同的“超级开发者”。
1239 102
|
12天前
|
人工智能 JSON 自然语言处理
【2026最新最全】一篇文章带你学会Qoder编辑器
Qoder是一款面向程序员的AI编程助手,集智能补全、对话式编程、项目级理解、任务模式与规则驱动于一体,支持模型分级选择与CLI命令行操作,可自动生成文档、优化提示词,提升开发效率。
981 10
【2026最新最全】一篇文章带你学会Qoder编辑器