Qwen3-TTS全面升级：声情并茂，语通八方

2025-12-12 2524

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Qwen3-TTS是阿里云推出的旗舰语音合成模型，支持多音色、多语种及多方言，提供49+种情感丰富的高品质声音，覆盖中文、英文、日语等10大语言及多种方言，语速韵律自然拟人。通过Qwen API可轻松调用，适用于多样化场景。

Qwen3-TTS 是支持多音色、多语种和多方言的旗舰语音合成模型，致力于实现稳定、自然和高效的语音生成，目前可通过Qwen API访问。

主要改进：

更加丰富的音色支持：Qwen3-TTS 提供超过49种高品质音色，涵盖不同性别、年龄、地域特征与角色设定，满足多样化的场景需求。撒娇搞怪-茉兔，陪伴感满满的青梅竹马-小野杏，傲娇率性的女汉子-十三，严厉老师-墨讲师，智慧老者-沧明子，萝莉萌妹-萌小姬等众多角色等你探索。

多语种多方言能力持续增强：Qwen3-TTS 支持中文、英文、德语、意大利语、葡萄牙语、西班牙语、日语、韩语、法语、俄语等10大主流语言，在MiniMax TTS multilingual test set上，平均词错误率（WER）优于MiniMax、ElevenLabs及GPT-4o-Audio-Preview。支持更多音色的方言生成，包括普通话、闽南语、吴语、粤语、四川话、北京话、南京话、天津话和陕西话，真实还原地方口音特色与语言神韵。

韵律/语速更加自然，更拟人化：相比于上一个版本，Qwen3-TTS自适应根据文本调节语速和韵律的能力大幅提高，拟人化程度逼近真人。

Qwen3-TTS API文档：https://help.aliyun.com/zh/model-studio/multi-round-conversation

展示样例

Qwen3-TTS 提供了个性鲜明、情感饱满的多元声音形象供用户选择，可满足多样化的场景需求。样音参考：https://help.aliyun.com/zh/model-studio/qwen-tts#ecd4323bde631

模型性能

使用方法

通过 Qwen API 使用 Qwen3-TTS 是非常简单的，我们在下面提供了一个简单的代码片段以供体验：

# 请安装 DashScope SDK 的最新版本
import os
import requests
import dashscope
text = "那我来给大家推荐一款T恤，这款呢真的是超级好看，这个颜色呢很显气质，而且呢也是搭配的绝佳单品，大家可以闭眼入，真的是非常好看，对身材的包容性也很好，不管啥身材的宝宝呢，穿上去都是很好看的。推荐宝宝们下单哦。"
# SpeechSynthesizer接口使用方法：dashscope.audio.qwen_tts.SpeechSynthesizer.call(...)
response = dashscope.MultiModalConversation.call(
    model="qwen3-tts-flash-2025-11-27",
    api_key=os.getenv("DASHSCOPE_API_KEY"),
    text=text,
    voice="Cherry",
    language_type="Chinese", # 建议与文本语种一致，以获得正确的发音和自然的语调。
    stream=False
)
audio_url = response.output.audio.url
save_path = "downloaded_audio.wav"  # 自定义保存路径
try:
    response = requests.get(audio_url)
    response.raise_for_status()  # 检查请求是否成功
    withopen(save_path, 'wb') as f:
        f.write(response.content)
    print(f"音频文件已保存至：{save_path}")
except Exception as e:
    print(f"下载失败：{str(e)}")

Qwen3-TTS全面升级：声情并茂，语通八方

展示样例

模型性能

使用方法

阿里云百炼

热门文章

最新文章

相关电子书