Qwen3-TTS全面升级:声情并茂,语通八方

简介: Qwen3-TTS是阿里云推出的旗舰语音合成模型,支持多音色、多语种及多方言,提供49+种情感丰富的高品质声音,覆盖中文、英文、日语等10大语言及多种方言,语速韵律自然拟人。通过Qwen API可轻松调用,适用于多样化场景。

Qwen3-TTS 是支持多音色、多语种和多方言的旗舰语音合成模型,致力于实现稳定、自然和高效的语音生成,目前可通过Qwen API访问。

主要改进:

更加丰富的音色支持:Qwen3-TTS 提供超过49种高品质音色,涵盖不同性别、年龄、地域特征与角色设定,满足多样化的场景需求。撒娇搞怪-茉兔,陪伴感满满的青梅竹马-小野杏,傲娇率性的女汉子-十三 ,严厉老师-墨讲师 ,智慧老者-沧明子,萝莉萌妹-萌小姬等众多角色等你探索。

多语种多方言能力持续增强:Qwen3-TTS 支持中文、英文、德语、意大利语、葡萄牙语、西班牙语、日语、韩语、法语、俄语等10大主流语言,在MiniMax TTS multilingual test set上,平均词错误率(WER)优于MiniMax、ElevenLabs及GPT-4o-Audio-Preview。支持更多音色的方言生成,包括普通话、闽南语、吴语、粤语、四川话、北京话、南京话、天津话和陕西话,真实还原地方口音特色与语言神韵。

韵律/语速更加自然,更拟人化:相比于上一个版本,Qwen3-TTS自适应根据文本调节语速和韵律的能力大幅提高,拟人化程度逼近真人。

Qwen3-TTS API文档:https://help.aliyun.com/zh/model-studio/multi-round-conversation

展示样例

Qwen3-TTS 提供了个性鲜明、情感饱满的多元声音形象供用户选择,可满足多样化的场景需求。样音参考:https://help.aliyun.com/zh/model-studio/qwen-tts#ecd4323bde631

模型性能

image.png

使用方法

通过 Qwen API 使用 Qwen3-TTS 是非常简单的,我们在下面提供了一个简单的代码片段以供体验:

# 请安装 DashScope SDK 的最新版本
import os
import requests
import dashscope
text = "那我来给大家推荐一款T恤,这款呢真的是超级好看,这个颜色呢很显气质,而且呢也是搭配的绝佳单品,大家可以闭眼入,真的是非常好看,对身材的包容性也很好,不管啥身材的宝宝呢,穿上去都是很好看的。推荐宝宝们下单哦。"
# SpeechSynthesizer接口使用方法:dashscope.audio.qwen_tts.SpeechSynthesizer.call(...)
response = dashscope.MultiModalConversation.call(
    model="qwen3-tts-flash-2025-11-27",
    api_key=os.getenv("DASHSCOPE_API_KEY"),
    text=text,
    voice="Cherry",
    language_type="Chinese", # 建议与文本语种一致,以获得正确的发音和自然的语调。
    stream=False
)
audio_url = response.output.audio.url
save_path = "downloaded_audio.wav"  # 自定义保存路径
try:
    response = requests.get(audio_url)
    response.raise_for_status()  # 检查请求是否成功
    withopen(save_path, 'wb') as f:
        f.write(response.content)
    print(f"音频文件已保存至:{save_path}")
except Exception as e:
    print(f"下载失败:{str(e)}")
相关文章
|
3月前
|
人工智能 自然语言处理 语音技术
AI配音告别"罐头味儿",阿里Qwen3-TTS让机器"声情并茂"
2025年12月24日,阿里巴巴升级语音模型家族Qwen3-TTS,重磅发布音色创造模型Qwen3-TTS-VD(VoiceDesign)和音色克隆模型Qwen3-TTS-VC(VoiceClone)。仅用3秒音频就能"像素级"克隆人声,支持10大主流语言及9种方言,在权威测试中多项性能超越GPT-4
1037 0
|
3月前
|
存储 缓存 数据挖掘
阿里云服务器租用价格,特价38元、99元、199元云服务器与最新活动价格参考
截止目前阿里云服务器价格最便宜主要有三款,轻量应用服务器2核2G峰值200M带宽38元1年;云服务器经济型e实例2核2G3M带宽99元1年;云服务器通用算力型u1实例2核4G5M带宽199元1年。除此之外,还有4核16G10M带宽只要89元/1个月、210元/3个月,8核32G10M带宽只要160元/1个月、480元/3个月。本文为大家分享目前阿里云的各个特价云服务器及活动价格情况,以供参考和选择。
669 17
|
3月前
|
人工智能 自然语言处理 数据可视化
构建AI智能体:五十八、智能工作流引擎:基于LangGraph的模块化内容创作系统
本文介绍了一个基于LangGraph工作流引擎、Qwen大模型和Gradio界面的智能内容创作系统。该系统采用模块化设计,将内容创作过程分解为8个可配置节点(主题分析、大纲生成、内容创作等),通过工作流驱动实现从主题输入到完整内容(文字+配图)的全自动化生成。系统特点包括:1)灵活可配置的工作流模板;2)强类型状态管理确保数据安全;3)多重容错机制(重试/降级方案);4)实时可视化流程监控。该方案适用于营销、教育等多个场景,展示了现代AI系统中架构设计、工程实现与用户体验的有机结合。
500 3
|
3月前
|
SQL 人工智能 缓存
阿里云百炼产品月刊【2025年11月】
通义千问本月重磅升级:上线10款多模态与语音模型,涵盖ASR、TTS、视觉语言及翻译;MCP市场新增3个云服务,上架24个电商应用模板;推出实训Agent创客活动,助力高效生成电商视觉内容。
880 10
|
3月前
|
人工智能 自然语言处理 文字识别
Qwen3-Omni新升级:声形意合,令出智随!
Qwen3-Omni-Flash-2025-12-01是全新升级的全模态大模型,支持文本、图像、音频、视频输入,实现自然语音与文本同步输出。全面优化音视频理解与生成,支持多轮流畅对话、自定义人设与系统指令,提升多语言及跨模态交互准确性,语音更拟人,图像视频理解更深入,打造“声形意合”的智能交互体验。(239字)
617 0
阿里发布 Qwen-Image-2.0,实测复杂插画生成,手绘细节还原度很高!
阿里千问Qwen-Image-2.0刚发布即实测!我们用其生成视频封面,精准还原“手绘风格+颜色编码+精细布局”。提示词含标题、图标、配色与排版要求,效果惊艳。现可通过chat.qwen.ai免费体验!
|
2月前
|
人工智能 安全 API
AI 大语言模型(LLM)API 调用进阶:从闭源大模型 LLM API 到开源大模型 API 本地部署,接入路径全解析
在 2026 年的今天,大模型(LLM)已经成为开发者的标配工具。但面对 OpenAI、国产模型、本地部署等多种技术路径,开发者该如何抉择?本文将从工程实践角度,深入剖析国际主流 API、国产 API、本地开源部署以及聚合 API 四种主流方案的优劣,并提供完整的 Python 实战代码,助你构建最优的 AI 应用架构。
1045 5

热门文章

最新文章