是时候说点方言了,Qwen-TTS上新!

简介: Qwen-TTS更新支持北京话、上海话和四川话三种中文方言,新增七种中英双语音色。模型基于超300万小时语料训练,合成语音自然流畅,可自动调整韵律与情绪。用户可通过Qwen API便捷调用,体验多语言、多风格的高质量语音生成服务。

近日,我们通过 Qwen API 更新了 Qwen-TTS ( qwen-tts-latest or qwen-tts-2025-05-22 ) 的最新版本。此次,Qwen-TTS 新增支持生成三种中文方言,包括北京话、上海话和四川话

Qwen-TTS 使用了超过 300 万小时的大规模语料库进行训练,合成效果达到了人类级别的自然度和表现力。值得一提的是,Qwen-TTS 能够根据输入文本自动调整韵律、节奏和情绪变化,进一步提升语音的真实感和表达力。

目前,Qwen-TTS 支持七种中英双语音色,包括 Cherry、Ethan、Chelsie、Serena、Dylan(北京话)、Jada(上海话) 和 Sunny(四川话)。未来,我们还将推出更多语言和语音风格,进一步丰富用户的选择体验。

Qwen-TTS API 地址

百炼


中文方言样例

这里有一些样例展示了 Qwen-TTS 在中文方言上的自然生成能力。

音色:Dylan

方言种类:北京话

文本1:我们家那边后面有一个后山,就护城河那边,完了呢我们就在山上啊就其实也没什么,就是在土坡上跑来跑去,然后谁捡个那个嗯比较威风的棍,完了我们就呃得瞎打呃,要不就是什么掏个洞啊什么的。

文本2:得有自己的想法,别净跟着别人瞎起哄,多动动脑子,有点儿结构化的思维啥的。

音色:Jada

方言种类:上海话

文本1:侬只小赤佬,啊呀,数学句子错它八道题,还想吃肯德基啊!夜到麻将队三缺一啊,嘿嘿,叫阿三头来顶嘛!哦,提前上料这样产品,还要卖 300 块硬币啊。

文本2:侬来帮伊向暖吧,天光已经暗转亮哉。

音色:Sunny

方言种类:四川话

文本1:胖娃胖嘟嘟,骑马上成都,成都又好耍。胖娃骑白马,白马跳得高。胖娃耍关刀,关刀耍得圆。胖娃吃汤圆。

文本2:他一辈子的使命就是不停地爬哟,爬到大海头上去,不管有好多远!

其他成果

Qwen-TTS 生成的效果目前已经达到了人类水平,其在 SeedTTS-Eval 评测集上的指标如下:


640 - 2025-07-11T170253.029.png


以下是这四种音色对应的一些中英双语样例:

音色:Cherry

文本1:对吧!我就特别喜欢这种超市,尤其是过年的时候,去逛超市就觉得超级超级开心,然后买点儿东西就要买好多好多东西,这个也想买那个也想买,然后买一堆东西带回去。

文本2:Take a look at

音色:Ethan

文本1:啊?真的假的?他们俩拍吻戏。可是我觉得他们两个没有 CP 感欸。

文本2:Jane's eyes wide with terror, she screamed, "The brakes aren't working! What do we do now? We're completely trapped, and we're heading straight for that wall, I can't stop it!" Then, a strange calm washed over her as she murmured, "Well, at least the view was nice. It's almost poetic, this beautiful scene for our grand finale, isn't it?"

更多语音合成样例欢迎前往Qwen API。


使用方法

通过 Qwen API 使用 Qwen-TTS 是较为简单的,下方是一个简单的代码片段以供体验:

import os
import requests
import dashscope


def get_api_key():
    api_key = os.getenv("DASHSCOPE_API_KEY")
    ifnot api_key:
        raise EnvironmentError("DASHSCOPE_API_KEY environment variable not set.")
    return api_key


def synthesize_speech(text, voice="Dylan", model="qwen-tts-latest"):
    api_key = get_api_key()
    try:
        response = dashscope.audio.qwen_tts.SpeechSynthesizer.call(
            model=model,
            api_key=api_key,
            text=text,
            voice=voice,
        )
        
        # Check if response is None
        if response is None:
            raise RuntimeError("API call returned None response")
        
        # Check if response.output is None
        if response.output is None:
            raise RuntimeError("API call failed: response.output is None")
        
        # Check if response.output.audio exists
        ifnot hasattr(response.output, 'audio') or response.output.audio is None:
            raise RuntimeError("API call failed: response.output.audio is None or missing")
        
        audio_url = response.output.audio["url"]
        return audio_url
    except Exception as e:
        raise RuntimeError(f"Speech synthesis failed: {e}")


def download_audio(audio_url, save_path):
    try:
        resp = requests.get(audio_url, timeout=10)
        resp.raise_for_status()
        with open(save_path, 'wb') as f:
            f.write(resp.content)
        print(f"Audio file saved to: {save_path}")
    except Exception as e:
        raise RuntimeError(f"Download failed: {e}")


def main():
    text = (
        """哟,您猜怎么着?今儿个我看NBA,库里投篮跟闹着玩似的,张手就来,篮筐都得喊他“亲爹”了"""
    )
    save_path = "downloaded_audio.wav"
    try:
        audio_url = synthesize_speech(text)
        download_audio(audio_url, save_path)
    except Exception as e:
        print(e)


if __name__ == "__main__":
    main()

结语

Qwen-TTS是一款语音合成模型,支持中英双语以及几种中文方言的合成,致力于通过API提供自然且富有表现力的语音生成能力。尽管它目前已展现出良好性能,但我们期待未来能够进一步优化,并拓展对更多语言的支持。

相关文章
|
人工智能
阿里云语音AI这个appkey怎么找
阿里云语音AI这个appkey怎么找?
2921 1
|
虚拟化
【虚拟化】VMware 新增网卡后找不到网卡配置问题(已解决)
【虚拟化】VMware 新增网卡后找不到网卡配置问题(已解决)
1846 0
【虚拟化】VMware 新增网卡后找不到网卡配置问题(已解决)
|
4月前
|
人工智能 JSON JavaScript
用 AI + 高德地图 MCP,3 小时做出杭州美食地图
本文记录了一次从灵光一现到快速落地的 AI + 地图服务实践,通过结合 Cursor 与高德 MCP 地图服务平台,作者仅用几个小时就实现了一个可交互、可筛选、可推荐的杭州美食地图应用。
883 25
用 AI + 高德地图 MCP,3 小时做出杭州美食地图
|
5月前
|
人工智能 IDE 定位技术
通义灵码 AI IDE 上线,第一时间测评体验
通义灵码 AI IDE 重磅上线,开启智能编程新纪元!无需插件,开箱即用,依托通义千问大模型,实现高效、智能的编程体验。支持 MCP 工具链,可快速调用多种服务(如12306余票查询、高德地图标注等),大幅提升开发效率。结合 Qwen3 强大的 Agent 能力,开发者可通过自然语言快速构建功能,如智能选票系统、地图可视化页面等。行间代码预测、AI 规则定制、记忆能力等功能,让 AI 更懂你的编码习惯。Lingma IDE 不仅是工具,更是开发者身边的智能助手,助力 AI 编程落地实践。立即下载体验,感受未来编程的魅力!
774 16
|
4月前
|
机器学习/深度学习 人工智能 测试技术
HumanOmniV2 比你还懂“社交潜台词”!
如何让AI真正“读懂”人心?本文通过分析相亲对话案例,揭示当前多模态大模型在全局上下文理解和深度逻辑推理上的不足,并介绍全新模型HumanOmniV2的创新机制,如强制性上下文总结和多维度奖励机制,显著提升AI对人类复杂意图的理解能力。
164 1
Ubuntu18.04设置系统默认音频设备:使用pavucontrol命令
Ubuntu18.04设置系统默认音频设备:使用pavucontrol命令
2327 0
Ubuntu18.04设置系统默认音频设备:使用pavucontrol命令
|
语音技术 网络架构
首个支持普通话和方言混说的TTS大模型:河南话、上海话、粤语说得溜
【9月更文挑战第6天】近年来,人工智能技术的进步推动了文本到语音(TTS)系统的高质量语音生成能力。针对现有TTS系统在中文方言生成上的不足,研究人员开发了Bailing-TTS模型。此模型利用大规模数据集与连续半监督学习方法,结合特定的Transformer架构及多阶段训练流程,实现了自然流畅的方言语音合成。实验结果显示,Bailing-TTS在客观和主观测试中均能生成接近真实的人类发音,并具备零样本学习能力。尽管仍面临复杂方言质量和多样性等挑战,但Bailing-TTS为中文方言语音合成提供了新的可能,并有望在未来技术发展中发挥更大作用。
1433 1
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
Dolphin:40语种+22方言!清华联合海天瑞声推出的语音识别大模型,识别精度超Whisper两代
Dolphin是清华大学与海天瑞声联合研发的语音识别大模型,支持40种东方语言和22种中文方言,采用CTC-Attention混合架构,词错率显著低于同类模型。
3833 50
Dolphin:40语种+22方言!清华联合海天瑞声推出的语音识别大模型,识别精度超Whisper两代
|
11月前
|
人工智能 自然语言处理 人机交互
CosyVoice 2.0:阿里开源升级版语音生成大模型,支持多语言和跨语言语音合成,提升发音和音色等的准确性
CosyVoice 2.0 是阿里巴巴通义实验室推出的语音生成大模型升级版,通过有限标量量化技术和块感知因果流匹配模型,显著提升了发音准确性、音色一致性和音质,支持多语言和流式推理,适合实时语音合成场景。
7583 22
CosyVoice 2.0:阿里开源升级版语音生成大模型,支持多语言和跨语言语音合成,提升发音和音色等的准确性
|
11月前
|
人工智能 监控 算法
3D-Speaker:阿里通义开源的多模态说话人识别项目,支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录
3D-Speaker是阿里巴巴通义实验室推出的多模态说话人识别开源项目,结合声学、语义和视觉信息,提供高精度的说话人识别和语种识别功能。项目包含工业级模型、训练和推理代码,以及大规模多设备、多距离、多方言的数据集,适用于多种应用场景。
2668 18
3D-Speaker:阿里通义开源的多模态说话人识别项目,支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录