Qwen3-Omni新升级:声形意合,令出智随!

简介: Qwen3-Omni-Flash-2025-12-01是全新升级的全模态大模型,支持文本、图像、音频、视频输入,实现自然语音与文本同步输出。全面优化音视频理解与生成,支持多轮流畅对话、自定义人设与系统指令,提升多语言及跨模态交互准确性,语音更拟人,图像视频理解更深入,打造“声形意合”的智能交互体验。(239字)

5E535D4A-5570-4c1c-8768-E19717237CDC.png
Qwen3-Omni是新一代原生全模态大模型,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音输出。我们引入了多种升级来提升模型表现和效率。

Qwen3-Omni-Flash-2025-12-01是在Qwen3-Omni基础上进行全面升级的版本。

此次升级版本主要特点为:

音视频交互体验全面升级:大幅增强对音视频指令的理解与执行能力,有效解决口语化场景中常见的“降智”问题;多轮音视频对话的稳定性与连贯性显著提升,交互更自然流畅。

系统提示(System Prompt)控制能力飞跃:全面开放 System Prompt 自定义,实现对模型行为的精细调控——无论是人设风格(如甜妹、御姐、日系等)、口语化表达偏好,还是回复长度等要求,均可精准实现,控制力大幅提升。

多语言遵循能力更可靠:支持 119 种文本语言交互、19 种语音识别语言与 10 种语音合成语言,彻底优化上一版本中语言遵循不稳定的问题,确保跨语言场景下响应准确、一致。

语音生成更拟人、更流畅: 彻底解决语速拖沓、机械呆板的问题,显著提升模型根据文本内容自适应调节语速、停顿与韵律的能力,语音表现自然生动,拟人化程度逼近真人。

模型性能

在客观性能指标上,Qwen3-Omni-Flash-2025-12-01全模态能力全面跃升,各项能力均显著超越Qwen3-Omni-Flash:

🧠 文本理解与生成更强大:在逻辑推理(ZebraLogic +5.6)、代码生成(LiveCodeBench-v6 +9.3、MultiPL-E +2.7)和综合写作(WritingBench +2.2)等任务上大幅提升,复杂指令遵循能力再上新台阶。

👂 语音理解更精准:在语音识别(Fleurs-zh)的字错率显著降低,语音对话评估(VoiceBench)得分提升 3.2 分,语音理解能力提升。

🎙️ 语音生成更自然:多语言语音合成质量全面提升,尤其在中文、多语种上,韵律、语速与停顿更贴近真人对话。

👁️ 图像理解更深入:在多学科视觉问答(MMMU +4.7、MMMU_pro +4.8)和数学视觉推理(Mathvision_full +2.2)任务上取得飞跃,能更准确地“看懂”图像内容并进行深度分析。

🎬 视频理解更连贯:视频语义理解能力(MLVU +1.6)持续优化,结合增强的音视频同步能力,为实时视频对话提供坚实基础。

此次升级,让 Qwen3-Omni-Flash-20251201 在全模态场景下真正做到“声形意合,令出智随”,为用户带来前所未有的自然、精准、生动的 AI 交互体验。

image.png

下一步

我们期待听到您的反馈,并看到您使用Qwen3-Omni开发的创新应用。在不久的将来,我们将沿多个技术方向持续推进模型升级,包括多说话人ASR、视频OCR、音视频主动学习等核心能力建设,并强化基于智能体的工作流与函数调用支持。

相关文章
|
25天前
|
自然语言处理 API 语音技术
Qwen3-TTS全面升级:声情并茂,语通八方
Qwen3-TTS是阿里云推出的旗舰语音合成模型,支持多音色、多语种及多方言,提供49+种情感丰富的高品质声音,覆盖中文、英文、日语等10大语言及多种方言,语速韵律自然拟人。通过Qwen API可轻松调用,适用于多样化场景。
311 2
|
2月前
|
自然语言处理 数据处理 决策智能
AgentScope1.0 上新!
AgentScope 1.0 新版本上线!新增开源智能体Alias-Agent与Data-Juicer Agent,支持任务规划、多智能体协同及自然语言驱动数据处理。升级核心能力,支持Agentic RL训练、长期记忆管理,并推出AgentScope-Samples案例集与强化版运行时环境,支持Docker、K8s等部署方式,助力智能体开发与应用落地。
935 150
|
23天前
|
人工智能 自然语言处理 Java
AI工具选择困难症?Spring AI帮你省掉64%的令牌费用
你的AI助手有50+个工具但每次对话前就烧掉55000个令牌?就像带着全套工具箱去拧个螺丝一样浪费!Spring AI的工具搜索模式让AI按需发现工具,实现34-64%的令牌节省,告别工具选择困难症和账单焦虑。#Spring AI #工具优化 #令牌节省 #AI开发
183 2
|
24天前
|
机器学习/深度学习 人工智能 自然语言处理
构建AI智能体:六十一、信息论完全指南:从基础概念到在大模型中的实际应用
摘要: 信息论是人工智能尤其是大语言模型的核心数学工具。本文系统介绍了八大核心概念: 信息量:衡量事件意外程度,公式为I(x)=-log₂P(x) 信息熵:评估系统不确定性,H(X)=-ΣP(x)log₂P(x) 联合熵/条件熵:分析多变量关系及条件不确定性 互信息:量化变量间共享信息量 KL散度:衡量概率分布差异 交叉熵:模型训练的核心损失函数 在大语言模型中,这些概念被广泛应用于: 训练阶段:交叉熵优化预测,KL散度防止过拟合 推理阶段:温度参数调节生成文本的创造性(高熵增加多样性)
250 2
|
1月前
|
SQL 人工智能 缓存
阿里云百炼产品月刊【2025年11月】
通义千问本月重磅升级:上线10款多模态与语音模型,涵盖ASR、TTS、视觉语言及翻译;MCP市场新增3个云服务,上架24个电商应用模板;推出实训Agent创客活动,助力高效生成电商视觉内容。
657 10
|
26天前
|
人工智能 JSON 移动开发
AI 试衣服从“娱乐玩具”到真正可商用的能力进化
玩美移动AI Clothes技术专攻商业级虚拟试衣,突破通用大模型局限,实现服装结构精准还原、多体型真实适配、只换衣不换人。支持电商、APP快速集成,推动AI试衣从娱乐走向高转化零售应用。
266 0

热门文章

最新文章