Qwen3-Omni新升级:声形意合,令出智随!

简介: Qwen3-Omni-Flash-2025-12-01是全新升级的全模态大模型,支持文本、图像、音频、视频输入,实现自然语音与文本同步输出。全面优化音视频理解与生成,支持多轮流畅对话、自定义人设与系统指令,提升多语言及跨模态交互准确性,语音更拟人,图像视频理解更深入,打造“声形意合”的智能交互体验。(239字)

5E535D4A-5570-4c1c-8768-E19717237CDC.png
Qwen3-Omni是新一代原生全模态大模型,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音输出。我们引入了多种升级来提升模型表现和效率。

Qwen3-Omni-Flash-2025-12-01是在Qwen3-Omni基础上进行全面升级的版本。

此次升级版本主要特点为:

音视频交互体验全面升级:大幅增强对音视频指令的理解与执行能力,有效解决口语化场景中常见的“降智”问题;多轮音视频对话的稳定性与连贯性显著提升,交互更自然流畅。

系统提示(System Prompt)控制能力飞跃:全面开放 System Prompt 自定义,实现对模型行为的精细调控——无论是人设风格(如甜妹、御姐、日系等)、口语化表达偏好,还是回复长度等要求,均可精准实现,控制力大幅提升。

多语言遵循能力更可靠:支持 119 种文本语言交互、19 种语音识别语言与 10 种语音合成语言,彻底优化上一版本中语言遵循不稳定的问题,确保跨语言场景下响应准确、一致。

语音生成更拟人、更流畅: 彻底解决语速拖沓、机械呆板的问题,显著提升模型根据文本内容自适应调节语速、停顿与韵律的能力,语音表现自然生动,拟人化程度逼近真人。

模型性能

在客观性能指标上,Qwen3-Omni-Flash-2025-12-01全模态能力全面跃升,各项能力均显著超越Qwen3-Omni-Flash:

🧠 文本理解与生成更强大:在逻辑推理(ZebraLogic +5.6)、代码生成(LiveCodeBench-v6 +9.3、MultiPL-E +2.7)和综合写作(WritingBench +2.2)等任务上大幅提升,复杂指令遵循能力再上新台阶。

👂 语音理解更精准:在语音识别(Fleurs-zh)的字错率显著降低,语音对话评估(VoiceBench)得分提升 3.2 分,语音理解能力提升。

🎙️ 语音生成更自然:多语言语音合成质量全面提升,尤其在中文、多语种上,韵律、语速与停顿更贴近真人对话。

👁️ 图像理解更深入:在多学科视觉问答(MMMU +4.7、MMMU_pro +4.8)和数学视觉推理(Mathvision_full +2.2)任务上取得飞跃,能更准确地“看懂”图像内容并进行深度分析。

🎬 视频理解更连贯:视频语义理解能力(MLVU +1.6)持续优化,结合增强的音视频同步能力,为实时视频对话提供坚实基础。

此次升级,让 Qwen3-Omni-Flash-20251201 在全模态场景下真正做到“声形意合,令出智随”,为用户带来前所未有的自然、精准、生动的 AI 交互体验。

image.png

下一步

我们期待听到您的反馈,并看到您使用Qwen3-Omni开发的创新应用。在不久的将来,我们将沿多个技术方向持续推进模型升级,包括多说话人ASR、视频OCR、音视频主动学习等核心能力建设,并强化基于智能体的工作流与函数调用支持。

相关文章
|
4月前
|
人工智能 自然语言处理 Java
AI工具选择困难症?Spring AI帮你省掉64%的令牌费用
你的AI助手有50+个工具但每次对话前就烧掉55000个令牌?就像带着全套工具箱去拧个螺丝一样浪费!Spring AI的工具搜索模式让AI按需发现工具,实现34-64%的令牌节省,告别工具选择困难症和账单焦虑。#Spring AI #工具优化 #令牌节省 #AI开发
605 2
|
24天前
|
自然语言处理 数据可视化 机器人
Qwen3.5-Omni全模态模型正式发布:技术解析与应用场景深度解读
阿里通义千问于2026年3月30日发布旗舰全模态大模型Qwen3.5-Omni,支持文本、图像、视频、音频端到端理解与生成,在215项评测中达SOTA。具备超长上下文(256K)、113语种识别、1-2秒实时响应等突破,赋能智能硬件、音视频处理与多语言应用。(239字)
Qwen3.5-Omni全模态模型正式发布:技术解析与应用场景深度解读
|
2月前
|
机器学习/深度学习 自然语言处理 API
Qwen3.5:迈向原生多模态智能体
除夕夜,通义千问发布Qwen3.5-397B-A17B:全球首个原生多模态MoE大模型,总参3970亿、仅激活170亿参数,性能媲美万亿模型;支持201种语言、超强视觉理解与GUI智能体能力,已开源至GitHub与ModelScope。
3827 4
Qwen3.5:迈向原生多模态智能体
|
5月前
|
人工智能 安全 云计算
中国银联基于通义千问打造金融支付垂域大模型
中国银联携手阿里云,基于通义千问打造金融支付大模型,依托AI技术推动支付清算、风控反欺诈等环节智能化升级,共建安全高效的大模型应用范式,助力金融行业高质量发展。
924 2
中国银联基于通义千问打造金融支付垂域大模型
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
构建AI智能体:六十一、信息论完全指南:从基础概念到在大模型中的实际应用
摘要: 信息论是人工智能尤其是大语言模型的核心数学工具。本文系统介绍了八大核心概念: 信息量:衡量事件意外程度,公式为I(x)=-log₂P(x) 信息熵:评估系统不确定性,H(X)=-ΣP(x)log₂P(x) 联合熵/条件熵:分析多变量关系及条件不确定性 互信息:量化变量间共享信息量 KL散度:衡量概率分布差异 交叉熵:模型训练的核心损失函数 在大语言模型中,这些概念被广泛应用于: 训练阶段:交叉熵优化预测,KL散度防止过拟合 推理阶段:温度参数调节生成文本的创造性(高熵增加多样性)
654 2
|
2月前
|
人工智能 JSON 自然语言处理
阿里云百炼产品月报【2026年1月】
阿里云百炼本月重磅升级:应用与知识库全面商业化,支持音视频多模态检索;Qwen3-Max模型直降60%,推出AI通用型节省计划;上线134+开箱即用模板及8款新模型;新客 Coding Plan 首月仅10元,配套“打工人AI提效课”与新春创意活动。
1306 8
阿里云百炼产品月报【2026年1月】

热门文章

最新文章

下一篇
开通oss服务