Qwen3-Omni新升级:声形意合,令出智随!

简介: Qwen3-Omni-Flash-2025-12-01是全新升级的全模态大模型,支持文本、图像、音频、视频输入,实现自然语音与文本同步输出。全面优化音视频理解与生成,支持多轮流畅对话、自定义人设与系统指令,提升多语言及跨模态交互准确性,语音更拟人,图像视频理解更深入,打造“声形意合”的智能交互体验。(239字)

5E535D4A-5570-4c1c-8768-E19717237CDC.png
Qwen3-Omni是新一代原生全模态大模型,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音输出。我们引入了多种升级来提升模型表现和效率。

Qwen3-Omni-Flash-2025-12-01是在Qwen3-Omni基础上进行全面升级的版本。

此次升级版本主要特点为:

音视频交互体验全面升级:大幅增强对音视频指令的理解与执行能力,有效解决口语化场景中常见的“降智”问题;多轮音视频对话的稳定性与连贯性显著提升,交互更自然流畅。

系统提示(System Prompt)控制能力飞跃:全面开放 System Prompt 自定义,实现对模型行为的精细调控——无论是人设风格(如甜妹、御姐、日系等)、口语化表达偏好,还是回复长度等要求,均可精准实现,控制力大幅提升。

多语言遵循能力更可靠:支持 119 种文本语言交互、19 种语音识别语言与 10 种语音合成语言,彻底优化上一版本中语言遵循不稳定的问题,确保跨语言场景下响应准确、一致。

语音生成更拟人、更流畅: 彻底解决语速拖沓、机械呆板的问题,显著提升模型根据文本内容自适应调节语速、停顿与韵律的能力,语音表现自然生动,拟人化程度逼近真人。

模型性能

在客观性能指标上,Qwen3-Omni-Flash-2025-12-01全模态能力全面跃升,各项能力均显著超越Qwen3-Omni-Flash:

🧠 文本理解与生成更强大:在逻辑推理(ZebraLogic +5.6)、代码生成(LiveCodeBench-v6 +9.3、MultiPL-E +2.7)和综合写作(WritingBench +2.2)等任务上大幅提升,复杂指令遵循能力再上新台阶。

👂 语音理解更精准:在语音识别(Fleurs-zh)的字错率显著降低,语音对话评估(VoiceBench)得分提升 3.2 分,语音理解能力提升。

🎙️ 语音生成更自然:多语言语音合成质量全面提升,尤其在中文、多语种上,韵律、语速与停顿更贴近真人对话。

👁️ 图像理解更深入:在多学科视觉问答(MMMU +4.7、MMMU_pro +4.8)和数学视觉推理(Mathvision_full +2.2)任务上取得飞跃,能更准确地“看懂”图像内容并进行深度分析。

🎬 视频理解更连贯:视频语义理解能力(MLVU +1.6)持续优化,结合增强的音视频同步能力,为实时视频对话提供坚实基础。

此次升级,让 Qwen3-Omni-Flash-20251201 在全模态场景下真正做到“声形意合,令出智随”,为用户带来前所未有的自然、精准、生动的 AI 交互体验。

image.png

下一步

我们期待听到您的反馈,并看到您使用Qwen3-Omni开发的创新应用。在不久的将来,我们将沿多个技术方向持续推进模型升级,包括多说话人ASR、视频OCR、音视频主动学习等核心能力建设,并强化基于智能体的工作流与函数调用支持。

相关文章
|
4天前
|
云安全 监控 安全
|
2天前
|
存储 机器学习/深度学习 人工智能
打破硬件壁垒!煎饺App:强悍AI语音工具,为何是豆包AI手机平替?
直接上干货!3000 字以上长文,细节拉满,把核心功能、使用技巧和实测结论全给大家摆明白,读完你就知道这款 “安卓机通用 AI 语音工具"——煎饺App它为何能打破硬件壁垒?它接下来,咱们就深度拆解煎饺 App—— 先给大家扒清楚它的使用逻辑,附上“操作演示”和“🚀快速上手不踩坑 : 4 条核心操作干货(必看)”,跟着走零基础也能快速上手;后续再用真实实测数据,正面硬刚煎饺 App的语音助手口令效果——创建京东「牛奶自动下单神器」口令 ,从修改口令、识别准确率到场景实用性,逐一测试不掺水,最后,再和豆包 AI 手机语音助手的普通版——豆包App对比测试下,简单地谈谈煎饺App的能力边界在哪?
|
9天前
|
机器学习/深度学习 人工智能 自然语言处理
Z-Image:冲击体验上限的下一代图像生成模型
通义实验室推出全新文生图模型Z-Image,以6B参数实现“快、稳、轻、准”突破。Turbo版本仅需8步亚秒级生成,支持16GB显存设备,中英双语理解与文字渲染尤为出色,真实感和美学表现媲美国际顶尖模型,被誉为“最值得关注的开源生图模型之一”。
1127 7
|
11天前
|
机器学习/深度学习 人工智能 数据可视化
1秒生图!6B参数如何“以小博大”生成超真实图像?
Z-Image是6B参数开源图像生成模型,仅需16GB显存即可生成媲美百亿级模型的超真实图像,支持中英双语文本渲染与智能编辑,登顶Hugging Face趋势榜,首日下载破50万。
724 42
|
15天前
|
人工智能 Java API
Java 正式进入 Agentic AI 时代:Spring AI Alibaba 1.1 发布背后的技术演进
Spring AI Alibaba 1.1 正式发布,提供极简方式构建企业级AI智能体。基于ReactAgent核心,支持多智能体协作、上下文工程与生产级管控,助力开发者快速打造可靠、可扩展的智能应用。
1169 41
|
15天前
|
人工智能 前端开发 算法
大厂CIO独家分享:AI如何重塑开发者未来十年
在 AI 时代,若你还在紧盯代码量、执着于全栈工程师的招聘,或者仅凭技术贡献率来评判价值,执着于业务提效的比例而忽略产研价值,你很可能已经被所谓的“常识”困住了脚步。
934 77
大厂CIO独家分享:AI如何重塑开发者未来十年
|
3天前
|
人工智能 安全 前端开发
AgentScope Java v1.0 发布,让 Java 开发者轻松构建企业级 Agentic 应用
AgentScope 重磅发布 Java 版本,拥抱企业开发主流技术栈。
|
1天前
|
人工智能 JSON 前端开发
为什么你的API文档总是被吐槽?用这份"契约指令"终结前后端战争
本文针对前后端协作中"文档过时、不准确"的痛点,提供了一套实战验证的AI指令。通过强制结构化输入和自检机制,让AI自动生成包含完整参数、JSON示例和多语言代码的标准API契约文档,彻底解决接口沟通难题。
171 112
|
11天前
|
存储 自然语言处理 测试技术
一行代码,让 Elasticsearch 集群瞬间雪崩——5000W 数据压测下的性能避坑全攻略
本文深入剖析 Elasticsearch 中模糊查询的三大陷阱及性能优化方案。通过5000 万级数据量下做了高压测试,用真实数据复刻事故现场,助力开发者规避“查询雪崩”,为您的业务保驾护航。
560 32

热门文章

最新文章