刚刚,阿里云千问家族迎来新成员——Qwen3.5-Omni全模态大模型正式亮相。它在215项任务中拿下全球第一,能听懂113种语言和方言,甚至对着镜头说需求就能自动生成APP、网页、游戏代码。目前普通用户可免费体验,开发者可通过阿里云百炼调用API,阿里云百炼平台:https://www.aliyun.com/product/bailian
一、全模态王者:215项测试拿下SOTA
Qwen3.5-Omni采用混合注意力MoE架构,在海量文本、图像以及超过1亿小时的音视频数据上进行了原生多模态预训练。它支持图片、视频、语音、文字的全模态输入与输出。
在音视频理解、跨模态推理、智能体等215项第三方性能测试中,Qwen3.5-Omni全部取得SOTA(性能最佳),被评价为“目前全球最强的全模态大模型之一”。
关键对比数据:
- DailyOmni、QualcommInteractive等视听交互测试:得分大幅领先Google Gemini-3.1 Pro
- WenetSpeech嘈杂环境语音识别:错误率远低于Gemini
- Multi-Lingual (30种语言) 语音生成质量:显著优于Gemini-2.5-Pro-TTS
关于Qwen3.5-Omni的详细介绍,请移步到阿里云通义大模型平台查看:https://www.aliyun.com/product/tongyi 如下图:
二、听懂113种语言,实时交互像真人
Qwen3.5-Omni支持113种语言及方言的语音识别,以及36种语言及方言的语音生成。就连使用人数不足百万的毛利语和海南话,也能精准识别。
实时交互体验大幅升级:
- 能高情商理解用户对话意图,区分有效回应与随口附和
- 可根据指令自由调节语音、语调
- 基于ARIA技术,生成语音更自然、稳定
- 面对实时提问(如“今天天气怎样”),能自主调用工具获取最新信息
三、音视频Vibe Coding:动动嘴就能编程
这是最令人惊喜的能力。与纯文本或图片驱动的Vibe Coding不同,千问实现了音视频编程:
打开摄像头,对着草图口述需求——哪怕包含复杂的产品逻辑——模型就能直接生成带有复杂UI的产品原型界面、网页、甚至小游戏。
这一能力并非刻意设计,而是模型在原生多模态能力持续扩展中自然涌现的结果。从此,“动动嘴即可编程”成为现实。
四、超长音频+画面校对,专业生产力工具
Qwen3.5-Omni能对视频中的画面主体、人物关系、对话逻辑、情绪起伏进行极致拆解,自动完成视频章节切片与时间戳标注。
- 支持超过10小时的音频输入
- 繁琐的视频后期梳理工作缩短至秒级
- 大幅降低内容管理成本,适用于视频创作、内容审核等场景
五、如何体验与调用
- 普通用户:前往 Qwen Chat 免费体验
- 开发者和企业:通过阿里云百炼平台调用Qwen3.5-Omni模型的三种API版本:
- Plus:高性能版
- Flash:轻量快速版
- Light:超低成本版
总结:Qwen3.5-Omni不仅刷新了全模态大模型的天花板,更用“音视频编程”打开了人机协作的新想象空间。无论是个人开发者想尝鲜,还是企业需要落地音视频理解、自动编程、多语言交互,现在都可以零门槛上手。更多关于阿里云千问Qwen3.5-Omni的介绍、调用及使用,请移步到阿里云百炼官方平台查看:https://www.aliyun.com/product/bailian