今天,我们正式发布 Qwen3.7-Plus——将视觉与语言统一为一体化智能体基座的多模态模型。在 Qwen3.7 强大文本能力的基础上,Qwen3.7-Plus 全面升级了视觉-语言能力,同时保持了在编码、工具使用和生产力工作流方面的完整智能体能力。
Qwen3.7-Plus 的核心特色在于其作为多模态交互混合智能体的能力。它能够感知真实世界场景、读取屏幕并操作 GUI、基于视觉参考生成代码、端到端导航移动应用,以及基于网络知识回答视觉问题——在单一智能体循环中无缝融合 GUI 与 CLI 交互。作为全能型编码智能体与生产力助手,它以全模态输入处理从前端原型到复杂软件工程、再到多步工作流自动化的全方位任务。它具备跨框架泛化能力,无论通过 Claude Code、OpenClaw、Qwen Code 还是其他框架部署,均能保持稳定表现。
Qwen3.7-Plus — 现已通过阿里云百炼提供服务:
- Multimodal Agent:统一处理图像、视频、屏幕、网页和文本输入,并在 GUI / CLI / 工具环境中完成任务
- Visual Agent:结合视觉理解、代码解释器和搜索增强,解决视觉谜题、真实世界问答和复杂推理任务
- Visual Coding:从图像或视频生成 SVG、网页和交互式前端,实现视觉参考到代码的端到端转化
- GUI Agent:理解移动端和桌面端界面,进行控件定位、任务规划和多步操作
- Real-world Perception & Reasoning:覆盖真实场景、文档图表、OCR、视频和驾驶场景理解
Blog:
https://qwen.ai/blog?id=qwen3.7-plus
阿里云百炼:
Qwen Studio:
https://chat.qwen.ai/?models=qwen3.7-plus
模型表现
在全球权威视觉模型榜单 Vision Arena 中,凭借Qwen3.7-Plus,阿里跻身全球前五、中国第一。
纯文本测试集
Qwen3.7-Plus 在纯文本能力上表现出色,整体接近 Max 级别模型。在编码 Agent 方面,它在 Terminal Bench 2.0、SWE-bench 系列和 SciCode 上表现强劲,能够有效处理真实软件工程和科学编程任务。在通用 Agent 方面,它在 MCP-Mark、Deep-Planning 和 Kernel Bench L3 上展现了稳健的工具使用与规划能力,在复杂多步规划和 GPU kernel 优化方面尤为突出。其推理能力在 GPQA Diamond、HMMT 和 IMOAnswerBench 上表现优异,在高难度 STEM 基准测试中位于 Plus 级别模型前列。在指令遵循与多语言任务方面,它在 IFBench、WMT24++ 和 PolyMATH 上保持了稳定的高质量表现,覆盖了广泛的语言和领域。
多模态测试集
Qwen3.7-Plus 的多模态能力提升,不仅是单点视觉理解能力的优化,而是围绕多模态智能体所需的关键能力系统性增强:看懂复杂视觉输入、基于视觉进行推理、调用工具解决问题,并最终在代码或 GUI 环境中执行任务。
- 在Multimodal Reasoning方面,Qwen3.7-Plus 在 BabyVision、MathVision、HiPhO、ERQA 和 VisFactor 等高难度视觉推理基准上取得强表现,体现出对图像细节、空间关系、物理常识和多步逻辑的综合理解能力。尤其在 BabyVision 上,相比 Qwen3.6-Plus 有显著提升,说明模型在更接近人类早期视觉认知和空间推理的任务上具备更强泛化能力。
- 在Visual Agent & Coding方向,Qwen3.7-Plus在ScreenSpot Pro、OSWorld-Verified 和AndroidWorld上显著提升,说明模型不仅能够识别屏幕内容,还能够定位关键 UI 元素、理解任务意图,并完成多步交互操作。在 QwenVision2Code 上,模型也展现了强视觉到代码生成能力,能够将图像、视频和设计参考转化为可执行代码。这类能力是多模态智能体从“看懂界面”走向“操作界面”和“构建界面”的基础。
- 在Multimodal Search & Knowledge QA方面,Qwen3.7-Plus在SimpleVQA、WorldVQA、MMSearchPlus、BC-VL 和 MMBC 上均有明显增强。模型可以将视觉输入与外部知识检索结合起来,回答单纯依赖图像内容无法完成的问题。这使它更适合真实世界任务:用户不只是问“图里有什么”,而是希望模型结合图像、常识和最新知识给出可靠答案。
- 在 General Visual Understanding 方面,Qwen3.7-Plus 覆盖真实世界场景、文档解析、图表阅读、OCR、计数和空间定位等基础能力,在 RealWorldQA、CountQA、OmniDocBench、CharXiv、OCR-Bench-V2 等任务上保持强表现。这些能力决定了模型能否稳定处理真实业务输入,包括截图、票据、表格、报告、海报、商品图和复杂 UI 页面。
此外,Qwen3.7-Plus 进一步增强了视频理解和驾驶场景理解。在 VideoMMMU、MLVU、TVBench、LVBench 等视频任务上,它能够处理短视频和长视频中的事件、动作、时序和语义关系;在 LingoQA、Ego3D-Bench、SURDS 和 VLADBench 等驾驶相关评测中,也展现出对动态场景、交通参与者和空间关系的强理解能力。这为真实世界多模态智能体、自动驾驶理解和 embodied 场景打下了基础。
Qwen3.7-Plus 案例展示多模态交互混合智能体
Qwen3.7-Plus 具备面向真实任务闭环执行的多模态混合智能体能力。它不仅能够理解视觉界面、感知屏幕内容、执行 GUI 操作与 CLI 调用,还能结合环境反馈进行代码生成、应用操作、测试验证与迭代优化,将“看、想、写、做、验”整合进统一的智能体工作流中,支撑复杂软件任务从理解到交付的端到端自动完成。
基于 Qwen3.7-Plus 构建的 Hybrid-Agent 智能体系统,将大模型的代码生成能力与 GUI 自动化执行深度融合,实现了从需求分析到版本迭代的 APP 全链路开发。Agent持续稳定运行 11+ 小时,全程自动完成了一款英语单词学习 APP 的完整研发闭环。累计生成代码超过 10,000+ 行,触发 Agent 调用超过 1,000+ 次,覆盖软件开发全生命周期的核心环节:需求文档生成、代码自动编写、自动化安装部署、测试用例创建 、GUI 自动化测试、多场景并行化测试、产品说明自动更新、自动版本迭代演进。
针对专业桌面应用场景,Hybrid-Agent 智能体系统深度融合大模型的 GUI 感知能力与代码生成能力,实现了桌面端专业应用的一键自主复刻。Agent 全程自主完成了 macOS 原生 Stocks(股市)应用的高保真复刻,涵盖从需求理解到交付验证的完整闭环:自主交互原生应用并理解 UI 布局与功能细节,基于交互记录自动生成 SwiftUI 源码,接入 LongBridge 真实行情 API 获取实时市场数据,自动编译构建并启动复刻应用,最终自主执行 10 项功能验证测试——包括实时行情加载、股票选择与切换、多周期视图切换、搜索过滤、详细数据面板展示等——全部通过。最终交付的应用完整复现了原生 Stocks 的暗色主题、分栏布局、实时行情数据与完整交互体验。
视觉Agent
Qwen3.7-Plus 可以作为强大的视觉 Agent,将视觉理解与工具使用相结合来解决复杂的视觉任务。通过代码解释器集成,它可以分析图像来找不同、补图块、解华容道、走迷宫、拼拼图——全程通过自主生成和执行代码完成。结合搜索增强,它能够基于网络知识对真实世界的视觉问题进行多模态推理和回答,支持单图、多图和视频输入。下面我们通过几组样例展示 Qwen3.7-Plus 的多模态智能体能力。
多模态推理
在多模态推理中,我们引入了代码执行进一步提升模型的推理能力,会先理解图像中的结构和约束,再将视觉问题转化为可计算的问题表示,随后自主编写并执行代码进行求解、搜索或验证。例如,在找不同、补图块、华容道、迷宫和拼图等任务中,模型不仅需要识别图像内容,还需要进行空间建模、路径搜索、状态推演和结果校验。这类任务体现了 Qwen3.7-Plus 从“视觉感知”到“程序化求解”的能力。
搜索增强视觉问答
在搜索增强视觉问答中,Qwen3.7-Plus 可以将图像、视频或多图输入与网络搜索结合起来,回答真实世界知识问题。模型会先从视觉输入中提取关键实体、场景、文字和上下文线索,再通过搜索获取外部知识,并综合视觉证据和检索结果给出答案。这使模型能够处理大量开放世界问题,例如识别地点、理解事件背景、分析商品或物体信息,以及回答依赖最新知识的视觉问题。
视觉编程
Qwen3.7-Plus 展现了强大的视觉到代码生成能力。它可以将图像、视频、UI 截图和设计参考转化为可执行代码,覆盖从 SVG 复现到完整网页生成的多种场景。
图像/视频转 SVG
在图像/视频转 SVG 任务中,模型需要理解视觉内容中的几何结构、颜色、布局、层级关系和动态变化,并将这些视觉元素用代码形式精确表达。这不仅要求模型“看懂图像”,也要求模型具备结构化表达和代码生成能力。对于图标、插画、动效、图形设计和信息可视化等场景,这类能力可以显著降低从视觉参考到可编辑代码资产的成本。
演示:vision to svg
Prompt:
Please generate svg code according to the image.
Qwen3.7:
视觉驱动的网页设计
在视觉驱动的网页设计中,Qwen3.7-Plus 可以基于视觉参考、视频素材或设计意图生成完整交互式网页,同时模型可以借助生成工具完成网页设计的素材生产。模型不仅要复现页面风格,还需要组织布局、编写前端代码、处理交互逻辑,并将多模态素材整合进最终页面。这展示了 Qwen3.7-Plus 作为视觉编程助手的潜力:从“给一张参考图”到“生成一个可运行的网页原型”。
浏览器智能助手
我们基于 Qwen3.7-Plus 构建了浏览器智能助手,并通过 Qwen for Chrome 浏览器插件完成任务演示与录制。Qwen for Chrome 是一款嵌入 Chrome 浏览器的智能助手,用户可以在浏览器侧边栏中直接与 Qwen 对话,并在授权后切换至 Agent 模式。在该模式下,Qwen 能够感知当前网页内容、理解用户任务、规划操作步骤,并以 Browser Agent 的形式在真实浏览器环境中执行点击、输入、跳转、配置和验证等操作。
在此基础上,Qwen3.7 浏览器 Agent 将大模型的页面理解、任务规划与 GUI 自动化执行能力深度融合。面对非科班用户“采购一台最便宜 ECS 服务器”的需求,Agent 能够直接进入云控制台,完成实例规格比价、低成本选型、镜像与存储配置、安全组设置、订单确认等完整操作,并在价格变化、库存限制或购买受阻时主动反思和调整策略。随后,Agent 继续承接实例扩容与运维升级任务,自动完成停机、配置调整、磁盘扩容、服务恢复与结果验证,覆盖云服务器从采购到升级的真实使用链路。原本需要用户理解复杂控制台逻辑、反复切换页面并手动排查问题的流程,如今可以被 Agent 转化为连续、高效、可交付的浏览器自动化任务。
真实世界推理
Qwen3.7-Plus 在真实世界感知与多模态推理方面表现出色。真实场景往往比标准图像问答更复杂:画面中可能存在遮挡、杂乱背景、小目标、多对象关系、跨图对比和隐含物理常识。模型需要先稳定识别视觉细节,再结合空间关系、常识和逻辑推理给出可靠答案。
总结
Qwen3.7-Plus 是我们目前最强的多模态智能体模型,将视觉理解与语言推理统一为一体化的智能体基座。它作为多模态交互混合智能体运行——感知真实世界场景、操作图形界面、基于视觉参考编写代码,并在 GUI 与 CLI 环境中端到端完成任务。作为全能型编码智能体与生产力助手,它处理从前端原型到复杂软件工程、从文档格式化到多步工作流自动化的全方位任务。它具备跨框架泛化能力,无论通过 Claude Code、OpenClaw、Qwen Code 还是其他框架部署,均能保持稳定表现。我们期待社区的反馈,也期待看到大家基于 Qwen3.7-Plus 构建的应用。
扫描下方二维码,可直达千问云进行体验
来源 | 阿里云开发者公众号