同时斩获两个开源第一,超火的通义Qwen3-VL CookBook来了

本文涉及的产品
多模态交互后付费免费试用,全链路、全Agent
简介: Qwen3-VL开源发布后广受认可,登顶Chatbot Arena视觉榜与OpenRouter图像处理市场份额第一。支持文档解析、OCR、视频理解、3D定位等多模态任务,现推出详细Cookbook助力开发者高效应用。

自 Qwen3-VL 开源发布以来,我们欣喜地看到该模型在全球AI开源社区中收获的的广泛认可!

在9月底的Chatbot Arena子榜单Vision Arena中,Qwen3-VL位居第二,是视觉理解领域中的全球开源冠军;同时,Qwen3-VL还斩获纯文本赛道(Text Arena)的开源第一(全球第8),成为首个揽获纯文本和视觉两大领域同时开源第一的大模型。Chatbot Arena 是全球最具公信力的模型评测榜单之一,所有模型均由真实用户在盲测环境下进行匿名对比评分,代表了开发者对模型性能的公允评判。

image.png

并且,Qwen3-VL还在 OpenRouter 图像处理榜单上以 48% 的市场份额跃升至全球第一。OpenRouter是全球知名的大模型API三方聚合平台,其榜单是开发者和机构真实“用脚投票”的结果,是全球模型热门程度最直接的证明。

image.png

感谢所有开发者与社区伙伴对Qwen3-VL的喜爱和支持!为进一步帮助大家高效上手和深度应用,我们推出Qwen3-VL Cookbook,详解本地模型部署与 API 调用。


这些 Cookbook 围绕真实场景设计,覆盖高精度文档解析、多语言自然场景 OCR、长视频理解、3D 物体定位、空间关系推理,以及面向移动端和计算机操作的智能体控制等核心能力,全面展现 Qwen3-VL 在复杂视觉语言任务中的强大表现。欢迎试用、反馈,并与我们一起拓展多模态大模型的应用边界。


🔗 链接:

https://github.com/QwenLM/Qwen3-VL/tree/main/cookbooks

💬 体验地址:

chat.qwen.ai (在模型列表选择Qwen3-VL系列模型)

🤖 模型链接:

https://modelscope.cn/collections/Qwen3-VL-5c7a94c8cb144b

⚙️ 百炼 API :

https://help.aliyun.com/zh/model-studio/developer-reference/qwen-vl-api

image.png

01 全能的万物识别

这个 Notebook 展示了 Qwen3-VL 的全能识别能力。Qwen3-VL模型不仅能识别动物、植物、人物和景点,还能准确辨识汽车、商品等各类日常物体,既满足日常生活中的识别需求,也支持专业场景下的“万物识别”能力。
👉 https://github.com/QwenLM/Qwen3-VL/blob/main/cookbooks/omni_recognition.ipynb


02 升级的文档解析

这个 Notebook 展示了 Qwen3-VL 强大的文档解析能力。模型不仅能提取文本内容,还能理解版面结构、元素位置,支持输出HTML、JSON、Markdown 、 LaTeX以及我们独特设计的 Qwenvl HTML 格式和Qwenvl Markdown格式的结构化结果,适用于复杂文档自动化处理。
👉 https://github.com/QwenLM/Qwen3-VL/blob/main/cookbooks/document_parsing.ipynb


03 多格式的精准定位标注

这个 Notebook 展示了 Qwen3-VL 在跨格式目标定位上的能力。模型支持以相对位置坐标输出边界框(boxes)或点(points),灵活应对多样化的视觉定位与标注任务。
👉 https://github.com/QwenLM/Qwen3-VL/blob/main/cookbooks/2d_grounding.ipynb


04 通用OCR及关键信息提取

这个 Notebook 展示了 Qwen3-VL 在自然场景和多语言环境下的 OCR 与关键信息提取能力。模型可高精度识别文本,并从中结构化提取姓名、日期、金额等关键字段。
👉 https://github.com/QwenLM/Qwen3-VL/blob/main/cookbooks/ocr_kie.ipynb


05 视频理解

这个 Notebook 展示了 Qwen3-VL 的视频理解能力。模型支持长视频语义分析、视频内 OCR 识别以及基于时间与空间的视频定位,适用于复杂视频内容解析任务。
👉 https://github.com/QwenLM/Qwen3-VL/blob/main/cookbooks/video_understanding.ipynb


06 Mobile Agent

这个 Notebook 展示了如何使用 Qwen3-VL 构建移动端智能体。模型可结合手机屏幕截图与用户指令,理解界面状态并生成触控或输入操作,实现对移动设备的智能控制。
👉 https://github.com/QwenLM/Qwen3-VL/blob/main/cookbooks/mobile_agent.ipynb


07 Computer-Use Agent

这个 Notebook 展示了如何使用 Qwen3-VL 为计算机和网页操作提供定位与推理能力。模型通过分析桌面截图与自然语言指令,理解当前界面并生成精准的点击、滚动或键盘输入操作,完成自动化任务。
👉 https://github.com/QwenLM/Qwen3-VL/blob/main/cookbooks/computer_use.ipynb


08 3D Grounding

这个 Notebook 展示了 Qwen3-VL 的 3D 定位能力。模型可根据 3D 场景输入,为室内外物体生成精确的 3D 边界框,支持空间感知与交互应用。
👉 https://github.com/QwenLM/Qwen3-VL/blob/main/cookbooks/3d_grounding.ipynb


09 带图推理

这个 Notebook 展示了 Qwen3-VL 如何结合工具进行细粒度图像理解。通过调用image_zoom_in_tool 和 search_tool,模型可聚焦局部区域、检索相关信息,实现对复杂图像的深度推理。
👉 https://github.com/QwenLM/Qwen3-VL/blob/main/cookbooks/think_with_images.ipynb


10 多模态编程

这个 Notebook 展示了 Qwen3-VL 的多模态编程能力。模型能结合图像、文本等多源信息,准确理解需求并生成功能正确的代码,适用于 UI 转代码、图表解析等场景。
👉 https://github.com/QwenLM/Qwen3-VL/blob/main/cookbooks/mmcode.ipynb


11 长文本理解

这个 Notebook 展示了 Qwen3-VL 对超长文档的语义理解能力。模型可高效处理数十页甚至上百页的文档,准确回答跨页问题、提取关键信息并保持上下文一致性。
👉 https://github.com/QwenLM/Qwen3-VL/blob/main/cookbooks/long_document_understanding.ipynb


12 空间理解

这个 Notebook 展示了 Qwen3-VL 的空间理解能力。模型能解析图像或场景中的物体位置、方向与相对关系,并进行空间推理,适用于导航、布局分析等任务。
👉 https://github.com/QwenLM/Qwen3-VL/blob/main/cookbooks/spatial_understanding.ipynb


欢迎体验

未来,我们将持续丰富和优化这些示例,覆盖更多前沿场景与实用功能,助力开发者更高效地构建多模态应用。欢迎您访问我们的 GitHub 仓库,运行这些 Notebook,并将您的反馈、建议或创新用例分享给我们!


⛳如果还想要了解更多通义大模型的模型详细信息以及直接进入体验,可以点击🔗https://www.aliyun.com/product/tongyi直接进入查看和体验哦~~

也可以关注一下通义大模型的公众号,后续有新的产品动态都会在内发布。

通义大模型公众号二维码.png

相关文章
|
2天前
|
云安全 数据采集 人工智能
古茗联名引爆全网,阿里云三层防护助力对抗黑产
阿里云三层校验+风险识别,为古茗每一杯奶茶保驾护航!
古茗联名引爆全网,阿里云三层防护助力对抗黑产
|
6天前
|
人工智能 中间件 API
AutoGen for .NET - 架构学习指南
《AutoGen for .NET 架构学习指南》系统解析微软多智能体框架,涵盖新旧双架构、核心设计、技术栈与实战路径,助你从入门到精通,构建分布式AI协同系统。
302 142
|
2天前
|
存储 机器学习/深度学习 人工智能
大模型微调技术:LoRA原理与实践
本文深入解析大语言模型微调中的关键技术——低秩自适应(LoRA)。通过分析全参数微调的计算瓶颈,详细阐述LoRA的数学原理、实现机制和优势特点。文章包含完整的PyTorch实现代码、性能对比实验以及实际应用场景,为开发者提供高效微调大模型的实践指南。
379 0
|
3天前
|
传感器 人工智能 算法
数字孪生智慧水务系统,三维立体平台,沃思智能
智慧水务系统融合物联网、数字孪生与AI技术,实现供水全流程智能监测、预测性维护与动态优化。通过实时数据采集与三维建模,提升漏损控制、节能降耗与应急响应能力,推动水务管理从经验驱动迈向数据驱动,助力城市水资源精细化、可持续化管理。
264 142
|
2天前
|
存储 人工智能 Java
AI 超级智能体全栈项目阶段四:学术分析 AI 项目 RAG 落地指南:基于 Spring AI 的本地与阿里云知识库实践
本文介绍RAG(检索增强生成)技术,结合Spring AI与本地及云知识库实现学术分析AI应用,利用阿里云Qwen-Plus模型提升回答准确性与可信度。
200 90
AI 超级智能体全栈项目阶段四:学术分析 AI 项目 RAG 落地指南:基于 Spring AI 的本地与阿里云知识库实践
|
17天前
|
存储 关系型数据库 分布式数据库
PostgreSQL 18 发布,快来 PolarDB 尝鲜!
PostgreSQL 18 发布,PolarDB for PostgreSQL 全面兼容。新版本支持异步I/O、UUIDv7、虚拟生成列、逻辑复制增强及OAuth认证,显著提升性能与安全。PolarDB-PG 18 支持存算分离架构,融合海量弹性存储与极致计算性能,搭配丰富插件生态,为企业提供高效、稳定、灵活的云数据库解决方案,助力企业数字化转型如虎添翼!
|
2天前
|
机器学习/深度学习 人工智能 运维
智能照明稳压节能控制器,路灯节能稳压系统,沃思智能
智能照明调控柜集电力分配、远程控制与能耗管理于一体,支持自动调光、场景切换与云平台运维,广泛应用于市政、商业及工业领域,显著节能降耗,助力智慧城市建设。
181 137
kde
|
2天前
|
人工智能 关系型数据库 PostgreSQL
n8n Docker 部署手册
n8n是一款开源工作流自动化平台,支持低代码与可编程模式,集成400+服务节点,原生支持AI与API连接,可自托管部署,助力团队构建安全高效的自动化流程。
kde
252 3