同时斩获两个开源第一,超火的通义Qwen3-VL CookBook来了

本文涉及的产品
多模态交互后付费免费试用,全链路、全Agent
简介: Qwen3-VL开源发布后广受认可,登顶Chatbot Arena视觉榜与OpenRouter图像处理市场份额第一。支持文档解析、OCR、视频理解、3D定位等多模态任务,现推出详细Cookbook助力开发者高效应用。

自 Qwen3-VL 开源发布以来,我们欣喜地看到该模型在全球AI开源社区中收获的的广泛认可!

在9月底的Chatbot Arena子榜单Vision Arena中,Qwen3-VL位居第二,是视觉理解领域中的全球开源冠军;同时,Qwen3-VL还斩获纯文本赛道(Text Arena)的开源第一(全球第8),成为首个揽获纯文本和视觉两大领域同时开源第一的大模型。Chatbot Arena 是全球最具公信力的模型评测榜单之一,所有模型均由真实用户在盲测环境下进行匿名对比评分,代表了开发者对模型性能的公允评判。

image.png

并且,Qwen3-VL还在 OpenRouter 图像处理榜单上以 48% 的市场份额跃升至全球第一。OpenRouter是全球知名的大模型API三方聚合平台,其榜单是开发者和机构真实“用脚投票”的结果,是全球模型热门程度最直接的证明。

image.png

感谢所有开发者与社区伙伴对Qwen3-VL的喜爱和支持!为进一步帮助大家高效上手和深度应用,我们推出Qwen3-VL Cookbook,详解本地模型部署与 API 调用。


这些 Cookbook 围绕真实场景设计,覆盖高精度文档解析、多语言自然场景 OCR、长视频理解、3D 物体定位、空间关系推理,以及面向移动端和计算机操作的智能体控制等核心能力,全面展现 Qwen3-VL 在复杂视觉语言任务中的强大表现。欢迎试用、反馈,并与我们一起拓展多模态大模型的应用边界。


🔗 链接:

https://github.com/QwenLM/Qwen3-VL/tree/main/cookbooks

💬 体验地址:

chat.qwen.ai (在模型列表选择Qwen3-VL系列模型)

🤖 模型链接:

https://modelscope.cn/collections/Qwen3-VL-5c7a94c8cb144b

⚙️ 百炼 API :

https://help.aliyun.com/zh/model-studio/developer-reference/qwen-vl-api

image.png

01 全能的万物识别

这个 Notebook 展示了 Qwen3-VL 的全能识别能力。Qwen3-VL模型不仅能识别动物、植物、人物和景点,还能准确辨识汽车、商品等各类日常物体,既满足日常生活中的识别需求,也支持专业场景下的“万物识别”能力。
👉 https://github.com/QwenLM/Qwen3-VL/blob/main/cookbooks/omni_recognition.ipynb


02 升级的文档解析

这个 Notebook 展示了 Qwen3-VL 强大的文档解析能力。模型不仅能提取文本内容,还能理解版面结构、元素位置,支持输出HTML、JSON、Markdown 、 LaTeX以及我们独特设计的 Qwenvl HTML 格式和Qwenvl Markdown格式的结构化结果,适用于复杂文档自动化处理。
👉 https://github.com/QwenLM/Qwen3-VL/blob/main/cookbooks/document_parsing.ipynb


03 多格式的精准定位标注

这个 Notebook 展示了 Qwen3-VL 在跨格式目标定位上的能力。模型支持以相对位置坐标输出边界框(boxes)或点(points),灵活应对多样化的视觉定位与标注任务。
👉 https://github.com/QwenLM/Qwen3-VL/blob/main/cookbooks/2d_grounding.ipynb


04 通用OCR及关键信息提取

这个 Notebook 展示了 Qwen3-VL 在自然场景和多语言环境下的 OCR 与关键信息提取能力。模型可高精度识别文本,并从中结构化提取姓名、日期、金额等关键字段。
👉 https://github.com/QwenLM/Qwen3-VL/blob/main/cookbooks/ocr_kie.ipynb


05 视频理解

这个 Notebook 展示了 Qwen3-VL 的视频理解能力。模型支持长视频语义分析、视频内 OCR 识别以及基于时间与空间的视频定位,适用于复杂视频内容解析任务。
👉 https://github.com/QwenLM/Qwen3-VL/blob/main/cookbooks/video_understanding.ipynb


06 Mobile Agent

这个 Notebook 展示了如何使用 Qwen3-VL 构建移动端智能体。模型可结合手机屏幕截图与用户指令,理解界面状态并生成触控或输入操作,实现对移动设备的智能控制。
👉 https://github.com/QwenLM/Qwen3-VL/blob/main/cookbooks/mobile_agent.ipynb


07 Computer-Use Agent

这个 Notebook 展示了如何使用 Qwen3-VL 为计算机和网页操作提供定位与推理能力。模型通过分析桌面截图与自然语言指令,理解当前界面并生成精准的点击、滚动或键盘输入操作,完成自动化任务。
👉 https://github.com/QwenLM/Qwen3-VL/blob/main/cookbooks/computer_use.ipynb


08 3D Grounding

这个 Notebook 展示了 Qwen3-VL 的 3D 定位能力。模型可根据 3D 场景输入,为室内外物体生成精确的 3D 边界框,支持空间感知与交互应用。
👉 https://github.com/QwenLM/Qwen3-VL/blob/main/cookbooks/3d_grounding.ipynb


09 带图推理

这个 Notebook 展示了 Qwen3-VL 如何结合工具进行细粒度图像理解。通过调用image_zoom_in_tool 和 search_tool,模型可聚焦局部区域、检索相关信息,实现对复杂图像的深度推理。
👉 https://github.com/QwenLM/Qwen3-VL/blob/main/cookbooks/think_with_images.ipynb


10 多模态编程

这个 Notebook 展示了 Qwen3-VL 的多模态编程能力。模型能结合图像、文本等多源信息,准确理解需求并生成功能正确的代码,适用于 UI 转代码、图表解析等场景。
👉 https://github.com/QwenLM/Qwen3-VL/blob/main/cookbooks/mmcode.ipynb


11 长文本理解

这个 Notebook 展示了 Qwen3-VL 对超长文档的语义理解能力。模型可高效处理数十页甚至上百页的文档,准确回答跨页问题、提取关键信息并保持上下文一致性。
👉 https://github.com/QwenLM/Qwen3-VL/blob/main/cookbooks/long_document_understanding.ipynb


12 空间理解

这个 Notebook 展示了 Qwen3-VL 的空间理解能力。模型能解析图像或场景中的物体位置、方向与相对关系,并进行空间推理,适用于导航、布局分析等任务。
👉 https://github.com/QwenLM/Qwen3-VL/blob/main/cookbooks/spatial_understanding.ipynb


欢迎体验

未来,我们将持续丰富和优化这些示例,覆盖更多前沿场景与实用功能,助力开发者更高效地构建多模态应用。欢迎您访问我们的 GitHub 仓库,运行这些 Notebook,并将您的反馈、建议或创新用例分享给我们!


⛳如果还想要了解更多通义大模型的模型详细信息以及直接进入体验,可以点击🔗https://www.aliyun.com/product/tongyi直接进入查看和体验哦~~

也可以关注一下通义大模型的公众号,后续有新的产品动态都会在内发布。

通义大模型公众号二维码.png

相关文章
|
26天前
|
自然语言处理 测试技术 API
通义Qwen3-Max:大就是好
通义千问Qwen3-Max正式发布,参数超1T,训练稳定高效,在代码、推理、多语言等任务中表现卓越。预览版已登顶LMArena榜单前三,支持阿里云百炼API调用与Qwen Chat体验,敬请试用。
1147 32
|
18天前
|
文字识别 测试技术 开发者
Qwen3-VL新成员 2B、32B来啦!更适合开发者体质
Qwen3-VL家族重磅推出2B与32B双版本,轻量高效与超强推理兼备,一模型通吃多模态与纯文本任务!
1127 11
|
人工智能 移动开发 自然语言处理
阿里云百炼产品月刊【2025年9月】
本月通义千问模型大升级,新增多模态、语音、视频生成等高性能模型,支持图文理解、端到端视频生成。官网改版上线全新体验中心,推出高代码应用与智能体多模态知识融合,RAG能力增强,助力企业高效部署AI应用。
648 0
|
2月前
|
存储 人工智能 文字识别
PDF解析迎来技术革新!阿里新产品实现复杂文档端到端结构化处理
前言9月24日云栖大会现场,由阿里巴巴爱橙科技数据技术及产品团队自主研发的 PDF解析神器正式亮相并同步开源模型。这款基于Logics-Parsing模型构建的AI工具直指当前PDF解析领域的技术痛点,显著提升复杂文档的结构…
415 0
PDF解析迎来技术革新!阿里新产品实现复杂文档端到端结构化处理
|
3月前
|
人工智能 缓存 Kubernetes
几大AI知识库致命坑点:避开它们,少走3个月弯路!
本文详解AI知识库在企业中的应用,涵盖架构设计、文档处理、工作流优化与性能调优等核心技术,结合实际案例帮助读者避开落地过程中的常见陷阱,适合希望提升AI应用能力的技术人员阅读。
325 2
|
11天前
|
数据采集 人工智能 物联网
国产AI封神!炒股狂赚40%碾压对手 教你微调Qwen3打造专属金融分析师
国产AI在实盘炒股中大放异彩,DeepSeek与Qwen3收益率最高超60%,碾压国际大模型。本文教你用LLaMA Factory平台微调Qwen3-VL-30B,打造专属多模态金融分析师,实现趋势研判、财报分析等专业能力,赋能投资决策。
246 3
国产AI封神!炒股狂赚40%碾压对手 教你微调Qwen3打造专属金融分析师
|
24天前
|
存储 人工智能 算法
ModelScope魔搭社区发布月报 -- 25年10月
2025年10月,ModelScope密集发布多模态与大模型更新,并上线国际站、科学智能专区及AIGC工具FlowBench,加速开源生态发展。
270 9
|
1月前
|
人工智能 测试技术 API
智谱旗舰模型GLM-4.6开源发布,代码能力对齐Claude Sonnet 4
作为GLM系列的最新版本,GLM-4.6是系列最强的代码Coding模型(较GLM-4.5提升27%)
839 14
|
5月前
|
编解码 自然语言处理 安全
📣通义大模型新成员Qwen-VLo,重磅上线,它实现了从“看懂”世界到“描绘”世界
通义千问团队推出全新多模态统一理解与生成模型Qwen VLo,具备强大的图像理解与生成能力。它不仅能“看懂”图像内容,还能基于理解进行高质量再创造,实现从感知到生成的跨越。支持开放指令编辑、多语言交互及复杂任务处理,适用于图像生成、风格迁移、检测标注等多种场景。
973 1