自 Qwen3-VL 开源发布以来,我们欣喜地看到该模型在全球AI开源社区中收获的的广泛认可!
在9月底的Chatbot Arena子榜单Vision Arena中,Qwen3-VL位居第二,是视觉理解领域中的全球开源冠军;同时,Qwen3-VL还斩获纯文本赛道(Text Arena)的开源第一(全球第8),成为首个揽获纯文本和视觉两大领域同时开源第一的大模型。Chatbot Arena 是全球最具公信力的模型评测榜单之一,所有模型均由真实用户在盲测环境下进行匿名对比评分,代表了开发者对模型性能的公允评判。
并且,Qwen3-VL还在 OpenRouter 图像处理榜单上以 48% 的市场份额跃升至全球第一。OpenRouter是全球知名的大模型API三方聚合平台,其榜单是开发者和机构真实“用脚投票”的结果,是全球模型热门程度最直接的证明。
感谢所有开发者与社区伙伴对Qwen3-VL的喜爱和支持!为进一步帮助大家高效上手和深度应用,我们推出Qwen3-VL Cookbook,详解本地模型部署与 API 调用。
这些 Cookbook 围绕真实场景设计,覆盖高精度文档解析、多语言自然场景 OCR、长视频理解、3D 物体定位、空间关系推理,以及面向移动端和计算机操作的智能体控制等核心能力,全面展现 Qwen3-VL 在复杂视觉语言任务中的强大表现。欢迎试用、反馈,并与我们一起拓展多模态大模型的应用边界。
🔗 链接:
https://github.com/QwenLM/Qwen3-VL/tree/main/cookbooks
💬 体验地址:
chat.qwen.ai (在模型列表选择Qwen3-VL系列模型)
🤖 模型链接:
https://modelscope.cn/collections/Qwen3-VL-5c7a94c8cb144b
⚙️ 百炼 API :
https://help.aliyun.com/zh/model-studio/developer-reference/qwen-vl-api
01 全能的万物识别
这个 Notebook 展示了 Qwen3-VL 的全能识别能力。Qwen3-VL模型不仅能识别动物、植物、人物和景点,还能准确辨识汽车、商品等各类日常物体,既满足日常生活中的识别需求,也支持专业场景下的“万物识别”能力。
👉 https://github.com/QwenLM/Qwen3-VL/blob/main/cookbooks/omni_recognition.ipynb
02 升级的文档解析
这个 Notebook 展示了 Qwen3-VL 强大的文档解析能力。模型不仅能提取文本内容,还能理解版面结构、元素位置,支持输出HTML、JSON、Markdown 、 LaTeX以及我们独特设计的 Qwenvl HTML 格式和Qwenvl Markdown格式的结构化结果,适用于复杂文档自动化处理。
👉 https://github.com/QwenLM/Qwen3-VL/blob/main/cookbooks/document_parsing.ipynb
03 多格式的精准定位标注
这个 Notebook 展示了 Qwen3-VL 在跨格式目标定位上的能力。模型支持以相对位置坐标输出边界框(boxes)或点(points),灵活应对多样化的视觉定位与标注任务。
👉 https://github.com/QwenLM/Qwen3-VL/blob/main/cookbooks/2d_grounding.ipynb
04 通用OCR及关键信息提取
这个 Notebook 展示了 Qwen3-VL 在自然场景和多语言环境下的 OCR 与关键信息提取能力。模型可高精度识别文本,并从中结构化提取姓名、日期、金额等关键字段。
👉 https://github.com/QwenLM/Qwen3-VL/blob/main/cookbooks/ocr_kie.ipynb
05 视频理解
这个 Notebook 展示了 Qwen3-VL 的视频理解能力。模型支持长视频语义分析、视频内 OCR 识别以及基于时间与空间的视频定位,适用于复杂视频内容解析任务。
👉 https://github.com/QwenLM/Qwen3-VL/blob/main/cookbooks/video_understanding.ipynb
06 Mobile Agent
这个 Notebook 展示了如何使用 Qwen3-VL 构建移动端智能体。模型可结合手机屏幕截图与用户指令,理解界面状态并生成触控或输入操作,实现对移动设备的智能控制。
👉 https://github.com/QwenLM/Qwen3-VL/blob/main/cookbooks/mobile_agent.ipynb
07 Computer-Use Agent
这个 Notebook 展示了如何使用 Qwen3-VL 为计算机和网页操作提供定位与推理能力。模型通过分析桌面截图与自然语言指令,理解当前界面并生成精准的点击、滚动或键盘输入操作,完成自动化任务。
👉 https://github.com/QwenLM/Qwen3-VL/blob/main/cookbooks/computer_use.ipynb
08 3D Grounding
这个 Notebook 展示了 Qwen3-VL 的 3D 定位能力。模型可根据 3D 场景输入,为室内外物体生成精确的 3D 边界框,支持空间感知与交互应用。
👉 https://github.com/QwenLM/Qwen3-VL/blob/main/cookbooks/3d_grounding.ipynb
09 带图推理
这个 Notebook 展示了 Qwen3-VL 如何结合工具进行细粒度图像理解。通过调用image_zoom_in_tool 和 search_tool,模型可聚焦局部区域、检索相关信息,实现对复杂图像的深度推理。
👉 https://github.com/QwenLM/Qwen3-VL/blob/main/cookbooks/think_with_images.ipynb
10 多模态编程
这个 Notebook 展示了 Qwen3-VL 的多模态编程能力。模型能结合图像、文本等多源信息,准确理解需求并生成功能正确的代码,适用于 UI 转代码、图表解析等场景。
👉 https://github.com/QwenLM/Qwen3-VL/blob/main/cookbooks/mmcode.ipynb
11 长文本理解
这个 Notebook 展示了 Qwen3-VL 对超长文档的语义理解能力。模型可高效处理数十页甚至上百页的文档,准确回答跨页问题、提取关键信息并保持上下文一致性。
👉 https://github.com/QwenLM/Qwen3-VL/blob/main/cookbooks/long_document_understanding.ipynb
12 空间理解
这个 Notebook 展示了 Qwen3-VL 的空间理解能力。模型能解析图像或场景中的物体位置、方向与相对关系,并进行空间推理,适用于导航、布局分析等任务。
👉 https://github.com/QwenLM/Qwen3-VL/blob/main/cookbooks/spatial_understanding.ipynb
欢迎体验
未来,我们将持续丰富和优化这些示例,覆盖更多前沿场景与实用功能,助力开发者更高效地构建多模态应用。欢迎您访问我们的 GitHub 仓库,运行这些 Notebook,并将您的反馈、建议或创新用例分享给我们!
⛳如果还想要了解更多通义大模型的模型详细信息以及直接进入体验,可以点击🔗https://www.aliyun.com/product/tongyi直接进入查看和体验哦~~
也可以关注一下通义大模型的公众号,后续有新的产品动态都会在内发布。