同时斩获两个开源第一,超火的通义Qwen3-VL CookBook来了

简介: Qwen3-VL开源发布后广受认可,登顶Chatbot Arena视觉榜与OpenRouter图像处理市场份额第一。支持文档解析、OCR、视频理解、3D定位等多模态任务,现推出详细Cookbook助力开发者高效应用。

自 Qwen3-VL 开源发布以来,我们欣喜地看到该模型在全球AI开源社区中收获的的广泛认可!

在9月底的Chatbot Arena子榜单Vision Arena中,Qwen3-VL位居第二,是视觉理解领域中的全球开源冠军;同时,Qwen3-VL还斩获纯文本赛道(Text Arena)的开源第一(全球第8),成为首个揽获纯文本和视觉两大领域同时开源第一的大模型。Chatbot Arena 是全球最具公信力的模型评测榜单之一,所有模型均由真实用户在盲测环境下进行匿名对比评分,代表了开发者对模型性能的公允评判。

image.png

并且,Qwen3-VL还在 OpenRouter 图像处理榜单上以 48% 的市场份额跃升至全球第一。OpenRouter是全球知名的大模型API三方聚合平台,其榜单是开发者和机构真实“用脚投票”的结果,是全球模型热门程度最直接的证明。

image.png

感谢所有开发者与社区伙伴对Qwen3-VL的喜爱和支持!为进一步帮助大家高效上手和深度应用,我们推出Qwen3-VL Cookbook,详解本地模型部署与 API 调用。


这些 Cookbook 围绕真实场景设计,覆盖高精度文档解析、多语言自然场景 OCR、长视频理解、3D 物体定位、空间关系推理,以及面向移动端和计算机操作的智能体控制等核心能力,全面展现 Qwen3-VL 在复杂视觉语言任务中的强大表现。欢迎试用、反馈,并与我们一起拓展多模态大模型的应用边界。


🔗 链接:

https://github.com/QwenLM/Qwen3-VL/tree/main/cookbooks

💬 体验地址:

chat.qwen.ai (在模型列表选择Qwen3-VL系列模型)

🤖 模型链接:

https://modelscope.cn/collections/Qwen3-VL-5c7a94c8cb144b

⚙️ 百炼 API :

https://help.aliyun.com/zh/model-studio/developer-reference/qwen-vl-api

image.png

01 全能的万物识别

这个 Notebook 展示了 Qwen3-VL 的全能识别能力。Qwen3-VL模型不仅能识别动物、植物、人物和景点,还能准确辨识汽车、商品等各类日常物体,既满足日常生活中的识别需求,也支持专业场景下的“万物识别”能力。
👉 https://github.com/QwenLM/Qwen3-VL/blob/main/cookbooks/omni_recognition.ipynb


02 升级的文档解析

这个 Notebook 展示了 Qwen3-VL 强大的文档解析能力。模型不仅能提取文本内容,还能理解版面结构、元素位置,支持输出HTML、JSON、Markdown 、 LaTeX以及我们独特设计的 Qwenvl HTML 格式和Qwenvl Markdown格式的结构化结果,适用于复杂文档自动化处理。
👉 https://github.com/QwenLM/Qwen3-VL/blob/main/cookbooks/document_parsing.ipynb


03 多格式的精准定位标注

这个 Notebook 展示了 Qwen3-VL 在跨格式目标定位上的能力。模型支持以相对位置坐标输出边界框(boxes)或点(points),灵活应对多样化的视觉定位与标注任务。
👉 https://github.com/QwenLM/Qwen3-VL/blob/main/cookbooks/2d_grounding.ipynb


04 通用OCR及关键信息提取

这个 Notebook 展示了 Qwen3-VL 在自然场景和多语言环境下的 OCR 与关键信息提取能力。模型可高精度识别文本,并从中结构化提取姓名、日期、金额等关键字段。
👉 https://github.com/QwenLM/Qwen3-VL/blob/main/cookbooks/ocr_kie.ipynb


05 视频理解

这个 Notebook 展示了 Qwen3-VL 的视频理解能力。模型支持长视频语义分析、视频内 OCR 识别以及基于时间与空间的视频定位,适用于复杂视频内容解析任务。
👉 https://github.com/QwenLM/Qwen3-VL/blob/main/cookbooks/video_understanding.ipynb


06 Mobile Agent

这个 Notebook 展示了如何使用 Qwen3-VL 构建移动端智能体。模型可结合手机屏幕截图与用户指令,理解界面状态并生成触控或输入操作,实现对移动设备的智能控制。
👉 https://github.com/QwenLM/Qwen3-VL/blob/main/cookbooks/mobile_agent.ipynb


07 Computer-Use Agent

这个 Notebook 展示了如何使用 Qwen3-VL 为计算机和网页操作提供定位与推理能力。模型通过分析桌面截图与自然语言指令,理解当前界面并生成精准的点击、滚动或键盘输入操作,完成自动化任务。
👉 https://github.com/QwenLM/Qwen3-VL/blob/main/cookbooks/computer_use.ipynb


08 3D Grounding

这个 Notebook 展示了 Qwen3-VL 的 3D 定位能力。模型可根据 3D 场景输入,为室内外物体生成精确的 3D 边界框,支持空间感知与交互应用。
👉 https://github.com/QwenLM/Qwen3-VL/blob/main/cookbooks/3d_grounding.ipynb


09 带图推理

这个 Notebook 展示了 Qwen3-VL 如何结合工具进行细粒度图像理解。通过调用image_zoom_in_tool 和 search_tool,模型可聚焦局部区域、检索相关信息,实现对复杂图像的深度推理。
👉 https://github.com/QwenLM/Qwen3-VL/blob/main/cookbooks/think_with_images.ipynb


10 多模态编程

这个 Notebook 展示了 Qwen3-VL 的多模态编程能力。模型能结合图像、文本等多源信息,准确理解需求并生成功能正确的代码,适用于 UI 转代码、图表解析等场景。
👉 https://github.com/QwenLM/Qwen3-VL/blob/main/cookbooks/mmcode.ipynb


11 长文本理解

这个 Notebook 展示了 Qwen3-VL 对超长文档的语义理解能力。模型可高效处理数十页甚至上百页的文档,准确回答跨页问题、提取关键信息并保持上下文一致性。
👉 https://github.com/QwenLM/Qwen3-VL/blob/main/cookbooks/long_document_understanding.ipynb


12 空间理解

这个 Notebook 展示了 Qwen3-VL 的空间理解能力。模型能解析图像或场景中的物体位置、方向与相对关系,并进行空间推理,适用于导航、布局分析等任务。
👉 https://github.com/QwenLM/Qwen3-VL/blob/main/cookbooks/spatial_understanding.ipynb


欢迎体验

未来,我们将持续丰富和优化这些示例,覆盖更多前沿场景与实用功能,助力开发者更高效地构建多模态应用。欢迎您访问我们的 GitHub 仓库,运行这些 Notebook,并将您的反馈、建议或创新用例分享给我们!


⛳如果还想要了解更多通义大模型的模型详细信息以及直接进入体验,可以点击🔗https://www.aliyun.com/product/tongyi直接进入查看和体验哦~~

也可以关注一下通义大模型的公众号,后续有新的产品动态都会在内发布。

通义大模型公众号二维码.png

相关文章
|
5月前
|
自然语言处理 测试技术 API
通义Qwen3-Max:大就是好
通义千问Qwen3-Max正式发布,参数超1T,训练稳定高效,在代码、推理、多语言等任务中表现卓越。预览版已登顶LMArena榜单前三,支持阿里云百炼API调用与Qwen Chat体验,敬请试用。
3147 32
|
5月前
|
文字识别 测试技术 开发者
Qwen3-VL新成员 2B、32B来啦!更适合开发者体质
Qwen3-VL家族重磅推出2B与32B双版本,轻量高效与超强推理兼备,一模型通吃多模态与纯文本任务!
5616 12
|
3月前
|
人工智能 自然语言处理 物联网
16k数据撬动300亿大模型!我用Qwen3-VL打造了一位“顶尖放射科医生”
仅用1.6万张医学影像,通过LLaMA-Factory Online对Qwen3-VL大模型高效微调,成功打造具备专业放射科医生水平的AI助手,实现精准病灶识别、系统分析与临床级诊断建议,助力医疗AI低成本落地。
1511 0
16k数据撬动300亿大模型!我用Qwen3-VL打造了一位“顶尖放射科医生”
|
3月前
|
人工智能 搜索推荐 物联网
告别深夜批改:用Qwen3-VL大模型打造会“理解”的作文阅卷助手
基于Qwen3-VL打造作文阅卷助手,通过对300篇高中作文进行LoRA微调,将教师从繁重批改中解放,更通过即时、客观的反馈助力学生写作能力提升,展现了垂直领域大模型应用的实用价值与高效落地路径。
506 2
|
5月前
|
数据采集 人工智能 物联网
国产AI封神!炒股狂赚40%碾压对手 教你微调Qwen3打造专属金融分析师
国产AI在实盘炒股中大放异彩,DeepSeek与Qwen3收益率最高超60%,碾压国际大模型。本文教你用LLaMA Factory平台微调Qwen3-VL-30B,打造专属多模态金融分析师,实现趋势研判、财报分析等专业能力,赋能投资决策。
1769 157
国产AI封神!炒股狂赚40%碾压对手 教你微调Qwen3打造专属金融分析师
|
3月前
|
Linux Docker 容器
docker下部署 vLLM 启动Qwen3-VL-32B-Instruct模型
本文介绍在CentOS系统、A10 6×24G显卡环境下,通过Docker部署vLLM并启动Qwen3-VL-32B-Instruct大模型的完整流程,涵盖镜像拉取、容器配置、多卡并行与显存优化设置,支持32K上下文,附带启动脚本及调用验证示例。
5555 2
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
957 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型

热门文章

最新文章