Qwen2.5-VL Cookbook来啦!手把手教你怎么用好视觉理解模型!

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 今天,Qwen团队发布了一系列展示 Qwen2.5-VL 用例的Notebook,包含本地模型和 API 的使用。

image.png image.png 今天,Qwen团队发布了一系列展示 Qwen2.5-VL 用例的Notebook,包含本地模型和 API 的使用。期望这些示例能够帮助开发者和用户更全面地了解 Qwen2.5-VL 的强大视觉理解功能,并激发更多创新的应用场景。

通过这些 Notebook,开发者可以快速上手并体验模型在多种任务中的优秀表现,无论是处理复杂的文档解析、精准的 OCR 任务,还是深入的视频内容理解,Qwen2.5-VL 都能提供高效且准确的回复。同时,也期待社区的反馈与贡献,共同完善和拓展 Qwen2.5-VL 的能力边界。

🔗 链接:

https://github.com/QwenLM/Qwen2.5-VL/tree/main/cookbooks

💬 体验地址:

https://chat.qwenlm.ai (选择Qwen2.5-VL-72B-Instruct模型)

🤖 模型链接:https://www.modelscope.cn/collections/Qwen25-VL-58fbb5d31f1d47

⚙️ 百炼 API : https://help.aliyun.com/zh/model-studio/user-guide/vision/

image.png

01 .Computer Use

这个 Notebook 展示了如何使用 Qwen2.5-VL 进行Computer Use 相关任务。

截取用户桌面的屏幕截图并接收一个用户的查询,然后利用模型对截图中的用户查询进行解释,并形成在桌面的精准点击或者输入等操作,从而控制电脑的使用。

👉https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/computer_use.ipynb

image.png

02 空间理解

这个 Notebook 展示了 Qwen2.5-VL 先进的空间定位能力,包括精确的物体检测和图像中特定目标的定位。

看看它是如何整合视觉和语言理解,从而有效地解读复杂场景的。

👉https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/spatial_understanding.ipynb

image.png

03 文档解析

这个 Notebook 展示了 Qwen2.5-VL 强大的文档解析能力。它可以处理任何图像,并以多种格式输出其内容,如 HTML、JSON、MD和LaTeX。

特别值得一提的是,Qwen引入了一种独特的 QwenVL HTML 格式,该格式包含每个组件的位置信息,从而实现精确的文档重建和操作。

👉https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/document_parsing.ipynb

image.png

04 Mobile Agent

这个 Notebook 展示了如何使用 Qwen2.5-VL 的代理功能调用能力与移动设备进行交互。

它展示了模型根据用户查询和视觉上下文生成并执行操作的能力。

👉https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/mobile_agent.ipynb

image.png

05 OCR

这个 Notebook 展示了 Qwen2.5-VL 的 OCR(光学字符识别)能力,包括从图像中提取和识别文本。

看看Qwen2.5-VL如何在复杂场景下准确捕捉和解读文本内容。

👉https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/ocr.ipynb

image.png

06 万物识别

这个 Notebook 展示了如何使用 Qwen2.5-VL 进行通用识别。

它接收一张图像和一个查询,然后利用模型对图像中的用户查询进行解释。

👉https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/universal_recognition.ipynb

image.png

07 视频理解

Qwen2.5-VL 能够理解超过1小时的视频。在这个Notebook 中,将深入探讨 Qwen2.5-VL 模型在视频理解任务中的能力。

Qwen2.5-VL的目标是展示这个先进模型如何应用于各种视频分析场景,从基础的 OCR(光学字符识别)到复杂的事件检测和总结。

👉https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/video_understanding.ipynb

image.png

魔搭最佳实践

在魔搭社区的免费算力上,就可以玩转这些Cookbook哦。

首先,下载Qwen2.5-VL代码:

git clone https://github.com/QwenLM/Qwen2.5-VL.git

Notebook中使用模型API:魔搭平台的API-Inference,提供了免费的Qwen2.5-VL系列模型API。魔搭的用户可通过API调用的方式直接使用,直接替换Cookbook中的base-URL和填写魔搭SDK Token即可。文档:https://www.modelscope.cn/docs/model-service/API-Inference/intro

from openai import OpenAI
client = OpenAI(
    api_key="<MODELSCOPE_SDK_TOKEN>", # ModelScope Token
    base_url="https://api-inference.modelscope.cn/v1"
)
response = client.chat.completions.create(
    model="Qwen/Qwen2.5-VL-72B-Instruct", # ModleScope Model-Id
    messages = [
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {"url": "https://modelscope.oss-cn-beijing.aliyuncs.com/demo/images/bird-vl.jpg"}
                },
                {   "type": "text", 
                    "text": "Count the number of birds in the figure, including those that are only showing their heads. To ensure accuracy, first detect their key points, then give the total number."
                },
            ],
        }
    ],
    stream=True
    )

Notebook使用本地模型,请选择GPU机型。

欢迎体验

未来,Qwen团队将持续更新和扩展这些示例,加入更多实用的功能和场景,确保开发者们能找到适合自己需求的解决方案。欢迎您访问 GitHub 仓库或相关平台,尝试这些 Notebook,并分享您的使用心得和创新应用!快来和Qwen一起Cook吧!

目录
相关文章
|
数据可视化 测试技术 PyTorch
智谱ChatGLM3魔搭最佳实践教程来了!
ChatGLM3-6B 是 ChatGLM 系列最新一代的开源模型,在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上
|
10月前
|
监控 PyTorch 算法框架/工具
Qwen-VL怎么用自己的数据集微调
Qwen-VL怎么用自己的数据集微调
1227 0
|
4月前
|
数据采集 人工智能 API
Qwen2.5-Coder深夜开源炸场,Prompt编程的时代来了!
通义千问团队开源「强大」、「多样」、「实用」的 Qwen2.5-Coder 全系列,致力于持续推动 Open Code LLMs 的发展。
|
21天前
|
JSON 文字识别 测试技术
超顶的视觉理解模型怎么用?Qwen2.5-VL Cookbook教会你!
超顶的视觉理解模型怎么用?Qwen2.5-VL Cookbook教会你!
|
21天前
|
机器学习/深度学习 测试技术 API
1分钟读完100万字,Qwen2.5-Turbo上线长文本
1分钟读完100万字,Qwen2.5-Turbo上线长文本
|
21天前
|
数据采集 数据可视化 Apache
Qwen2.5-Coder全系列来咯!强大、多样、实用
Qwen2.5-Coder全系列来咯!强大、多样、实用
|
3月前
|
人工智能 文字识别 安全
Qwen开源视觉推理模型QVQ,更睿智地看世界!
在人类的思维中,语言和视觉紧密交织,塑造着我们感知和理解世界的方式。我们的推理能力深深植根于语言思维和视觉记忆之中。那么,当我们将这些能力赋予人工智能时,会发生什么呢?如今的大语言模型已经展现出卓越的推理能力,但我们不禁思考:它们能否通过掌握视觉理解的力量,攀登认知能力的新高峰?
456 5
Qwen开源视觉推理模型QVQ,更睿智地看世界!
|
3月前
|
人工智能 自然语言处理 算法
Qwen-Coder:通过Qwen 2.5模型实现智能代码生成的技术实践
Qwen-Coder:通过Qwen 2.5模型实现智能代码生成的技术实践
|
7月前
|
编解码 JSON 自然语言处理
Qwen2-VL 全链路模型体验、下载、推理、微调实战!
经过了一年的不懈努力,今天通义千问团队对 Qwen-VL 模型进行重大更新——推出 Qwen2-VL。那么Qwen2-VL 有什么新功能呢?一起来看一下吧
Qwen2-VL 全链路模型体验、下载、推理、微调实战!
|
8月前
|
人工智能 JSON 自然语言处理
国内大模型LLM选择以及主流大模型快速使用教程[GLM4/Qwen/Baichuan/Coze/Kimi]
【7月更文挑战第7天】国内大模型LLM选择以及主流大模型快速使用教程[GLM4/Qwen/Baichuan/Coze/Kimi]
413 10
国内大模型LLM选择以及主流大模型快速使用教程[GLM4/Qwen/Baichuan/Coze/Kimi]

热门文章

最新文章