QVQ-72B-Preview:阿里通义千问最新多模态推理模型,视觉推理助力复杂图像理解

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: 阿里云通义千问团队开源的多模态推理模型 QVQ-72B-Preview,专注于提升视觉推理能力,支持复杂图像理解和逐步推理。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 模型概述:QVQ-72B-Preview 是阿里云通义千问团队开源的多模态推理模型,专注于提升视觉推理能力。
  2. 功能亮点:支持复杂的图像理解和逐步推理,能够识别图片中的深层含义,如“梗图”内涵。
  3. 性能评测:在多个基准测试中表现出色,超越了 GPT-4 和其他同类模型。

QVQ-72B-Preview 是什么

QVQ-72B-Preview

QVQ-72B-Preview 是阿里云通义千问团队开源的多模态推理模型,专注于提升视觉推理能力。该模型在多个基准测试中表现出色,特别是在多模态理解和推理任务上展现了强大的能力。它能够准确理解图像内容,进行复杂的逐步推理,并支持从图片中推断物体的高度、数量等具体信息,甚至能识别图片的深层含义,如“梗图”内涵。

QVQ-72B-Preview 的推出为多模态推理领域带来了新的突破,尤其是在教育、科研和多模态交互等应用场景中,提供了更高效、更智能的解决方案。

QVQ-72B-Preview 的主要功能

  • 强大的视觉推理能力:QVQ-72B-Preview 能准确理解图像内容,进行复杂的逐步推理。支持从图片中推断物体的高度、数量等具体信息,能够识别图片的深层含义,如“梗图”内涵。
  • 多模态处理:模型能同时处理图像和文本信息,进行深度推理。将语言信息与视觉信息无缝对接,让 AI 的推理进程更加高效。
  • 科学级推理表现:QVQ-72B-Preview 在处理复杂的科学问题时表现出色,能够像科学家一样思考并给出准确答案。通过质疑假设和优化推理步骤,提供更可靠、更智能的结果。

QVQ-72B-Preview 的性能表现

  • 多模态理解:在 Multimodal Massive Multi-task Understanding (MMMU) 基准测试中,QVQ-72B-Preview 取得了 70.3% 的成绩,展示了其在多学科理解和推理方面的强大能力。
  • 数学推理:在 MathVision 基准测试中,QVQ-72B-Preview 取得了 35.9% 的成绩,显著优于其他模型,特别是在处理复杂的数学问题时表现出色。
  • 挑战性任务:在 OlympiadBench 基准测试中,QVQ-72B-Preview 取得了 20.4% 的成绩,展示了其在解决高难度问题方面的潜力。

尽管 QVQ-72B-Preview 在多个基准测试中表现出色,但模型仍存在一些局限性:

  • 语言混用:模型可能会偶尔混用不同语言,影响响应的清晰度。
  • 递归推理循环:模型可能会陷入递归推理循环,导致响应过长且无法得出最终答案。
  • 安全性和伦理问题:需要采取更严格的措施确保模型的安全性和可靠性。
  • 性能限制:在多步视觉推理任务中,模型可能会逐渐失去对图像内容的聚焦,导致幻觉现象。此外,QVQ-72B-Preview 在基本识别任务(如识别人物、动物或植物)上并未显著优于 Qwen2-VL-72B。

如何运行 QVQ-72B-Preview

1. 安装依赖库

首先,你需要安装 qwen-vl-utils 库,以便更方便地处理各种类型的视觉输入(包括 base64、URL 和图像/视频)。

pip install qwen-vl-utils

2. 使用 transformersqwen_vl_utils 进行推理

以下是一个完整的代码示例,展示如何使用 transformersqwen_vl_utils 进行推理:

from transformers import Qwen2VLForConditionalGeneration, AutoTokenizer, AutoProcessor
from qwen_vl_utils import process_vision_info

# 加载模型
model = Qwen2VLForConditionalGeneration.from_pretrained(
    "Qwen/QVQ-72B-Preview", torch_dtype="auto", device_map="auto"
)

# 加载处理器
processor = AutoProcessor.from_pretrained("Qwen/QVQ-72B-Preview")

# 消息示例
messages = [
    {
   
        "role": "system",
        "content": [
            {
   "type": "text", "text": "你是一个乐于助人且无害的助手。你应该逐步思考。"}
        ],
    },
    {
   
        "role": "user",
        "content": [
            {
   
                "type": "image",
                "image": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/QVQ/demo.png",
            },
            {
   "type": "text", "text": "空白处应填入什么值?"},
        ],
    }
]

# 准备推理
text = processor.apply_chat_template(
    messages, tokenize=False, add_generation_prompt=True
)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(
    text=[text],
    images=image_inputs,
    videos=video_inputs,
    padding=True,
    return_tensors="pt",
)
inputs = inputs.to("cuda")

# 生成输出
generated_ids = model.generate(**inputs, max_new_tokens=8192)
generated_ids_trimmed = [
    out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
    generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print(output_text)

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
2天前
|
人工智能 开发工具 C++
利用通义灵码AI在VS Code中快速开发扫雷游戏:Qwen2.5-Max模型的应用实例
本文介绍了如何利用阿里云通义灵码AI程序员的Qwen2.5-Max模型,在VS Code中一键生成扫雷小游戏。通过安装通义灵码插件并配置模型,输入指令即可自动生成包含游戏逻辑与UI设计的Python代码。生成的游戏支持难度选择,运行稳定无Bug。实践表明,AI工具显著提升开发效率,但人机协作仍是未来趋势。建议开发者积极拥抱新技术,同时不断提升自身技能以适应行业发展需求。
17811 4
|
9天前
|
机器学习/深度学习 人工智能 监控
阿里通义开源全模态大语言模型 R1-Omni:情感分析成绩新标杆!推理过程全程透明,准确率飙升200%
R1-Omni 是阿里通义开源的全模态大语言模型,专注于情感识别任务,结合视觉和音频信息,提供可解释的推理过程,显著提升情感识别的准确性和泛化能力。
128 10
阿里通义开源全模态大语言模型 R1-Omni:情感分析成绩新标杆!推理过程全程透明,准确率飙升200%
|
15天前
|
机器学习/深度学习 人工智能 机器人
阿里通义开源推理模型新王者!QwQ-32B:性能直逼671B的DeepSeek-R1
QwQ-32B 是阿里巴巴开源的新型推理模型,基于强化学习训练,具备强大的数学推理和编程能力,性能媲美更大参数量的模型。
416 8
阿里通义开源推理模型新王者!QwQ-32B:性能直逼671B的DeepSeek-R1
|
1天前
|
人工智能 自然语言处理 IDE
通义灵码 Visual Studio 终于支持模型切换
如需使用灵码模型选择,需要开发者将灵码 IDE 插件更新到最新版,前往下载安装包安装
42 0
通义灵码 Visual Studio 终于支持模型切换
|
14天前
|
机器学习/深度学习 人工智能 自然语言处理
云上一键部署通义千问 QwQ-32B 模型,阿里云 PAI 最佳实践
3月6日阿里云发布并开源了全新推理模型通义千问 QwQ-32B,在一系列权威基准测试中,千问QwQ-32B模型表现异常出色,几乎完全超越了OpenAI-o1-mini,性能比肩Deepseek-R1,且部署成本大幅降低。并集成了与智能体 Agent 相关的能力,够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。阿里云人工智能平台 PAI-Model Gallery 现已经支持一键部署 QwQ-32B,本实践带您部署体验专属 QwQ-32B模型服务。
|
8天前
|
机器学习/深度学习 存储 人工智能
千问QWQ-32B/满血DeepSeek R1部署指南,两种方式轻松玩转热门推理模型
本文介绍了如何利用阿里云CAP平台一键部署QWQ-32B和DeepSeek R1两大热门推理模型。通过应用模板或模型服务两种方式,开发者可快速完成部署并验证模型效果。QWQ-32B在数学、编程等任务上表现出色,而DeepSeek R1凭借强化学习训练,具备高效推理能力。两者均支持API调用及第三方平台集成,助力智能应用开发。
千问QWQ-32B/满血DeepSeek R1部署指南,两种方式轻松玩转热门推理模型
|
18天前
|
人工智能 自然语言处理 测试技术
通义灵码上新推理模型,快来体验数学编程双冠王 Qwen2.5-Max
近日,通义灵码上新模型选择功能,除新增 DeepSeek 满血版 V3 和 R1 外,Qwen2.5-Max 也正式上线,它使用了超过 20 万亿 token 的预训练数据及精心设计的后训练方案进行训练。
|
15天前
|
机器学习/深度学习 自然语言处理 测试技术
模型上新!来通义灵码体验 QwQ-32B 推理模型!
今天,阿里云发布并开源全新的推理模型通义千问QwQ-32B。通过大规模强化学习,千问QwQ-32B在数学、代码及通用能力上实现质的飞跃,整体性能比肩DeepSeek-R1。在保持强劲性能的同时,千问QwQ-32B还大幅降低了部署使用成本,在消费级显卡上也能实现本地部署。
|
20天前
|
人工智能 编解码 测试技术
阿里云通义千问发布多款AI大模型 多模态、长文本能力全面升级!
阿里云通义千问发布多款AI大模型 多模态、长文本能力全面升级!
|
20天前
|
人工智能 JSON 文字识别
通义两大模型,正式开源!
通义两大模型,正式开源!

热门文章

最新文章