更睿智的看世界!实测阿里首个多模态视觉推理模型QVQ-72B-Preview

简介: 阿里通义千问Qwen团队于12月25日推出首个开源视觉推理模型QVQ-72B-Preview,该模型在数学、物理、化学等领域表现出色,在MMMU基准测试中得分70.3,超越Qwen2-VL-72B-Instruct。尽管在部分任务如立体图形计数上存在局限性,QVQ-72B-Preview仍展示了强大的视觉理解和推理能力。模型目前仅支持单轮对话和图像输出,不支持视频输入。地址:https://modelscope.cn/studios/Qwen/QVQ-72B-preview

引言

不久前,我们介绍了由Qwen研究团队打造的QwQ-32B-Preview,这是一个旨在增强大型模型文本复杂推理能力的实验性模型。在Qwen的QwQ模型推出后不到两个月的时间内,12月25日圣诞节当天,阿里通义千问Qwen团队发文宣布推出首个开源视觉推理模型——QVQ-72B-Preview。该模型展现出优秀的视觉理解和推理能力,在解决数学、物理、科学等领域的复杂推理问题上表现尤为突出。

Qwen团队在4个数据集上评估了QVQ-72B-Preview,包括MMMU、MathVista、MathVision 、OlympiadBench。其中在MMMU基准测试中取得了70.3的分数,超越了Qwen2-VL-72B-Instruct。此外,在剩下的三个专注于数学和科学问题的基准测试中,QVQ-72B-Preview表现出色,有效缩小了与领先的最先进的 o1 模型之间的差距。

image.png

地址:https://modelscope.cn/studios/Qwen/QVQ-72B-preview

实测

物理题(回答正确)

image.png
image.png

化学题(回答正确)

image.png
image.png

数学题(回答正确)

image.png
image.png

视觉问答(回答正确)

image.png
image.png

方程式(回答正确)

image.png

请计算出爱心,蝴蝶结和狗分别代表哪个数值?并给出最终结果

image.png

立体图形计数(陷入逻辑循环,答案错误)

image.png

How many cubes are there in the picture?

image.png

结尾

尽管QVQ-72B-Preview展现了超越预期的性能表现,认识到其几个局限性也是非常重要的:

  • 语言混用和代码转换:模型偶尔可能会混合不同的语言或意外地在它们之间切换,这可能会影响其响应的清晰度。

  • 递归推理循环:存在模型陷入递归推理循环的风险,这可能导致产生冗长的回答,甚至无法得出最终答案。

  • 安全性和伦理考量:需要强有力的保障措施来确保可靠的和安全的性能。用户在部署此模型时应谨慎行事。

  • 性能和基准测试的局限性:尽管在视觉推理方面有所改进,但QVQ并不能完全取代Qwen2-VL-72B的功能。在多步骤视觉推理过程中,模型可能会逐渐失去对图像内容的关注,导致出现幻觉现象。此外,与Qwen2-VL-72B相比,QVQ在基本识别任务(如识别人、动物或植物)上并没有显示出明显的改进。

注意:目前,该模型仅支持单轮对话和图像输出。它不支持视频输入。

相关文章
|
1月前
|
负载均衡 测试技术 调度
大模型分布式推理:张量并行与流水线并行技术
本文深入探讨大语言模型分布式推理的核心技术——张量并行与流水线并行。通过分析单GPU内存限制下的模型部署挑战,详细解析张量并行的矩阵分片策略、流水线并行的阶段划分机制,以及二者的混合并行架构。文章包含完整的分布式推理框架实现、通信优化策略和性能调优指南,为千亿参数大模型的分布式部署提供全面解决方案。
475 4
|
1月前
|
机器学习/深度学习 缓存 监控
大模型推理优化技术:KV缓存机制详解
本文深入探讨了大语言模型推理过程中的关键技术——KV缓存(Key-Value Cache)机制。通过对Transformer自注意力机制的分析,阐述了KV缓存的工作原理、实现方式及其对推理性能的显著优化效果。文章包含具体的代码实现和性能对比数据,为开发者理解和应用这一关键技术提供实践指导。
826 8
|
1月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
262 120
|
1月前
|
机器学习/深度学习 缓存 自然语言处理
【万字长文】大模型训练推理和性能优化算法总结和实践
我们是阿里云公共云 AI 汽车行业大模型技术团队,致力于通过专业的全栈 AI 技术推动 AI 的落地应用。
1335 38
【万字长文】大模型训练推理和性能优化算法总结和实践
|
1月前
|
机器学习/深度学习 存储 并行计算
大模型推理加速技术:FlashAttention原理与实现
本文深入解析大语言模型推理加速的核心技术——FlashAttention。通过分析传统注意力机制的计算瓶颈,详细阐述FlashAttention的IO感知算法设计、前向反向传播实现,以及其在GPU内存层次结构中的优化策略。文章包含完整的CUDA实现示例、性能基准测试和实际部署指南,为开发者提供高效注意力计算的全套解决方案。
340 10
|
1月前
|
缓存 物联网 PyTorch
使用TensorRT LLM构建和运行Qwen模型
本文档介绍如何在单GPU和单节点多GPU上使用TensorRT LLM构建和运行Qwen模型,涵盖模型转换、引擎构建、量化推理及LoRA微调等操作,并提供详细的代码示例与支持矩阵。
419 2
|
1月前
|
机器学习/深度学习 存储 缓存
大模型推理加速技术:PagedAttention原理与实现
本文深入解析大语言模型推理中的革命性技术——PagedAttention,该技术是vLLM推理引擎的核心创新。通过将操作系统中的虚拟内存分页概念引入注意力机制,PagedAttention有效解决了KV缓存的内存碎片问题,实现了近乎零浪费的KV缓存管理。文章详细阐述其原理、内存管理机制、实现细节,并提供完整的代码示例和性能分析。
246 1
|
1月前
|
存储 机器学习/深度学习 人工智能
54_模型优化:大模型的压缩与量化
随着大型语言模型(LLM)的快速发展,模型规模呈指数级增长,从最初的数亿参数到如今的数千亿甚至万亿参数。这种规模扩张带来了惊人的能源消耗和训练成本,同时也给部署和推理带来了巨大挑战。2025年,大模型的"瘦身"已成为行业发展的必然趋势。本文将深入剖析大模型压缩与量化的核心技术、最新进展及工程实践,探讨如何通过创新技术让大模型在保持高性能的同时实现轻量化部署,为企业和开发者提供全面的技术指导。

热门文章

最新文章