更睿智的看世界!实测阿里首个多模态视觉推理模型QVQ-72B-Preview

简介: 阿里通义千问Qwen团队于12月25日推出首个开源视觉推理模型QVQ-72B-Preview,该模型在数学、物理、化学等领域表现出色,在MMMU基准测试中得分70.3,超越Qwen2-VL-72B-Instruct。尽管在部分任务如立体图形计数上存在局限性,QVQ-72B-Preview仍展示了强大的视觉理解和推理能力。模型目前仅支持单轮对话和图像输出,不支持视频输入。地址:https://modelscope.cn/studios/Qwen/QVQ-72B-preview

引言

不久前,我们介绍了由Qwen研究团队打造的QwQ-32B-Preview,这是一个旨在增强大型模型文本复杂推理能力的实验性模型。在Qwen的QwQ模型推出后不到两个月的时间内,12月25日圣诞节当天,阿里通义千问Qwen团队发文宣布推出首个开源视觉推理模型——QVQ-72B-Preview。该模型展现出优秀的视觉理解和推理能力,在解决数学、物理、科学等领域的复杂推理问题上表现尤为突出。

Qwen团队在4个数据集上评估了QVQ-72B-Preview,包括MMMU、MathVista、MathVision 、OlympiadBench。其中在MMMU基准测试中取得了70.3的分数,超越了Qwen2-VL-72B-Instruct。此外,在剩下的三个专注于数学和科学问题的基准测试中,QVQ-72B-Preview表现出色,有效缩小了与领先的最先进的 o1 模型之间的差距。

image.png

地址:https://modelscope.cn/studios/Qwen/QVQ-72B-preview

实测

物理题(回答正确)

image.png
image.png

化学题(回答正确)

image.png
image.png

数学题(回答正确)

image.png
image.png

视觉问答(回答正确)

image.png
image.png

方程式(回答正确)

image.png

请计算出爱心,蝴蝶结和狗分别代表哪个数值?并给出最终结果

image.png

立体图形计数(陷入逻辑循环,答案错误)

image.png

How many cubes are there in the picture?

image.png

结尾

尽管QVQ-72B-Preview展现了超越预期的性能表现,认识到其几个局限性也是非常重要的:

  • 语言混用和代码转换:模型偶尔可能会混合不同的语言或意外地在它们之间切换,这可能会影响其响应的清晰度。

  • 递归推理循环:存在模型陷入递归推理循环的风险,这可能导致产生冗长的回答,甚至无法得出最终答案。

  • 安全性和伦理考量:需要强有力的保障措施来确保可靠的和安全的性能。用户在部署此模型时应谨慎行事。

  • 性能和基准测试的局限性:尽管在视觉推理方面有所改进,但QVQ并不能完全取代Qwen2-VL-72B的功能。在多步骤视觉推理过程中,模型可能会逐渐失去对图像内容的关注,导致出现幻觉现象。此外,与Qwen2-VL-72B相比,QVQ在基本识别任务(如识别人、动物或植物)上并没有显示出明显的改进。

注意:目前,该模型仅支持单轮对话和图像输出。它不支持视频输入。

相关文章
|
8月前
|
自然语言处理 物联网 Swift
零一万物开源Yi-VL多模态大模型,魔搭社区推理&微调最佳实践来啦!
近期,零一万物Yi系列模型家族发布了其多模态大模型系列,Yi Vision Language(Yi-VL)多模态语言大模型正式面向全球开源。
|
1月前
|
机器学习/深度学习 人工智能 文字识别
POINTS 1.5:腾讯微信开源的多模态大模型,超越了业界其他的开源视觉语言模型,具备强大的视觉和语言处理能力
POINTS 1.5是腾讯微信推出的多模态大模型,基于LLaVA架构,具备强大的视觉和语言处理能力。它在复杂场景的OCR、推理能力、关键信息提取等方面表现出色,是全球10B以下开源模型中的佼佼者。
183 58
POINTS 1.5:腾讯微信开源的多模态大模型,超越了业界其他的开源视觉语言模型,具备强大的视觉和语言处理能力
|
7天前
|
人工智能 测试技术
LlamaV-o1:全能多模态视觉推理模型,推理得分超越其他开源模型,推理速度翻5倍
LlamaV-o1 是一款多模态视觉推理模型,通过逐步推理学习方法解决复杂任务,支持透明推理过程,适用于医疗、金融等领域。
48 16
LlamaV-o1:全能多模态视觉推理模型,推理得分超越其他开源模型,推理速度翻5倍
|
1天前
|
人工智能 编解码
CogVideoX-Flash:智谱首个免费AI视频生成模型,支持文生视频、图生视频,分辨率最高可达4K
CogVideoX-Flash 是智谱推出的首个免费AI视频生成模型,支持文生视频、图生视频,最高支持4K分辨率,广泛应用于内容创作、教育、广告等领域。
27 5
CogVideoX-Flash:智谱首个免费AI视频生成模型,支持文生视频、图生视频,分辨率最高可达4K
|
1天前
|
人工智能 编解码 自然语言处理
CogView-3-Flash:智谱首个免费AI图像生成模型,支持多种分辨率,快速生成创意图像
CogView-3-Flash 是智谱推出的首个免费AI图像生成模型,支持多种分辨率,快速生成高质量图像,广泛应用于广告、设计、艺术创作等领域。
17 6
CogView-3-Flash:智谱首个免费AI图像生成模型,支持多种分辨率,快速生成创意图像
|
1月前
|
人工智能 文字识别 语音技术
Megrez-3B-Omni: 首个端侧全模态理解开源模型
Megrez-3B-Omni是由无问芯穹(Infinigence AI)研发的端侧全模态理解模型,基于无问大语言模型Megrez-3B-Instruct扩展,同时具备图片、文本、音频三种模态数据的理解分析能力。
Megrez-3B-Omni: 首个端侧全模态理解开源模型
|
27天前
|
人工智能 测试技术 开发者
通义发布最强开源多模态推理模型QVQ!
通义发布最强开源多模态推理模型QVQ!
442 18
|
28天前
|
机器学习/深度学习 人工智能 安全
通义视觉推理大模型QVQ-72B-preview重磅上线
Qwen团队推出了新成员QVQ-72B-preview,这是一个专注于提升视觉推理能力的实验性研究模型。提升了视觉表示的效率和准确性。它在多模态评测集如MMMU、MathVista和MathVision上表现出色,尤其在数学推理任务中取得了显著进步。尽管如此,该模型仍存在一些局限性,仍在学习和完善中。
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
GLM-Edge:智谱开源的端侧大语言和多模态系列模型
GLM-Edge是智谱开源的一系列端侧部署优化的大语言对话模型和多模态理解模型,旨在实现模型性能、实机推理效果和落地便利性之间的最佳平衡。该系列模型支持在手机、车机和PC等端侧设备上高效运行,适用于智能助手、聊天机器人、图像标注等多种应用场景。
93 7
GLM-Edge:智谱开源的端侧大语言和多模态系列模型
|
5月前
|
传感器 人工智能 JSON
多图、视频首上端!面壁「小钢炮」 MiniCPM-V 2.6 模型重磅上新!魔搭推理、微调、部署实战教程来啦!
该模型基于 SigLip-400M 和 Qwen2-7B 构建,仅 8B 参数,取得 20B 以下单图、多图、视频理解 3 SOTA 成绩,一举将端侧AI多模态能力拉升至全面对标 GPT-4V 水平。