引言
不久前,我们介绍了由Qwen研究团队打造的QwQ-32B-Preview,这是一个旨在增强大型模型文本复杂推理能力的实验性模型。在Qwen的QwQ模型推出后不到两个月的时间内,12月25日圣诞节当天,阿里通义千问Qwen团队发文宣布推出首个开源视觉推理模型——QVQ-72B-Preview。该模型展现出优秀的视觉理解和推理能力,在解决数学、物理、科学等领域的复杂推理问题上表现尤为突出。
Qwen团队在4个数据集上评估了QVQ-72B-Preview,包括MMMU、MathVista、MathVision 、OlympiadBench。其中在MMMU基准测试中取得了70.3的分数,超越了Qwen2-VL-72B-Instruct。此外,在剩下的三个专注于数学和科学问题的基准测试中,QVQ-72B-Preview表现出色,有效缩小了与领先的最先进的 o1 模型之间的差距。
地址:https://modelscope.cn/studios/Qwen/QVQ-72B-preview
实测
物理题(回答正确)
化学题(回答正确)
数学题(回答正确)
视觉问答(回答正确)
方程式(回答正确)
请计算出爱心,蝴蝶结和狗分别代表哪个数值?并给出最终结果
立体图形计数(陷入逻辑循环,答案错误)
How many cubes are there in the picture?
结尾
尽管QVQ-72B-Preview展现了超越预期的性能表现,认识到其几个局限性也是非常重要的:
语言混用和代码转换:模型偶尔可能会混合不同的语言或意外地在它们之间切换,这可能会影响其响应的清晰度。
递归推理循环:存在模型陷入递归推理循环的风险,这可能导致产生冗长的回答,甚至无法得出最终答案。
安全性和伦理考量:需要强有力的保障措施来确保可靠的和安全的性能。用户在部署此模型时应谨慎行事。
性能和基准测试的局限性:尽管在视觉推理方面有所改进,但QVQ并不能完全取代Qwen2-VL-72B的功能。在多步骤视觉推理过程中,模型可能会逐渐失去对图像内容的关注,导致出现幻觉现象。此外,与Qwen2-VL-72B相比,QVQ在基本识别任务(如识别人、动物或植物)上并没有显示出明显的改进。
注意:目前,该模型仅支持单轮对话和图像输出。它不支持视频输入。