Qwen2.5-VL Technical Report

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: Qwen2.5-VL是阿里云团队推出的Qwen系列最新旗舰模型,具备显著提升的基础能力和创新功能。它在视觉识别、对象定位、文档解析和长视频理解等方面实现突破,支持精准的边界框/点定位及复杂输入处理。通过技术创新如窗口注意力、动态帧率采样和绝对时间编码,该模型在多模态任务中表现出色,在多个基准测试中超越顶级闭源模型,适用于从边缘AI到高性能计算的广泛场景。

摘要

本文介绍了Qwen2.5-VL,这是Qwen系列的最新旗舰模型,展示了在基础能力和创新功能方面的显著进步。Qwen2.5-VL通过增强的视觉识别、精确的对象定位、稳健的文档解析和长视频理解,实现了对世界的理解和交互的重大飞跃。该模型能够准确地使用边界框或点进行对象定位,提供从发票、表格到图表和布局的结构化数据提取。为了处理复杂输入,Qwen2.5-VL引入了动态分辨率处理和绝对时间编码,使其能够处理不同大小的图像和长达数小时的视频,并实现秒级事件定位。 在方法上,Qwen2.5-VL通过以下四个方面进行了技术创新:1) 在视觉编码器中实现窗口注意力以优化推理效率;2) 引入动态帧率采样,扩展动态分辨率到时间维度,支持不同采样率的全面视频理解;3) 升级MRoPE与绝对时间对齐,促进更复杂的时序学习;4) 精心策划高质量的数据用于预训练和监督微调,将预训练语料库从1.2万亿标记扩展到4.1万亿标记。 实验结果表明,Qwen2.5-VL在多个基准测试中表现出色,甚至超越了一些顶级闭源模型。其强大的文档解析能力、精确的对象定位、超长视频理解和增强的代理功能使其在多模态任务中具备广泛的应用前景。

Abstract:We introduce Qwen2.5-VL, the latest flagship model of Qwen vision-language series, which demonstrates significant advancements in both foundational capabilities and innovative functionalities. Qwen2.5-VL achieves a major leap forward in understanding and interacting with the world through enhanced visual recognition, precise object localization, robust document parsing, and long-video comprehension. A standout feature of Qwen2.5-VL is its ability to localize objects using bounding boxes or points accurately. It provides robust structured data extraction from invoices, forms, and tables, as well as detailed analysis of charts, diagrams, and layouts. To handle complex inputs, Qwen2.5-VL introduces dynamic resolution processing and absolute time encoding, enabling it to process images of varying sizes and videos of extended durations (up to hours) with second-level event localization. This allows the model to natively perceive spatial scales and temporal dynamics without relying on traditional normalization techniques. By training a native dynamic-resolution Vision Transformer (ViT) from scratch and incorporating Window Attention, we reduce computational overhead while maintaining native resolution. As a result, Qwen2.5-VL excels not only in static image and document understanding but also as an interactive visual agent capable of reasoning, tool usage, and task execution in real-world scenarios such as operating computers and mobile devices. Qwen2.5-VL is available in three sizes, addressing diverse use cases from edge AI to high-performance computing. The flagship Qwen2.5-VL-72B model matches state-of-the-art models like GPT-4o and Claude 3.5 Sonnet, particularly excelling in document and diagram understanding. Additionally, Qwen2.5-VL maintains robust linguistic performance, preserving the core language competencies of the Qwen2.5 LLM.

模型评价

在多个重要数据集上,Qwen2.5-VL-72B 模型取得了以下分数: 1. MMMU (Yue et al., 2023):70.2 分 2. MMMU-Pro (Yue et al., 2024):51.1 分 3. MathVista (Lu et al., 2024):74.8 分 4. MATH-Vision (Wang et al., 2024d):38.1 分 5. MMBench-EN (Liu et al., 2023d):88.6 分 6. MuirBench (Wang et al., 2024a):70.7 分 7. MTVQA (Tang et al., 2024):31.7 分 8. MM-MT-Bench (Agrawal et al., 2024):7.6 分 9. CC-OCR (Yang et al., 2024b):79.8 分 10. OCRBench_v2(英语/中文):61.5/63.7 分

论文分类

自然语言处理,计算机视觉,深度学习,Computer Vision and Pattern Recognition (cs.CV),Computation and Language (cs.CL)

更多信息

模型名称

Qwen2.5-VL

模型开发者

阿里云团队

Framework

未提及

模型硬件信息

未提及0

目录
打赏
0
7
7
1
0
分享
相关文章
VLLM (Very Large Language Model)
VLLM (Very Large Language Model) 是一种大型语言模型,通常具有数十亿或数万亿个参数,用于处理自然语言文本。VLLM 可以通过预训练和微调来执行各种任务,如文本分类、机器翻译、情感分析、问答等。
766 1
Azure Machine Learning - 如何使用 GPT-4 Turbo with Vision
Azure Machine Learning - 如何使用 GPT-4 Turbo with Vision
221 0
什么是Chat GPT3
随着 Chat GPT 技术的进一步发展,有几个关键方面值得关注。 首先是模型的扩展和改进。尽管 Chat GPT 在生成对话方面取得了很大的进展,但仍然存在一些局限性。模型在处理复杂问题和多轮对话时可能存在困难,很容易陷入回答模棱两可或不相关的内容。因此,改进模型在上下文理解和对话逻辑方面的能力是很重要的。 其次是对话的多模态处理。目前的 Chat GPT 模型主要基于文本输入和生成。然而,与人类对话经常伴随着语音、图像和其他非文本的元素不同,模型在多模态对话中的表现仍然较弱。因此,将多模态信息整合到 Chat GPT 中,使其能够更好地处理多媒体对话,将是一个有挑战性但有前景的方向。
267 0
ollama + qwen2.5-coder + VS Code + Continue 实现本地AI 辅助写代码
本文介绍在Apple M4 MacOS环境下搭建Ollama和qwen2.5-coder模型的过程。首先通过官网或Brew安装Ollama,然后下载qwen2.5-coder模型,可通过终端命令`ollama run qwen2.5-coder`启动模型进行测试。最后,在VS Code中安装Continue插件,并配置qwen2.5-coder模型用于代码开发辅助。
13754 7
使用 Qwen 进行Self-instruct数据生成
使用Qwen进行自指令数据生成,通过Self-instruct技术自动化为大型语言模型生成指令。用户可安装CAMEL包并设置Qwen API密钥,配置ChatAgent和SelfInstructPipeline,基于种子指令迭代生成大量新指令。支持多种过滤器(如长度、关键词、标点符号等)确保生成指令的质量和多样性。欢迎加入Discord获取支持与交流。
使用 Qwen 进行Self-instruct数据生成
阿里云PAI-部署Qwen2-VL-72B
阿里云PAI-部署Qwen2-VL-72B踩坑实录
1303 1
QWEN-VL Plus 使用小记
近期尝试使用Qwen VL Plus模型处理图像识别任务,以GIS专业背景选择了一张街景图片进行测试。体验上,API调用流畅,环境配置简单,且成本低廉,免费额度可支持约1,000张图片的处理。不过,模型在某些情况下会产生幻觉,如对仅含Google水印的街景图片错误地描述存在地名信息。此外,其文本描述风格多变,从轻松愉快到沉稳不一,有时甚至会拒绝回答。
296 5
|
4月前
Cursor + qwen2.5-coder 32b 的配置方式
安装Cursor后,进入设置修改OpenAI基础URL为阿里云的DashScope接口,并添加Qwen2.5-Coder 32B模型。需先访问阿里云百灵控制台申请免费Key。配置完成后,即可使用该模型进行开发和测试。
5082 2

热门文章

最新文章