通义两大模型,正式开源!

简介: 通义两大模型,正式开源!


Qwen2.5-VL

AI视觉智能体能力大幅增强


本次开源的 Qwen2.5-VL 模型,我们推出 3B、7B 和 72B 三个尺寸版本。其中,旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军,全面超越GPT-4o与Claude3.5。新的Qwen2.5-VL能够更准确地解析图像内容,突破性地支持超1小时的视频理解,无需微调就可变身为一个能操控手机和电脑的AI视觉智能体(Visual Agents),实现给指定朋友送祝福、电脑修图、手机订票等多步骤复杂操作。


万物识别


Qwen2.5-VL 不仅擅长识别常见物体,如花、鸟、鱼和昆虫,还能够分析图像中的文本、图表、图标、图形和布局。

Prompt:What are these attractions? Please give their names in Chinese and English.

Qwen2.5-VL:

These attractions are:

1.Top left: The Great Pyramids of Giza (埃及的吉萨大金字塔)

2.Top right: The Great Wall of China (中国的长城)

3.Bottom left: The Statue of Liberty (美国的自由女神像)

4.Bottom right: The Terracotta Army (中国的秦始皇兵马俑)


精准的视觉定位

Qwen2.5-VL 采用矩形框和点的多样化方式对通用物体定位,可以实现层级化定位和规范的 JSON 格式输出。增强的定位能力为复杂场景中的视觉 Agent 进行理解和推理任务提供了基础。



Prompt:Detect all motorcyclists in the image and return their locations in the form of coordinates. The format of output should be like {“bbox_2d”: [x1, y1, x2, y2], “label”: “motorcyclist”, “sub_label”: “wearing helmat” # or “not wearing helmat”}.


全面的文字识别和理解


Qwen2.5-VL 将 OCR 识别能力提升至一个新的水平,增强了多场景、多语言和多方向的文本识别和文本定位能力。同时,在信息抽取能力上进行大幅度增强,以满足日益增长的资质审核、金融商务等数字化、智能化需求。



Prompt:Read all texts in the image, output in lines.


Qwen2.5-VL:

平安喜樂 八方來財 順風順水順財神 暴富 大吉 諸事皆順 福 時來運轉 發財 如意 有錢有勢有前程 好運來


Qwen特色文档解析


在 Qwen2.5-VL 中,我们在设计了一种更全面的文档解析格式,称为 QwenVL HTML 格式,它既可以将文档中的文本精准地识别出来,也能够提取文档元素(如图片、表格等)的位置信息,从而准确地将文档中的版面布局进行精准还原。基于精心构建的海量数据,QwenVL HTML 可以对广泛的场景进行鲁棒的文档解析,比如杂志、论文、网页、甚至手机截屏等等。

增强的视频理解


Qwen2.5-VL 的视频理解能力经过全面升级,在时间处理上,我们引入了动态帧率(FPS)训练和绝对时间编码技术。这样一来,模型不仅能够支持小时级别的超长视频理解,还具备秒级的事件定位能力。它不仅能够准确地理解小时级别的长视频内容,还可以在视频中搜索具体事件,并对视频的不同时间段进行要点总结,从而快速、高效地帮助用户提取视频中蕴藏的关键信息。


能够操作电脑和手机的视觉Agent


通过利用内在的感知、解析和推理能力,Qwen2.5-VL 展现出了不错的设备操作能力。这包括在手机、网络平台和电脑上执行任务,为创建真正的视觉代理提供了有价值的参考点。

Prompt:

Please help me book a one-way ticket in the bookings app. The starting point is Chongqing Jiangbei Airport and the ending point is Beijing Capital Airport on January 28th.


Qwen2.5-VL 不同尺寸及量化版本已在魔搭社区ModelScope、HuggingFace等平台开源,大家也可在 Qwen Chat 上直接体验最新模型,或通过阿里云百炼调用模型API。

Huggingface:

https://huggingface.co/collections/Qwen/qwen25-vl-6795ffac22b334a837c0f9a5


Modelscope:

https://modelscope.cn/collections/Qwen25-VL-58fbb5d31f1d47


Qwen Chat:https://chat.qwenlm.ai


Qwen2.5-1M

百万Tokens处理速度提升近7倍


本次开源的 Qwen2.5-1M 大模型,我们推出7B、14B两个尺寸,均在处理长文本任务中稳定超越GPT-4o-mini;同时开源推理框架,在处理百万级别长文本输入时可实现近7倍的提速。这也是我们首次将开源 Qwen 模型的上下文扩展到 1M 长度。



1M长度≈100万个单词≈150万个汉字≈2部《红楼梦》



长文本处理能力


在上下文长度为 100 万 Tokens 的大海捞针(Passkey Retrieval)任务中,Qwen2.5-1M 能够准确地从 1M 长度的文档中检索出隐藏信息,仅有 7B 模型出现了少量错误。



长文本推理速度提升


对于长上下文的语言模型,推理速度对用户体验至关重要。为了加速预填充阶段,我们引入了基于 MInference 的稀疏注意力优化。并在分块预填充、集成长度外推方案和稀疏性优化等多环节创新改进。基于这些改进的推理框架有效地加快了模型推理速度,在不同模型大小和 GPU 设备上,处理 1M 长度输入序列的预填充速度提升了 3.2 倍到 6.7 倍。



你可以在 Huggingface 和 Modelscope 上的在线演示体验 Qwen2.5-1M 模型。

Huggingface:

https://huggingface.co/spaces/Qwen/Qwen2.5-1M-Demo

Modelscope:

https://www.modelscope.cn/studios/Qwen/Qwen2.5-1M-Demo


推荐阅读


刚刚,通义万相模型能力重磅升级!


翻译、调酒、下象棋?AI眼镜成了年货“新宠”

相关文章
|
2月前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
270 2
|
2月前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
1408 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
1月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
261 120
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
559 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
2月前
|
自然语言处理 机器人 图形学
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型
腾讯混元图像3.0,真的来了——开源,免费开放使用。 正式介绍一下:混元图像3.0(HunyuanImage 3.0),是首个工业级原生多模态生图模型,参数规模80B,也是目前测评效果最好、参数量最大的开源生图模型,效果可对…
755 2
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型
|
1月前
|
缓存 物联网 PyTorch
使用TensorRT LLM构建和运行Qwen模型
本文档介绍如何在单GPU和单节点多GPU上使用TensorRT LLM构建和运行Qwen模型,涵盖模型转换、引擎构建、量化推理及LoRA微调等操作,并提供详细的代码示例与支持矩阵。
416 2
|
1月前
|
存储 机器学习/深度学习 人工智能
54_模型优化:大模型的压缩与量化
随着大型语言模型(LLM)的快速发展,模型规模呈指数级增长,从最初的数亿参数到如今的数千亿甚至万亿参数。这种规模扩张带来了惊人的能源消耗和训练成本,同时也给部署和推理带来了巨大挑战。2025年,大模型的"瘦身"已成为行业发展的必然趋势。本文将深入剖析大模型压缩与量化的核心技术、最新进展及工程实践,探讨如何通过创新技术让大模型在保持高性能的同时实现轻量化部署,为企业和开发者提供全面的技术指导。
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
38_多模态模型:CLIP的视觉-语言对齐_深度解析
想象一下,当你看到一张小狗在草地上奔跑的图片时,你的大脑立刻就能将视觉信息与"小狗"、"草地"、"奔跑"等概念联系起来。这种跨模态的理解能力对于人类来说似乎是理所当然的,但对于人工智能系统而言,实现这种能力却经历了长期的技术挑战。多模态学习的出现,标志着AI从单一模态处理向更接近人类认知方式的综合信息处理迈出了关键一步。

热门文章

最新文章