阿里云通义千问发布多款AI大模型 多模态、长文本能力全面升级!

简介: 阿里云通义千问发布多款AI大模型 多模态、长文本能力全面升级!

155ccd4b870029e436824dec7a10bcf0.png

近日,阿里云旗下的通义千问发布性能强大的旗舰版Qwen2.5-Max,并开源升级版视觉理解模型Qwen2.5-VL以及支持百万token长文本处理Qwen2.5-1M,不仅展现了通义千问在大模型前沿技术领域的探索成果,更为开发者和企业提供了有力的技术支持。


旗舰版Qwen2.5-Max:对MoE模型最新探索成果


通义千问旗升级版舰版模型Qwen2.5-Max,是对MoE模型的最新探索成果,预训练数据超过20万亿tokens,综合性能强劲,在多项主流模型评测基准上录得高分。目前,开发者可在Qwen Chat平台体验模型,企业和机构也可通过阿里云百炼平台直接调用新模型API服务。


Qwen2.5-Max在知识(测试大学水平知识的MMLU-Pro)、编程(LiveCodeBench)、全面评估综合能力的(LiveBench)以及人类偏好对齐(Arena-Hard)等主流权威基准测试上,通义团队分别对Qwen2.5-Max的指令(Instruct)模型版本和基座(base)模型版本性能进行了评估测试。


指令模型是所有人可直接对话体验到的模型版本,在 Arena-Hard、LiveBench、LiveCodeBench 和 GPQA-Diamond 等基准测试中,Qwen2.5-Max 的表现超越了 DeepSeek V3。同时在 MMLU-Pro 等其他评估中也展现出了极具竞争力的成绩。


Qwen2.5-Max更是在评估全球最佳大语言模型和AI聊天机器人的权威三方基准测试平台Chatbot Arena取得瞩目成绩。 Qwen2.5-Max在Chatbot Arena最新公布的大模型盲测榜单中,总分全球排名第七,与其他顶级大模型不相上下,它在数学和编程等单项能力上排名第一,在硬提示(hard prompts),即解决挑战性任务的复杂提示方面排名第二

97bcba4359e436adc08f103f374ad779.png

Qwen2.5-Max在Chatbot Arena最新公布的大模型榜单中排名亮眼

f9e88e15890cfbb8a4c28a5ad752091c.png

Qwen2.5-Max在数学和编码方面位列第一,解决挑战性任务的复杂提示方面排名第二

视觉理解模型Qwen2.5-VL多模态处理能力显著提升


通义千问还开源了全新的视觉理解模型Qwen2.5-VL,推出3B、7B和72B三个尺寸版本。其中,旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军。目前,不同尺寸及量化版本的Qwen2.5-VL模型已在魔搭社区ModelScope、HuggingFace等平台开源,开发者也可以在Qwen Chat上直接体验最新模型。


Qwen2.5-VL展现强大多模态能力,不仅能精准识别物体和解析复杂图像内容,还可理解一小时以上的长视频,精确回答问题。此外,该模型能将非结构化数据如发票、表单转换为JSON等结构化格式,特别适合自动生成财报和法务文档等场景。


Qwen2.5-VL甚至能够直接作为视觉智能体进行操作,通过指导使用各种工具,在电脑和移动设备上轻松执行查询天气、订机票等多步骤任务。


在模型技术方面,与上一代Qwen2-VL相比,Qwen2.5-VL增强了模型对时间和空间尺度的感知能力,并进一步简化了网络结构以提高模型效率。在重要的视觉编码器设计中,通义团队从头开始训练了原生动态分辨率的ViT,并采用创新结构,让Qwen2.5-VL拥有更简洁高效的视觉编解码能力。

ede8ac294f26d571f7e5b1501aac0f1f.png

Qwen2.5-VL评分图


Qwen2.5-1M突破百万Token


此外,阿里云通义还开源了支持100万Tokens上下文的Qwen2.5-1M模型,推出7B及14B两个尺寸,同时开源推理框架,在处理百万级别长文本输入时可实现近7倍的提速。


Qwen2.5-1M已经在ModelScope和HuggingFace等平台开源,相关推理框架也已在GitHub上开源,开发者和企业也可通过阿里云百炼平台调用 Qwen2.5-Turbo模型API,或是通过Qwen Chat体验模型性能及效果。


Qwen2.5-1M拥有优异的长文本处理能力。在上下文长度为100万Tokens的大海捞针(Passkey Retrieval)任务中,Qwen2.5-1M 能够准确地从 1M 长度的文档中检索出隐藏信息,仅有7B模型出现了少量错误。在RULER、LV-Eval等基准对复杂长上下文理解任务测试中,Qwen2.5-14B-Instruct-1M表现出色,为开发者提供了一个现有长上下文模型的优秀开源替代。


长文本训练需大量计算资源,通义团队将Qwen2.5-1M的上下文长度从4K逐步扩展到256K,再通过Dual Chunk Attention机制,无需额外训练即可将上下文稳定扩展到1M。同时,团队在vLLM引擎基础上引入稀疏注意力机制,在多个环节进行创新优化,提高推理效率。

8032b3f3d8c6e00082860b6ac2c9d486.png

Qwen 2.5系列模型在RULER上的表现


Alibaba Cloud’s Qwen2.5-Max Secures Top Rankings in Chatbot Arena


Alibaba Cloud’s latest proprietary large language model(LLM), Qwen2.5-Max, has achieved impressive results on Chatbot Arena, a well-recognized open platform that evaluates the world’s best LLM and AI chatbots. Ranked #7 overall in the Arena score, Qwen2.5-Max matches other top proprietary LLMs and demonstrates exceptional capabilities, particularly in technical domains. It ranks #1 position in math and coding, and ranks #2 in hard prompts, which involve complex prompts in addressing challenging tasks, solidifying its status as a powerhouse in tackling complex tasks.

97bcba4359e436adc08f103f374ad779.png

Qwen2.5-Max Ranked #7 on Chatbot Arena

f9e88e15890cfbb8a4c28a5ad752091c.png

Qwen2.5-Max ranks 1st in math and coding, and 2nd in hard prompts


As a cutting-edge Mixture of Experts (MoE) model, Qwen2.5-Max has been pretrained on over 20 trillion tokens and further refined with Supervised Fine-Tuning (SFT) and Reinforcement Learning from Human Feedback (RLHF) techniques. Leveraging these technological advancements, Qwen2.5-Max has demonstrated exceptional strengths in knowledge, coding, general capabilities, and human alignment, securing leading scores in major benchmarks including MMLU-Pro, LiveCodeBench, LiveBench, and Arena-Hard.


Developers and businesses worldwide can seamlessly access Qwen2.5-Max through Model Studio, Alibaba Cloud’s generative AI development platform, offering both high performance and cost-efficiently. They can also experience the model’s capability on the Qwen Chat platform.


Over the past year, Alibaba Cloud has continuously expanded the Qwen family, releasing a series of Qwen models across text, audio, and visual formats in various sizes to meet the increasing AI demands from developers and customers worldwide. Last month, it unveiled its latest open-sourced, visual-language model, Qwen2.5-VL, which exhibits remarkable multimodal capabilities and can act as a visual agent to facilitate task execution on computers and mobile devices. It also released Qwen2.5-1M, an open-source model capable of processing long context inputs of up to 1 million tokens. Earlier this year, it has unveiled an expanded suite of LLMs and AI development tools, upgraded infrastructure offerings, and new support programs for global developers during its Global Developer Summit in Jakarta.

ede8ac294f26d571f7e5b1501aac0f1f.png

Qwen2.5-VL's rating

8032b3f3d8c6e00082860b6ac2c9d486.png

Series of Qwen2.5 models performance on RULER



目录
打赏
0
2
2
0
317
分享
相关文章
AI大模型运维开发探索第四篇:智能体分阶段演进路线
本文探讨了智能体工程的演进历程,从最初的思维链(智能体1.0)到实例化智能体(智能体2.0),再到结构化智能体(智能体3.0),最终展望了自演进智能体(智能体4.0)。文章详细分析了各阶段遇到的问题及解决策略,如工具调用可靠性、推理能力提升等,并引入了大模型中间件的概念以优化业务平台与工具间的协调。此外,文中还提到了RunnableHub开源项目,为读者提供了实际落地的参考方案。通过不断迭代,智能体逐渐具备更强的适应性和解决问题的能力,展现了未来AI发展的潜力。
QVQ-Max:阿里通义新一代视觉推理模型!再造多模态「全能眼」秒解图文难题
QVQ-Max是阿里通义推出的新一代视觉推理模型,不仅能解析图像视频内容,还能进行深度推理和创意生成,在数学解题、数据分析、穿搭建议等场景展现强大能力。
76 15
QVQ-Max:阿里通义新一代视觉推理模型!再造多模态「全能眼」秒解图文难题
多模态AI核心技术:CLIP与SigLIP技术原理与应用进展
近年来,多模态表示学习在人工智能领域取得显著进展,CLIP和SigLIP成为里程碑式模型。CLIP由OpenAI提出,通过对比学习对齐图像与文本嵌入空间,具备强大零样本学习能力;SigLIP由Google开发,采用sigmoid损失函数优化训练效率与可扩展性。两者推动了多模态大型语言模型(MLLMs)的发展,如LLaVA、BLIP-2和Flamingo等,实现了视觉问答、图像描述生成等复杂任务。这些模型不仅拓展了理论边界,还为医疗、教育等领域释放技术潜力,标志着多模态智能系统的重要进步。
56 13
多模态AI核心技术:CLIP与SigLIP技术原理与应用进展
一个支持阿里云百炼平台DeepSeek R1大模型(智能体)的Wordpress插件,AI Agent or Chatbot.
这是一个将阿里云DeepSeek AI服务集成到WordPress的聊天机器人插件,支持多轮对话、上下文记忆和自定义界面等功能。用户可通过短代码轻松添加到页面,并支持多种配置选项以满足不同需求。项目采用MIT协议授权,代码仓位于GitHub与Gitee。开发者Chi Leung为长期境外工作,代码注释以英文为主。适合需要在WordPress网站中快速部署AI助手的用户使用。
AI引爆全美失业潮?通义灵码助你开发路上不孤单!
达沃斯调查显示,超4成老板计划2025-2030年因AI自动化削减员工。首当其冲的是软件工程行业,Anthropic CEO称AI可能在12个月内接管几乎所有代码编写工作。面对这一变革,程序员应如何应对?通义灵码作为基于通义大模型的AI研发辅助工具,提供代码生成、智能问答等功能,助力开发者适应AI原生研发新范式。现可直接参与项目,完成未实现功能!
手把手体验通义灵码2.0:AI程序员如何让我从“调参侠”进阶“架构师”?
通义灵码2.0是一款强大的AI编程工具,帮助开发者从“调参侠”进阶为“架构师”。它通过跨语言开发支持、智能单元测试生成和图生代码等功能,大幅提升开发效率。例如,将Python数据处理函数一键转为React+ECharts组件,自动生成单元测试用例,甚至通过草图生成前端布局代码。此外,新增的QwQ模型具备“代码脑补”能力,可推荐性能优化策略。尽管功能强大,但仍需注意环境隔离与代码审查,避免过度依赖。通义灵码2.0不仅是工具,更是开发者的“外接大脑”。
41 8
|
4天前
|
通义灵码2.0 寻找AI程序员{头号玩家}
通义灵码联合 CHERRY 中国发起“头号玩家”活动,寻找 AI 程序员!体验 AI 智能编码新功能,如图生代码、单元测试、跨语言编程等。完成任意两个任务即可赢取联名定制机械键盘、折扣券及社区积分等奖品。活动截止至4月15日,点击链接参与,探索未来编程乐趣!
34 6
AutoGLM沉思:智谱AI推出首个能"边想边干"的自主智能体!深度研究+多模态交互,颠覆传统AI工作模式
AutoGLM沉思是由智谱AI推出的一款开创性AI智能体,它突破性地将深度研究能力与实际操作能力融为一体,实现了AI从被动响应到主动执行的跨越式发展。
41 16
AutoGLM沉思:智谱AI推出首个能"边想边干"的自主智能体!深度研究+多模态交互,颠覆传统AI工作模式
让机器读懂视频:亿级淘宝视频背后的多模态AI算法揭秘 | 开发者必读(142期)
在移动互联网行业整体增速放缓的大背景下,短视频行业异军突起,成为“行业黑洞”抢夺用户时间,尽管移动互联网人口红利见顶,新的增长点难以寻觅,但中国短视频人均使用时长及头部短视频平台日均活跃用户均持续增常,在淘宝,短视频业务一直以来都是非常重要的业务,让我们一起揭秘亿级淘宝视频背后的多模态AI算法…

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等