阿里云通义千问发布多款AI大模型 多模态、长文本能力全面升级!

简介: 阿里云通义千问发布多款AI大模型 多模态、长文本能力全面升级!

155ccd4b870029e436824dec7a10bcf0.png

近日,阿里云旗下的通义千问发布性能强大的旗舰版Qwen2.5-Max,并开源升级版视觉理解模型Qwen2.5-VL以及支持百万token长文本处理Qwen2.5-1M,不仅展现了通义千问在大模型前沿技术领域的探索成果,更为开发者和企业提供了有力的技术支持。


旗舰版Qwen2.5-Max:对MoE模型最新探索成果


通义千问旗升级版舰版模型Qwen2.5-Max,是对MoE模型的最新探索成果,预训练数据超过20万亿tokens,综合性能强劲,在多项主流模型评测基准上录得高分。目前,开发者可在Qwen Chat平台体验模型,企业和机构也可通过阿里云百炼平台直接调用新模型API服务。


Qwen2.5-Max在知识(测试大学水平知识的MMLU-Pro)、编程(LiveCodeBench)、全面评估综合能力的(LiveBench)以及人类偏好对齐(Arena-Hard)等主流权威基准测试上,通义团队分别对Qwen2.5-Max的指令(Instruct)模型版本和基座(base)模型版本性能进行了评估测试。


指令模型是所有人可直接对话体验到的模型版本,在 Arena-Hard、LiveBench、LiveCodeBench 和 GPQA-Diamond 等基准测试中,Qwen2.5-Max 的表现超越了 DeepSeek V3。同时在 MMLU-Pro 等其他评估中也展现出了极具竞争力的成绩。


Qwen2.5-Max更是在评估全球最佳大语言模型和AI聊天机器人的权威三方基准测试平台Chatbot Arena取得瞩目成绩。 Qwen2.5-Max在Chatbot Arena最新公布的大模型盲测榜单中,总分全球排名第七,与其他顶级大模型不相上下,它在数学和编程等单项能力上排名第一,在硬提示(hard prompts),即解决挑战性任务的复杂提示方面排名第二

97bcba4359e436adc08f103f374ad779.png

Qwen2.5-Max在Chatbot Arena最新公布的大模型榜单中排名亮眼

f9e88e15890cfbb8a4c28a5ad752091c.png

Qwen2.5-Max在数学和编码方面位列第一,解决挑战性任务的复杂提示方面排名第二

视觉理解模型Qwen2.5-VL多模态处理能力显著提升


通义千问还开源了全新的视觉理解模型Qwen2.5-VL,推出3B、7B和72B三个尺寸版本。其中,旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军。目前,不同尺寸及量化版本的Qwen2.5-VL模型已在魔搭社区ModelScope、HuggingFace等平台开源,开发者也可以在Qwen Chat上直接体验最新模型。


Qwen2.5-VL展现强大多模态能力,不仅能精准识别物体和解析复杂图像内容,还可理解一小时以上的长视频,精确回答问题。此外,该模型能将非结构化数据如发票、表单转换为JSON等结构化格式,特别适合自动生成财报和法务文档等场景。


Qwen2.5-VL甚至能够直接作为视觉智能体进行操作,通过指导使用各种工具,在电脑和移动设备上轻松执行查询天气、订机票等多步骤任务。


在模型技术方面,与上一代Qwen2-VL相比,Qwen2.5-VL增强了模型对时间和空间尺度的感知能力,并进一步简化了网络结构以提高模型效率。在重要的视觉编码器设计中,通义团队从头开始训练了原生动态分辨率的ViT,并采用创新结构,让Qwen2.5-VL拥有更简洁高效的视觉编解码能力。

ede8ac294f26d571f7e5b1501aac0f1f.png

Qwen2.5-VL评分图


Qwen2.5-1M突破百万Token


此外,阿里云通义还开源了支持100万Tokens上下文的Qwen2.5-1M模型,推出7B及14B两个尺寸,同时开源推理框架,在处理百万级别长文本输入时可实现近7倍的提速。


Qwen2.5-1M已经在ModelScope和HuggingFace等平台开源,相关推理框架也已在GitHub上开源,开发者和企业也可通过阿里云百炼平台调用 Qwen2.5-Turbo模型API,或是通过Qwen Chat体验模型性能及效果。


Qwen2.5-1M拥有优异的长文本处理能力。在上下文长度为100万Tokens的大海捞针(Passkey Retrieval)任务中,Qwen2.5-1M 能够准确地从 1M 长度的文档中检索出隐藏信息,仅有7B模型出现了少量错误。在RULER、LV-Eval等基准对复杂长上下文理解任务测试中,Qwen2.5-14B-Instruct-1M表现出色,为开发者提供了一个现有长上下文模型的优秀开源替代。


长文本训练需大量计算资源,通义团队将Qwen2.5-1M的上下文长度从4K逐步扩展到256K,再通过Dual Chunk Attention机制,无需额外训练即可将上下文稳定扩展到1M。同时,团队在vLLM引擎基础上引入稀疏注意力机制,在多个环节进行创新优化,提高推理效率。

8032b3f3d8c6e00082860b6ac2c9d486.png

Qwen 2.5系列模型在RULER上的表现


Alibaba Cloud’s Qwen2.5-Max Secures Top Rankings in Chatbot Arena


Alibaba Cloud’s latest proprietary large language model(LLM), Qwen2.5-Max, has achieved impressive results on Chatbot Arena, a well-recognized open platform that evaluates the world’s best LLM and AI chatbots. Ranked #7 overall in the Arena score, Qwen2.5-Max matches other top proprietary LLMs and demonstrates exceptional capabilities, particularly in technical domains. It ranks #1 position in math and coding, and ranks #2 in hard prompts, which involve complex prompts in addressing challenging tasks, solidifying its status as a powerhouse in tackling complex tasks.

97bcba4359e436adc08f103f374ad779.png

Qwen2.5-Max Ranked #7 on Chatbot Arena

f9e88e15890cfbb8a4c28a5ad752091c.png

Qwen2.5-Max ranks 1st in math and coding, and 2nd in hard prompts


As a cutting-edge Mixture of Experts (MoE) model, Qwen2.5-Max has been pretrained on over 20 trillion tokens and further refined with Supervised Fine-Tuning (SFT) and Reinforcement Learning from Human Feedback (RLHF) techniques. Leveraging these technological advancements, Qwen2.5-Max has demonstrated exceptional strengths in knowledge, coding, general capabilities, and human alignment, securing leading scores in major benchmarks including MMLU-Pro, LiveCodeBench, LiveBench, and Arena-Hard.


Developers and businesses worldwide can seamlessly access Qwen2.5-Max through Model Studio, Alibaba Cloud’s generative AI development platform, offering both high performance and cost-efficiently. They can also experience the model’s capability on the Qwen Chat platform.


Over the past year, Alibaba Cloud has continuously expanded the Qwen family, releasing a series of Qwen models across text, audio, and visual formats in various sizes to meet the increasing AI demands from developers and customers worldwide. Last month, it unveiled its latest open-sourced, visual-language model, Qwen2.5-VL, which exhibits remarkable multimodal capabilities and can act as a visual agent to facilitate task execution on computers and mobile devices. It also released Qwen2.5-1M, an open-source model capable of processing long context inputs of up to 1 million tokens. Earlier this year, it has unveiled an expanded suite of LLMs and AI development tools, upgraded infrastructure offerings, and new support programs for global developers during its Global Developer Summit in Jakarta.

ede8ac294f26d571f7e5b1501aac0f1f.png

Qwen2.5-VL's rating

8032b3f3d8c6e00082860b6ac2c9d486.png

Series of Qwen2.5 models performance on RULER



相关文章
|
1天前
|
人工智能 达摩院 搜索推荐
通义大模型:解码中国AI的"通"与"义"
“通义”取自中国传统文化中“通晓大义”,寓意技术与人文的结合。作为阿里巴巴旗下的超大规模语言模型,通义在知识蒸馏、动态稀疏激活和文化感知模块上实现三大突破,大幅提升效率与适切性。其已在医疗、司法、文化传播等领域落地,如辅助病历处理、法律文书生成及文物解说等。测试显示,通义在中文诗歌创作、商业报告生成等方面表现优异。同时,开放的开发者生态已吸引5万+创新者。未来,通义将探索长期记忆、自我反思及多智能体协作,向AGI迈进,成为智能本质的载体。其对中文语境情感的精准把握,更是中国AI“通情达义”的典范。
42 22
|
1天前
|
人工智能 自然语言处理 达摩院
通义大模型:中国AI领域的新里程碑
本文介绍了阿里巴巴达摩院研发的“通义大模型”系列,该模型在2025年已成为AI领域的重要里程碑。通义大模型拥有超大规模参数、多模态融合、高效训练框架和中文优化等技术特点,在智能客服、内容创作、教育和企业服务等多个场景实现应用。未来,它将在多模态能力、小样本学习、安全性及应用场景拓展等方面持续突破,推动中国AI技术进步与行业智能化转型。
43 17
|
5天前
|
缓存 算法 Java
通义灵码技术解析:大模型如何重构开发者工作流
通义灵码是一款基于通义千问代码大模型的智能编程工具,专为中文开发者设计。它不仅提供代码补全功能,还覆盖需求分析、架构设计、代码生成与缺陷检测等全链路开发场景。文章从核心架构(多模态代码模型设计)、关键算法突破(语义驱动生成与双引擎缺陷检测)及工程实践(低延迟优化与企业级部署)三个维度剖析其创新逻辑,并通过性能基准测试展示其优越性。未来,通义灵码将持续探索AI-Native开发范式,重新定义开发者生产力。
41 7
|
2天前
|
人工智能 自然语言处理 安全
|
1天前
|
人工智能 运维 JavaScript
当AI学会了自我升级,天网还会远吗?
文章通过一个模拟侦探游戏的例子展示了AI如何通过“自我升级”和动态执行代码的能力来解决复杂问题。
当AI学会了自我升级,天网还会远吗?
|
1天前
|
开发框架 人工智能 Java
破茧成蝶:传统J2EE应用无缝升级AI原生
本文探讨了技术挑战和解决方案,还提供了具体的实施步骤,旨在帮助企业顺利实现从传统应用到智能应用的过渡。
破茧成蝶:传统J2EE应用无缝升级AI原生
|
2天前
|
存储 人工智能 监控
通过阿里云Milvus与通义千问VL大模型,快速实现多模态搜索
阿里云向量检索服务Milvus版是一款全托管向量检索引擎,并确保与开源Milvus的完全兼容性,支持无缝迁移。它在开源版本的基础上增强了可扩展性,能提供大规模AI向量数据的相似性检索服务。凭借其开箱即用的特性、灵活的扩展能力和全链路监控告警,Milvus云服务成为多样化AI应用场景的理想选择,包括多模态搜索、检索增强生成(RAG)、搜索推荐、内容风险识别等。您还可以利用开源的Attu工具进行可视化操作,进一步促进应用的快速开发和部署。
|
4天前
|
存储 人工智能 安全
AI 驱动下的阿里云基础设施:技术创新与产品演进
本文整理自阿里云智能集团副总裁、阿里云弹性计算产品线与存储产品线负责人吴结生在“2025 AI势能大会”上的演讲,重点介绍了阿里云在AI基础设施领域的技术创新与产品演进。内容涵盖CIPU架构、盘古存储系统、高性能网络HPN等关键技术,以及第九代英特尔企业实例、ESSD同城冗余云盘等新产品发布。同时,文章详细阐述了灵骏集群的优化措施和可观测能力的提升,展示阿里云如何通过持续创新为AI负载提供强大支持,助力企业在AI时代实现智能化转型。
AI 驱动下的阿里云基础设施:技术创新与产品演进
|
2天前
|
人工智能 Java API
MCP协议重大升级,Spring AI Alibaba联合Higress发布业界首个Streamable HTTP实现方案
本文由Spring AI Alibaba Contributor刘军、张宇撰写,探讨MCP官方引入的全新Streamable HTTP传输层对原有HTTP+SSE机制的重大改进。文章解析Streamable HTTP的设计思想与技术细节,并介绍Spring AI Alibaba开源框架提供的Java实现,包含无状态服务器模式、流式进度反馈模式等多种场景的应用示例。同时,文章还展示了Spring AI Alibaba + Higress的完整可运行示例,分析当前实现限制及未来优化方向,为开发者提供参考。
|
7天前
|
存储 人工智能 自然语言处理
通义灵码 vs. GitHub Copilot:中国AI编码工具的破局之道
全球AI编码工具形成“双极格局”,GitHub Copilot凭借先发优势主导市场,而通义灵码通过差异化路径突围。技术层面,通义灵码在中文语境理解、云原生绑定上展现优势;生态方面,Copilot依托GitHub开源生态,通义灵码则深耕阿里云企业协同场景;开发者心智战中,通义灵码以数据合规、本土化服务及定制化能力取胜。这场较量不仅是技术的比拼,更是生态逻辑与开发者需求的全面博弈,彰显中国AI编码工具“换道超车”的潜力。
86 18

热门文章

最新文章

下一篇
oss创建bucket