新年第一弹,Qwen2.5-Max来了!

简介: 新年第一弹,Qwen2.5-Max来了!

大年初一,阿里云通义千问旗舰版模型Qwen2.5-Max全新升级发布。


Qwen2.5-Max模型是阿里云通义团队对MoE模型的最新探索成果,预训练数据超过20万亿tokens。新模型展现出极强劲的综合性能,在多项公开主流模型评测基准上录得高分,全面超越了目前全球领先的开源MoE模型以及最大的开源稠密模型。


目前,开发者可在Qwen Chathttps://chat.qwenlm.ai/平台免费体验模型,企业和机构也可通过阿里云百炼平台直接调用新模型API服务。


模型性能全球领先


Qwen2.5-Max在知识(测试大学水平知识的MMLU-Pro)、编程(LiveCodeBench)、全面评估综合能力的(LiveBench)以及人类偏好对齐(Arena-Hard)等主流权威基准测试上,展现出全球领先的模型性能。通义团队分别对Qwen2.5-Max的指令(Instruct)模型版本和基座(base)模型版本性能进行了评估测试。


指令模型是所有人可直接对话体验到的模型版本,在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等基准测试中,Qwen2.5-Max比肩Claude-3.5-Sonnet,并几乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。



基座模型反映模型裸性能,由于无法访问GPT-4o和Claude-3.5-Sonnet等闭源模型的基座模型,通义团队将Qwen2.5-Max与目前领先的开源MoE模型 DeepSeek V3、最大的开源稠密模型Llama-3.1-405B,以及同样位列开源稠密模型前列的Qwen2.5-72B进行了对比。


评估结果如下所示,在所有11项基准测试中,Qwen2.5-Max全部超越了对比模型。



更方便的取用

image.png

目前,Qwen2.5-Max已在阿里云百炼平台上架,模型名称qwen-max-2025-01-25`,企业和开发者都可通过阿里云百炼调用新模型API。


同时,也可以在全新的Qwen Chat平台上中使用Qwen2.5-Max,直接与模型对话,或者使用artifacts、搜索等功能。


未来展望


持续提升数据规模和模型参数规模能够有效提升模型的智能水平。通义团队对下一个版本的Qwen2.5-Max充满信心,也将持续探索,除了在预训练的scaling 上继续探索外,还将大力投入强化学习的scaling,希望能实现超越人类的智能,驱动AI探索未知之境。


/ END /



目录
相关文章
|
8月前
|
测试技术 API 开发者
持续上新!Qwen2.5-Max正式发布
持续上新!Qwen2.5-Max正式发布
持续上新!Qwen2.5-Max正式发布
|
8月前
|
人工智能 JavaScript Java
深度测评国产 AI 程序员,在 QwQ 和满血版 DeepSeek 助力下,哪些能力让你眼前一亮?
阿里云发布并开源全新的推理模型通义千问QwQ-32B。通过大规模强化学习,千问QwQ-32B在数学、代码及通用能力上实现质的飞跃,整体性能比肩DeepSeek-R1。在保持强劲性能的同时,千问QwQ-32B还大幅降低了部署使用成本,在消费级显卡上也能实现本地部署。
745 57
|
数据采集 人工智能 API
Qwen2.5-Coder深夜开源炸场,Prompt编程的时代来了!
通义千问团队开源「强大」、「多样」、「实用」的 Qwen2.5-Coder 全系列,致力于持续推动 Open Code LLMs 的发展。
|
API 云栖大会
通义千问升级旗舰模型Qwen-Max,性能接近GPT-4o
通义旗舰模型Qwen-Max全方位升级,性能接近GPT-4o
5287 12
|
9月前
|
机器学习/深度学习 人工智能 测试技术
Qwen2.5-Max 发布,探索大规模 MoE 模型的智能
Qwen2.5-Max 发布,探索大规模 MoE 模型的智能
|
机器学习/深度学习 人工智能 测试技术
阿里云百炼已上线超强推理开源模型QwQ-32B,尺寸更小,性能比肩DeepSeek满血版
通义千问团队推出了320亿参数的QwQ-32B模型,通过大规模强化学习和多阶段训练,在数学、编程及通用能力上达到或超越了DeepSeek-R1等先进模型。QwQ-32B模型已在阿里云百炼上线,支持API调用,用户可通过官方文档了解详细使用方法。未来,团队将继续探索智能体与RL集成,推动人工通用智能的发展。
9037 0
|
8月前
|
人工智能 搜索推荐 数据可视化
Manus:或将成为AI Agent领域的标杆
随着人工智能技术的飞速发展,AI Agent(智能体)作为人工智能领域的重要分支,正逐渐从概念走向现实,并在各行各业展现出巨大的应用潜力。在众多AI Agent产品中,Manus以其独特的技术优势和市场表现,有望成为该领域的标杆。作为资深AI工程师,本文将深入探讨Manus的背景知识、主要业务场景、底层原理、功能的优缺点,并尝试使用Java搭建一个属于自己的Manus助手,以期为AI Agent技术的发展和应用提供参考。
12918 19
|
11月前
|
搜索推荐 物联网 PyTorch
Qwen2.5-7B-Instruct Lora 微调
本教程介绍如何基于Transformers和PEFT框架对Qwen2.5-7B-Instruct模型进行LoRA微调。
11911 34
Qwen2.5-7B-Instruct Lora 微调
|
8月前
|
人工智能 自然语言处理 测试技术
通义灵码上新推理模型,快来体验数学编程双冠王 Qwen2.5-Max
近日,通义灵码上新模型选择功能,除新增 DeepSeek 满血版 V3 和 R1 外,Qwen2.5-Max 也正式上线,它使用了超过 20 万亿 token 的预训练数据及精心设计的后训练方案进行训练。
|
人工智能 JSON 自然语言处理
阿里云百炼产品月刊【2025年1月】
本月重点包括新增批量推理功能,支持非高峰时段大规模数据处理,享有5折折扣;工作流应用新增循环节点,增强了流程定义的灵活性;数据管理新增解析设置功能,支持自动识别与转换多种数据格式。此外,还推出了多个新模型,如DeepSeek系列、Wanx2.1系列等,涵盖文本生成、图像生成、视频生成等多个领域。特别是DeepSeek-V3,具有671B参数,擅长长文本、代码、数学等领域;Wanx2.1系列则在视频和图像生成方面表现出色。通义千问系列模型也在性能和功能上进行了显著提升,特别是在语义理解和多语言支持方面。此外,本月还举办了多项AI实训营活动,包括智能体创意开发赛、新春主题创作等。
1067 0