通义千问发布Qwen2.5-Max MoE大模型性能领先-开发者社区-阿里云

新年第一弹，Qwen2.5-Max来了！

2025-02-25 2403

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 新年第一弹，Qwen2.5-Max来了！

大年初一，阿里云通义千问旗舰版模型Qwen2.5-Max全新升级发布。

Qwen2.5-Max模型是阿里云通义团队对MoE模型的最新探索成果，预训练数据超过20万亿tokens。新模型展现出极强劲的综合性能，在多项公开主流模型评测基准上录得高分，全面超越了目前全球领先的开源MoE模型以及最大的开源稠密模型。

目前，开发者可在Qwen Chat（https://chat.qwenlm.ai/）平台免费体验模型，企业和机构也可通过阿里云百炼平台直接调用新模型API服务。

模型性能全球领先

Qwen2.5-Max在知识（测试大学水平知识的MMLU-Pro）、编程（LiveCodeBench）、全面评估综合能力的（LiveBench）以及人类偏好对齐（Arena-Hard）等主流权威基准测试上，展现出全球领先的模型性能。通义团队分别对Qwen2.5-Max的指令（Instruct）模型版本和基座（base）模型版本性能进行了评估测试。

指令模型是所有人可直接对话体验到的模型版本，在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等基准测试中，Qwen2.5-Max比肩Claude-3.5-Sonnet，并几乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。

基座模型反映模型裸性能，由于无法访问GPT-4o和Claude-3.5-Sonnet等闭源模型的基座模型，通义团队将Qwen2.5-Max与目前领先的开源MoE模型 DeepSeek V3、最大的开源稠密模型Llama-3.1-405B，以及同样位列开源稠密模型前列的Qwen2.5-72B进行了对比。

评估结果如下所示，在所有11项基准测试中，Qwen2.5-Max全部超越了对比模型。

更方便的取用

目前，Qwen2.5-Max已在阿里云百炼平台上架，模型名称qwen-max-2025-01-25`，企业和开发者都可通过阿里云百炼调用新模型API。

同时，也可以在全新的Qwen Chat平台上中使用Qwen2.5-Max，直接与模型对话，或者使用artifacts、搜索等功能。

未来展望

持续提升数据规模和模型参数规模能够有效提升模型的智能水平。通义团队对下一个版本的Qwen2.5-Max充满信心，也将持续探索，除了在预训练的scaling 上继续探索外，还将大力投入强化学习的scaling，希望能实现超越人类的智能，驱动AI探索未知之境。

/ END /

新年第一弹，Qwen2.5-Max来了！

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

新年第一弹，Qwen2.5-Max来了！

热门文章

最新文章

相关电子书