Qwen2.5-Max 发布,探索大规模 MoE 模型的智能

简介: Qwen2.5-Max 发布,探索大规模 MoE 模型的智能

过去有一种观点认为,持续地增长数据规模和模型参数规模是一种通向 AGI 的可能的路径。然而,整个大模型社区对于训练超大规模的模型的经验都相对匮乏,不论是稠密模型还是 MoE 模型。


今天,超大规模的 MoE 模型 Qwen2.5-Max 正式上线,Qwen 团队使用超过 20 万亿 token 的预训练数据及精心设计的后训练方案进行训练。


今天,我们很高兴能给大家分享 Qwen2.5-Max 目前所取得的成果。大家可以在Qwen Chat 直接体验,或是通过阿里云百炼平台调用 API 服务。



Qwen2.5-Max 模型性能


我们将 Qwen2.5-Max 与业界领先的模型(无论是闭源还是开源)在一系列广受关注的基准测试上进行了对比评估。


这些基准测试包括测试大学水平知识的 MMLU-Pro、评估编程能力的 LiveCodeBench,全面评估综合能力的 LiveBench,以及近似人类偏好的 Arena-Hard。我们的评估结果涵盖了基座模型和指令模型的性能得分。


首先,我们直接对比了指令模型的性能表现。指令模型即我们平常使用的可以直接对话的模型。


我们将 Qwen2.5-Max 与业界领先的模型(包括 DeepSeek V3、GPT-4o 和 Claude-3.5-Sonnet)的性能结果进行了对比。



在 Arena-Hard、LiveBench、LiveCodeBench 和 GPQA-Diamond 等基准测试中,Qwen2.5-Max 的表现领先。同时在 MMLU-Pro 等其他评估中也展现出了极具竞争力的成绩。


在基座模型的对比中,由于无法访问 GPT-4o 和 Claude-3.5-Sonnet 等闭源模型的基座模型,我们将 Qwen2.5-Max 与目前领先的开源 MoE 模型 DeepSeek V3、最大的开源稠密模型 Llama-3.1-405B,以及同样位列开源稠密模型前列的 Qwen2.5-72B 进行了对比。


对比结果如下图所示:


我们的基座模型在大多数基准测试中都展现出了显著的优势。我们相信,随着后训练技术的不断进步,下一个版本的 Qwen2.5-Max 将会达到更高的水平。


使用 Qwen2.5-Max


现在您可以在 Qwen Chat https://chat.qwenlm.ai)中使用 Qwen2.5-Max,直接与模型对话,或者使用 artifacts、搜索等功能。


Qwen2.5-Max 的 API(模型名称为 「qwen-max-2025-01-25」)现已开放使用。


您可以先注册阿里云账号(https://account.alibabacloud.com/register/intl_register.htm)  并开通阿里云大模型服务平台,然后在控制台创建 API 密钥。


由于 Qwen 的 API 与 OpenAI API 兼容,我们可以直接按照使用 OpenAI API 的常规方式进行调用。


以下是使用 Python 调用 Qwen2.5-Max 的示例:

``` python
from openai import OpenAI
import os

client = OpenAI(
    api_key=os.getenv("API_KEY"),
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
)

completion = client.chat.completions.create(
    model="qwen-max-2025-01-25",
    messages=[
        {'role': 'system', 'content': 'You are a helpful assistant.'},
        {'role': 'user', 'content': 'Which number is larger, 9.11 or 9.8?'}
    ]
)

print(completion.choices[0].message)
```


未来展望


持续提升数据规模和模型参数规模能够有效提升模型的智能水平。接下来,我们将持续探索,除了在预训练的 scaling 继续探索外,将大力投入强化学习的 scaling,希望能实现超越人类的智能,驱动 AI 探索未知之境。


最后,Qwen 再次祝大家新春快乐,巳巳如意!

相关文章
|
27天前
|
人工智能 自然语言处理 IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
323 109
|
2月前
|
存储 人工智能 自然语言处理
告别文字乱码!全新文生图模型Qwen-Image来咯
通义千问团队开源了Qwen-Image,一个20B参数的MMDiT模型,具备卓越的文本渲染和图像编辑能力。支持复杂中英文文本生成与自动布局,适用于多场景图像生成与编辑任务,已在魔搭社区与Hugging Face开源。
369 2
|
10天前
|
机器学习/深度学习 算法 数据可视化
从零开始训练推理模型:GRPO+Unsloth改造Qwen实战指南
推理型大语言模型兴起,通过先思考再作答提升性能。本文介绍GRPO等强化学习算法,详解其原理并动手用Qwen2.5-3B训练推理模型,展示训练前后效果对比,揭示思维链生成的实现路径。
122 1
从零开始训练推理模型:GRPO+Unsloth改造Qwen实战指南
|
28天前
|
机器学习/深度学习 人工智能 JSON
微软rStar2-Agent:新的GRPO-RoC算法让14B模型在复杂推理时超越了前沿大模型
Microsoft Research最新推出的rStar2-Agent在AIME24数学基准测试中以80.6%的准确率超越超大规模模型DeepSeek-R1,展现“思考更聪明”而非“更长”的AI推理新方向。
106 8
微软rStar2-Agent:新的GRPO-RoC算法让14B模型在复杂推理时超越了前沿大模型
|
21天前
通义千问Image模型使用指南
该表格展示了多个设计场景,包括模型选择、复制粘贴提示词、一键生图等步骤。每个步骤配有详细描述及示意图,呈现了不同主题如商业海报、IP主视觉、品牌包装、街拍风格等的设计构思与实现方式。
|
22天前
|
机器学习/深度学习 人工智能 测试技术
探索 Qwen2.5-Max 的智能:大规模 MoE 模型的飞跃
Qwen2.5-Max 是通义实验室推出的最先进MoE模型,在推理、知识和代码任务中表现卓越,已在超20万亿token上预训练,并通过SFT和RLHF优化。在多项基准测试中领先,如Arena-Hard达89.4,MMLU-Pro为76.1,性能超越DeepSeek V3、GPT-4o等模型,成为当前最佳开源模型。可通过Qwen Chat和API使用,适用于开发者、研究者及AI爱好者探索前沿AI能力。
155 2
|
2月前
|
文字识别 算法 语音技术
基于模型蒸馏的大模型文案生成最佳实践
本文介绍了基于模型蒸馏技术优化大语言模型在文案生成中的应用。针对大模型资源消耗高、部署困难的问题,采用EasyDistill算法框架与PAI产品,通过SFT和DPO算法将知识从大型教师模型迁移至轻量级学生模型,在保证生成质量的同时显著降低计算成本。内容涵盖教师模型部署、训练数据构建及学生模型蒸馏优化全过程,助力企业在资源受限场景下实现高效文案生成,提升用户体验与业务增长。
356 23
|
2月前
|
人工智能 JavaScript 测试技术
Cradle:颠覆AI Agent 操作本地软件,AI驱动的通用计算机控制框架,如何让基础模型像人一样操作你的电脑?
Cradle 是由 BAAI‑Agents 团队开源的通用计算机控制(GCC)多模态 AI Agent 框架,具备视觉输入、键鼠操作输出、自主学习与反思能力,可操作各类本地软件及游戏,实现任务自动化与复杂逻辑执行。
191 6
|
3月前
|
人工智能 弹性计算 API
再不玩通义 VACE 模型你就过时了!一个模型搞定所有视频任务
介绍通义的开源模型在 ecs 或 acs 场景如何一键部署和使用,如何解决不同视频生成场景的问题。

热门文章

最新文章