近日,权威模型评测榜单 LiveBench 发布了最新一期排名,Qwen2.5-Max 成功超越 Gemini-2.0-Flash、Deepseek-V3 等模型,位列全球第九。
在本次评测中,Qwen2.5-Max 不仅闯进了全球前十,也是非推理类模型中性能表现最好的中国模型。这是继 Chatbot Arena LLM Leaderboard 全球第七之后,Qwen2.5-Max 再次获得国际主流评测的认可。
关于LiveBench
LiveBench 是由图灵奖得主、Meta 首席 AI 科学家杨立昆(Yann LeCun)联合 Abacus.AI、纽约大学等机构推出的第三方评测榜单。它以权威性和客观性著称,是当前 AIGC 领域最具公信力的评测之一。
与传统榜单不同,LiveBench 的题目每月更新,基于最新的 arXiv 论文、新闻文章、IMDb 电影概要等动态生成问题,避免了数据污染问题。因此,它被称为「全球首个无法被操纵的 LLM 基准测试」。
Qwen2.5-Max
Qwen2.5-Max 是我们发布的最新 MoE 模型,展现出极强劲的性能。
在此前的基座模型对比中,由于无法访问 GPT-4o 和 Claude-3.5-Sonnet 等闭源模型的基座模型,我们将 Qwen2.5-Max 与目前领先的开源 MoE 模型 DeepSeek V3、最大的开源稠密模型 Llama-3.1-405B,以及同样位列开源稠密模型前列的 Qwen2.5-72B 进行了对比。结果显示,Qwen2.5-Max 在11项主流评测中均超越了对手。
欢迎体验
目前,Qwen2.5-Max 已经上线 Qwen Chat (chat.qwenlm.ai)平台,欢迎大家免费体验。此外,你还可以试用 Qwen2.5-VL、Qwen2.5-1M 等一系列热门开源模型,感受它们的强大能力。
感谢大家的支持与关注!接下来,Qwen除了在预训练 的 scaling 继续探索外,还将大力投入强化学习的 scaling。我们会继续努力,敬请期待。
相关阅读

