LiveBench放榜：Qwen3斩获全球开源冠军-阿里云开发者社区

LiveBench放榜：Qwen3斩获全球开源冠军

2025-05-08 1317

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 最新一期LiveBench榜单显示，阿里云旗舰模型Qwen3-235B-A22B荣登全球开源模型冠军，小尺寸Qwen3-32B位列Top3。千问3在指令遵循能力上超越多个顶级闭源模型，位居全球第一。该评测由图灵奖得主Yann LeCun发起，采用动态防污染机制，确保公平性。千问3支持119种语言，具备混合推理架构与强大Agent能力，现已上线阿里云百炼平台，提供免费体验与API调用。

最新一期 LiveBench 放榜，我们的旗舰模型Qwen3-235B-A22B登顶「全球开源模型冠军」，小尺寸的Qwen3-32B则位列全球开源模型Top3。同时，千问3在指令遵循（Instruction Following）这一关键能力上超越o3 High、o4-Mini High、Gemini 2.5 pro等顶级闭源模型，斩获全球第一，这也表明千问3具备全球🔝的语言理解和生成能力。

LiveBench是由图灵奖得主Yann LeCun联合Abacus.AI、纽约大学发起，聚焦AIGC领域模型能力测评，其核心亮点在于动态防污染机制——每月基于最新数据集、arXiv论文、新闻热点和IMDb电影梗概生成新问题，覆盖6大类18项任务，形成持续更新的评估体系。该榜单被誉为「全球首个无法被操纵的LLM基准测试」。LiveBench 的目标是提供一个公平、全面且不断发展的评估工具，帮助研究人员和开发者更好地理解和改进语言模型

千问3独特的混合推理架构，支持即时响应与深度推理双模式切换，还可通过"思考预算"机制满足性能与成本的各种需求；千问3提供119种语言和方言支持，为全球化应用提供坚实支撑；千问3还拥有强大的Agent智能体能力，通过优化编码效率与MCP支持，可实现手机、电脑高效操作及复杂任务处理。