Qwen2.5-Max 再创佳绩,闯入 LiveBench 全球前十

简介: Qwen2.5-Max 再创佳绩,闯入 LiveBench 全球前十

近日,权威模型评测榜单 LiveBench 发布了最新一期排名,Qwen2.5-Max 成功超越 Gemini-2.0-Flash、Deepseek-V3 等模型,位列全球第九。


在本次评测中,Qwen2.5-Max 不仅闯进了全球前十,也是非推理类模型中性能表现最好的中国模型。这是继 Chatbot Arena LLM Leaderboard 全球第七之后,Qwen2.5-Max 再次获得国际主流评测的认可。



关于LiveBench


LiveBench 是由图灵奖得主、Meta 首席 AI 科学家杨立昆(Yann LeCun)联合 Abacus.AI、纽约大学等机构推出的第三方评测榜单。它以权威性和客观性著称,是当前 AIGC 领域最具公信力的评测之一。


与传统榜单不同,LiveBench 的题目每月更新,基于最新的 arXiv 论文、新闻文章、IMDb 电影概要等动态生成问题,避免了数据污染问题。因此,它被称为「全球首个无法被操纵的 LLM 基准测试」。


Qwen2.5-Max


Qwen2.5-Max 是我们发布的最新 MoE 模型,展现出极强劲的性能。


在此前的基座模型对比中,由于无法访问 GPT-4o 和 Claude-3.5-Sonnet 等闭源模型的基座模型,我们将 Qwen2.5-Max 与目前领先的开源 MoE 模型 DeepSeek V3、最大的开源稠密模型 Llama-3.1-405B,以及同样位列开源稠密模型前列的 Qwen2.5-72B 进行了对比。结果显示,Qwen2.5-Max 在11项主流评测中均超越了对手。



欢迎体验

目前,Qwen2.5-Max 已经上线 Qwen Chat (chat.qwenlm.ai)平台,欢迎大家免费体验。此外,你还可以试用 Qwen2.5-VL、Qwen2.5-1M 等一系列热门开源模型,感受它们的强大能力。


感谢大家的支持与关注!接下来,Qwen除了在预训练 的 scaling 继续探索外,还将大力投入强化学习的 scaling。我们会继续努力,敬请期待。


相关阅读


相关文章
|
Java 编译器 C语言
Python速成篇(基础语法)上
Python速成篇(基础语法)上
|
机器学习/深度学习 人工智能 Rust
Grok-1:史上最大开源LLM的技术解析
Grok-1:史上最大开源LLM的技术解析
1952 1
|
存储 Java 关系型数据库
Springboot yml配置参数数据加密 (数据加密篇 一)
Springboot yml配置参数数据加密 (数据加密篇 一)
2705 0
Springboot yml配置参数数据加密 (数据加密篇 一)
|
人工智能 数据挖掘
🔔阿里云百炼智能体和工作流可以发布为组件了,AI应用变成“搭积木”
本文介绍了如何通过智能体组件化设计快速生成PPT。首先,创建一个“PPT大纲生成”智能体并发布为组件,该组件可根据用户输入生成结构清晰的大纲。接着,在新的智能体应用中调用此组件与MCP服务(如ChatPPT),实现从大纲到完整PPT的自动化生成。整个流程模块化、复用性强,显著降低AI开发门槛,提升效率。非技术人员也可轻松上手,满足多样化场景需求。
1546 0
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
新突破!阿里云EvoQwen2.5-VL嵌入模型登顶ViDoRe榜单
近期,阿里云专有云团队基于Qwen2.5-VL-3B/7B-Instruct双基座模型,创新研发的EvoQwen2.5-VL嵌入模型,在全球顶尖开源机器学习平台Hugging Face的权威多模态检索基准ViDoRe榜单中斩获佳绩,以硬核实力刷新业界纪录。 该模型以绝对优势登顶ViDoRe V2榜单全球第一,并斩获ViDoRe V1榜单全球第二。这一成果标志着在多模态语义理解与复杂检索领域,阿里云的技术实力已达到全球领先水平,为企业在高异构、非结构化数据场景下的知识管理提供了全新范式。
198 0
|
10月前
|
测试技术 API 开发者
LiveBench放榜:Qwen3斩获全球开源冠军
最新一期LiveBench榜单显示,阿里云旗舰模型Qwen3-235B-A22B荣登全球开源模型冠军,小尺寸Qwen3-32B位列Top3。千问3在指令遵循能力上超越多个顶级闭源模型,位居全球第一。该评测由图灵奖得主Yann LeCun发起,采用动态防污染机制,确保公平性。千问3支持119种语言,具备混合推理架构与强大Agent能力,现已上线阿里云百炼平台,提供免费体验与API调用。
916 10
|
机器学习/深度学习 人工智能 测试技术
Qwen2.5-Max 发布,探索大规模 MoE 模型的智能
Qwen2.5-Max 发布,探索大规模 MoE 模型的智能
|
9月前
|
人工智能 开发者
2025魔搭开发者大会!来了!
2025魔搭开发者大会!来了!
1097 1
|
9月前
|
人工智能 Cloud Native 数据可视化
微医控股与阿里云达成战略合作,双方将携手基于通义千问大模型联合打造医疗全场景智能体,共同构建医疗垂类大模型
2025年6月17日,微医控股与阿里云达成战略合作,共建医疗AI基座及医疗全场景智能体。双方将基于通义千问大模型打造医疗垂类大模型,升级微医“5+1”智能体,并在诊断、用药、健康管理等环节深化应用。微医将结合阿里云技术优势推进IDC上云,助力AI+医疗基础设施建设,共同制定行业标准并推广城市级AI数字健共体。目前,微医AI服务已连接全国1.2万家医院和30万名医生,健康管理会员超100万。
1747 2
|
11月前
|
存储 人工智能 自然语言处理
又双叒叕获认可!阿里云AI Stack一体机首批通过国家评测认证
近日,阿里云AI Stack一体机通过了中国电子技术标准研究院的“云上部署DeepSeek验证测试”,成为首批通过该评测的AI大模型一体机。
1286 10

热门文章

最新文章