LiveBench放榜:Qwen3斩获全球开源冠军

简介: 最新一期LiveBench榜单显示,阿里云旗舰模型Qwen3-235B-A22B荣登全球开源模型冠军,小尺寸Qwen3-32B位列Top3。千问3在指令遵循能力上超越多个顶级闭源模型,位居全球第一。该评测由图灵奖得主Yann LeCun发起,采用动态防污染机制,确保公平性。千问3支持119种语言,具备混合推理架构与强大Agent能力,现已上线阿里云百炼平台,提供免费体验与API调用。

最新一期 LiveBench 放榜,我们的旗舰模型Qwen3-235B-A22B登顶「全球开源模型冠军」,小尺寸的Qwen3-32B则位列全球开源模型Top3。同时,千问3在指令遵循(Instruction Following)这一关键能力上超越o3 High、o4-Mini High、Gemini 2.5 pro等顶级闭源模型,斩获全球第一,这也表明千问3具备全球🔝的语言理解和生成能力。


LiveBench是由图灵奖得主Yann LeCun联合Abacus.AI、纽约大学发起,聚焦AIGC领域模型能力测评,其核心亮点在于动态防污染机制——每月基于最新数据集、arXiv论文、新闻热点和IMDb电影梗概生成新问题,覆盖6大类18项任务,形成持续更新的评估体系。该榜单被誉为「全球首个无法被操纵的LLM基准测试」。LiveBench 的目标是提供一个公平、全面且不断发展的评估工具,帮助研究人员和开发者更好地理解和改进语言模型

千问3独特的混合推理架构,支持即时响应与深度推理双模式切换,还可通过"思考预算"机制满足性能与成本的各种需求;千问3提供119种语言和方言支持,为全球化应用提供坚实支撑;千问3还拥有强大的Agent智能体能力,通过优化编码效率与MCP支持,可实现手机、电脑高效操作及复杂任务处理。

image.png

image.png


目前阿里云百炼平台已全线上架Qwen3 模型,可直接在阿里云百炼控制台直接体验!!!也可以参考api文档直接通过api进行调用。

目前上阿里云百炼体验Qwen3,每个模型免费获得各100万 Token,有效期为百炼开通后180天内,qwen-plus-2025-04-28、qwen-turbo-2025-04-28已升级Qwen3,赶快来体验一下Qwen3的能力吧~~

👉Qwen3模型直接体验入口🔗https://bailian.console.aliyun.com/?tab=model#/model-market?name=qwen3

🔗https://bailian.console.aliyun.com/?tab=model#/model-market

🔗https://bailian.console.aliyun.com/?tab=model#/model-market?name=qwen3

🔗Qwen3api调用方式

🏀如果想要了解更多通义大模型的模型详细信息以及直接进入体验,可以点击🔗https://www.aliyun.com/product/tongyi直接进入查看和体验哦~~


相关文章
|
21天前
|
机器学习/深度学习 人工智能 算法
高考理科题AI秒解!昆仑万维开源多模态推理模型 Skywork-R1V 2.0
Skywork-R1V 2.0是昆仑万维最新开源的多模态推理模型,通过混合强化学习和多模态奖励模型实现复杂推理任务,在理科题目解答和科研分析中展现出色性能。
126 11
高考理科题AI秒解!昆仑万维开源多模态推理模型 Skywork-R1V 2.0
|
23天前
|
人工智能 自然语言处理 运维
让AI读懂K线图!ChatTS-14B:字节开源的时间序列理解和推理大模型,自然语言提问秒解趋势密码!
ChatTS-14B是字节跳动开源的时间序列专用大模型,基于Qwen2.5-14B微调优化,通过合成数据对齐技术显著提升分析能力,支持自然语言交互完成预测推理等复杂任务。
103 1
让AI读懂K线图!ChatTS-14B:字节开源的时间序列理解和推理大模型,自然语言提问秒解趋势密码!
|
28天前
|
人工智能 算法 API
多模态模型卷王诞生!InternVL3:上海AI Lab开源78B多模态大模型,支持图文视频全解析!
上海人工智能实验室开源的InternVL3系列多模态大语言模型,通过原生多模态预训练方法实现文本、图像、视频的统一处理,支持从1B到78B共7种参数规模。
216 6
多模态模型卷王诞生!InternVL3:上海AI Lab开源78B多模态大模型,支持图文视频全解析!
|
16天前
|
机器学习/深度学习 人工智能 算法
小米7B参数推理大模型首次开源!Xiaomi MiMo:数学代码双杀,超越32B巨头
小米开源的MiMo推理大模型通过联动预训练与强化学习算法,在7B参数规模下实现数学推理与代码生成能力的突破性提升,技术报告显示其性能超越部分32B级模型。
352 74
小米7B参数推理大模型首次开源!Xiaomi MiMo:数学代码双杀,超越32B巨头
|
17天前
|
机器学习/深度学习 人工智能 自然语言处理
通义千问Qwen3,开源!
Qwen3正式发布并全部开源啦!
429 41
|
9天前
|
测试技术 UED
全新开源通义千问Qwen3,它来了!
Qwen3是通义千问系列的最新模型,融合推理与非推理模式,兼具QwQ和Instruct模型能力。提供多种尺寸,包括235B-A22B、30B-A3B及六个Dense模型,大幅提升数学、代码、逻辑推理和对话能力,达到业界领先水平。旗舰模型Qwen3-235B-A22B在多场景测试中表现优异,小型模型如Qwen3-4B性能媲美大模型。用户可在阿里云百炼平台免费体验各100万Token。
全新开源通义千问Qwen3,它来了!
|
16天前
|
弹性计算 机器人 应用服务中间件
AppFlow支持Qwen3开源版本调用
近期,Qwen3正式发布并开源全部8款“混合推理模型”,包括两款MoE模型(Qwen3-235B-A22B与Qwen3-30B-A3B)和六个Dense模型。目前,AppFlow已支持上述所有模型调用,您可在钉钉或微信等多渠道使用这些模型满足业务需求。本文将介绍如何配置及集成这些模型至钉钉机器人和企业微信应用中,包括创建应用、设置权限、生成连接流以及配置相关参数的详细步骤。完成配置后,用户可通过钉钉或企业微信直接与Qwen3应用互动交流。
AppFlow支持Qwen3开源版本调用
|
17天前
|
自然语言处理 测试技术 Serverless
Qwen3开源发布:Think Deeper, Act Faster!社区推理、部署、微调、MCP调用实战教程来啦!
Qwen3开源发布:Think Deeper, Act Faster!社区推理、部署、微调、MCP调用实战教程来啦!
357 22
|
16天前
|
机器学习/深度学习 人工智能 自然语言处理
全新开源通义千问Qwen3上架阿里云百炼
Qwen3是Qwen系列大型语言模型的最新成员,作为混合推理模型,其旗舰版本Qwen3-235B-A22B在代码、数学和通用能力测试中表现出色,与顶级模型DeepSeek-R1、o1、o3-mini等相比具有竞争力。小型MoE模型Qwen3-30B-A3B激活参数仅为QwQ-32B的10%,性能更优,甚至小规模模型Qwen3-4B也能匹敌Qwen2.5-72B-Instruct。Qwen3支持思考与非思考两种模式,可根据任务需求灵活调整推理深度,并支持119种语言,Qwen3在推理、工具调用及多语言处理等方面显著提升,目前已开源并在阿里云百炼平台上线,提供便捷体验。
|
29天前
|
人工智能 中间件 API
别让创意卡在工具链!MiniMax MCP Server:MiniMax 开源 MCP 服务打通多模态生成能力,视频语音图像一键全搞定
MiniMax MCP Server 是基于模型上下文协议的多模态生成中间件,支持通过文本指令调用视频生成、图像创作、语音合成及声音克隆等能力,兼容主流客户端实现跨平台调用,采用检索增强生成技术保障内容准确性。
183 3
别让创意卡在工具链!MiniMax MCP Server:MiniMax 开源 MCP 服务打通多模态生成能力,视频语音图像一键全搞定