通义千问,榜首!

本文涉及的产品
多模态交互后付费免费试用,全链路、全Agent
简介: 日前,全球最大的开源大模型社区HuggingFace和国内权威大模型评测平台OpenCompass分别公布了最新的开源大模型排行榜,阿里云通义千问(Qwen-72B)力压Llama2等国内外开源大模型在两个排行榜上同时登顶榜首。

日前,全球最大的开源大模型社区HuggingFace和国内权威大模型评测平台OpenCompass分别公布了最新的开源大模型排行榜,阿里云通义千问(Qwen-72B)力压Llama2等国内外开源大模型两个排行榜上同时登顶榜首。


HuggingFace的开源大模型排行榜(Open LLM Leaderboard)是目前大模型领域最具权威性的榜单,收录了全球上百个开源大模型,测试维度涵盖阅读理解、逻辑推理、数学计算、事实问答等六大评测。通义千问(Qwen-72B)表现抢眼,以73.6的综合得分在所有预训练模型中排名第一。
通义千问-72B登顶HuggingFace的Open LLM Leaderboard

从得分维度看,通义千问Qwen-72B在多个测评中断层领先其他开源模型,其中MMLU、TruthfulQA、GSM8K三个维度的得分远超Llama-2-70B,分别得分为77.37、60.19、70.43。
Qwen-72B得分最高的三大测评分别是:MMLU考察模型的世界知识和语言能力,综合评测LLM的英文综合能力和知识能力;GSM8K考察的是模型的数学推理和计算关系大模型的数学推理能力;TruthfulQA考察模型的常识问答关系模型的常识能力、抗幻觉能力、问答能力等。
而在其他测评ARC、HellaSwag、Winogrande中,通义千问Qwen-72B与Llama-2-70B的差距非常小。
ARC考察模型阅读理解,这个能力关系大模型的语言理解、文档问答、工具调用能力;WinoGrande考察模型的语言推理、指代理解关系大模型的语言理解、语言推理、指代消歧等能力;Hellaswag考察模型的常识和语言推理关系模型的常识和语言推理能力。
中国权威的大模型评测平台OpenCompass近期也更新了榜单,通义千问72B模型以67.1的综合得分夺冠。OpenCompass是上海人工智能实验室开源的大模型评测平台,涵盖学科、语言、知识、理解、推理等五大评测维度,可全面评估大模型能力。

在OpenCompass中文数据集评测中,Qwen-72B基座大模型和对话大模型(Qwen-72B-Chat)包揽前二,与其他模型拉开差距。
12月初,阿里云宣布正式开源720亿参数的大语言模型通义千问Qwen-72B,Qwen-72B在10个权威基准测评创下开源模型最优成绩,成为业界最强开源大模型,性能超越开源标杆Llama 2-70B和大部分商用闭源模型,可适配企业级、科研级的高性能应用。

据悉,通义千问-72B可以处理最多32k的长文本输入,在长文本理解测试集LEval上取得了超越ChatGPT-3.5-16k的效果。研发团队优化了Qwen-72B的指令遵循、工具使用等技能,使之能更好地被下游应用集成。比如,Qwen-72B搭载了强大的系统指令(System Prompt)能力,用户只用一句提示词就可定制AI助手,要求大模型扮演某个角色或者执行特定的回复任务。

阿里云是国内最早开源自研大模型的科技企业,今年8月以来陆续开源了Qwen-7B、Qwen-14B、Qwen-1.8B和视觉理解模型Qwen-VL、音频理解大模型Qwen-Audio,率先实现了大模型“全尺寸、全模态”开源。几款模型先后冲上HuggingFace、Github大模型榜单,广受中小企业和个人开发者的青睐,累计下载量超过150万,催生出150多款新模型、新应用

相关文章
|
SQL 存储 关系型数据库
MySQL not exists 真的不走索引么
MySQL not exists 真的不走索引么
447 0
|
弹性计算 网络协议 安全
【图文教程】阿里云服务器开放端口设置(超详细)
阿里云服务器端口怎么打开?云服务器ECS端口在安全组中开启,轻量应用服务器端口在防火墙中打开,阿里云服务器网以80端口为例,来详细说下阿里云服务器端口开放图文教程,其他的端口如8080、3306、443、1433也是同样的方法进行开启端口:
39980 2
|
Shell
一个用于添加/删除定时任务的shell脚本
一个用于添加/删除定时任务的shell脚本
299 1
|
6月前
|
数据采集 人工智能 运维
医疗大模型落地方案:技术选型、部署策略与调优
医疗大模型正推动医疗行业数字化转型,其落地涉及技术选型、部署策略和调优方案。技术选型需根据需求选择适合的模型类型与架构;部署策略包括本地化、私有云及混合模式,注重数据安全与系统集成;调优方案从数据、模型到应用层面全面优化性能。通过多学科协作与持续改进,医疗大模型可更好地融入临床工作流,提升医疗效率与质量。
584 5
医疗大模型落地方案:技术选型、部署策略与调优
|
存储 人工智能 自然语言处理
阿里云的通义千问
5月更文挑战第15天
|
安全 开发工具 git
coding上创建项目、创建代码仓库、将IDEA中的代码提交到coding上的代码仓库、Git的下载、IDEA上配置git
这篇文章是关于如何在IDEA中配置Git、在Coding.net上创建项目和代码仓库,并将IDEA中的代码提交到远程代码仓库的详细教程,涵盖了Git安装、IDEA配置、项目创建、代码提交等步骤。
coding上创建项目、创建代码仓库、将IDEA中的代码提交到coding上的代码仓库、Git的下载、IDEA上配置git
|
9月前
|
人工智能 数据挖掘 API
R2R:开源的 RAG 集成系统,支持多模态处理、混合搜索、知识图谱构建等增强检索技术
R2R 是一款先进的 AI 检索增强生成平台,支持多模态内容处理、混合搜索和知识图谱构建,适用于复杂数据处理和分析的生产环境。
756 3
R2R:开源的 RAG 集成系统,支持多模态处理、混合搜索、知识图谱构建等增强检索技术
|
7月前
|
人工智能 编解码 算法
一文详解总台春晚“子弹时间”背后技术!
一文详解总台春晚“子弹时间”背后技术!
|
人工智能 安全 BI
2024年度云治理企业成熟度发展报告解读(一)云市场发展洞察
从2023年开始,阿里云携手埃森哲每年发布《云治理企业成熟度年度发展报告》,通过数据来解读企业在云上的稳定性、安全、效率、成本等方面的发展现状,并反映各行业头部客户的技术演进趋势。该报告已成为了解中国云计算行业发展趋势的重要参考。这次,埃森哲将带来最新出炉的2024年度发展趋势报告(导读版)解读。
2024年度云治理企业成熟度发展报告解读(一)云市场发展洞察
|
对象存储 数据库
2025年 | 10月云大使推广奖励规则
云大使推广返利活动,企业新用户下单返佣加码5%,推广最高返佣45%,新老用户都可参与返利活动。
99542 52