通义千问，榜首！-阿里云开发者社区

通义千问，榜首！

2024-01-10 347

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 通义千问，榜首！

日前，全球最大的开源大模型社区HuggingFace和国内权威大模型评测平台OpenCompass分别公布了最新的开源大模型排行榜，阿里云通义千问（Qwen-72B）力压Llama2等国内外开源大模型在两个排行榜上同时登顶榜首。

HuggingFace的开源大模型排行榜（Open LLM Leaderboard）是目前大模型领域最具权威性的榜单，收录了全球上百个开源大模型，测试维度涵盖阅读理解、逻辑推理、数学计算、事实问答等六大评测。通义千问（Qwen-72B）表现抢眼，以73.6的综合得分在所有预训练模型中排名第一。

通义千问-72B登顶HuggingFace的Open LLM Leaderboard

从得分维度看，通义千问Qwen-72B在多个测评中断层领先其他开源模型，其中MMLU、TruthfulQA、GSM8K三个维度的得分远超Llama-2-70B，分别得分为77.37、60.19、70.43。

Qwen-72B得分最高的三大测评分别是：MMLU考察模型的世界知识和语言能力，综合评测LLM的英文综合能力和知识能力；GSM8K考察的是模型的数学推理和计算关系大模型的数学推理能力；TruthfulQA考察模型的常识问答关系模型的常识能力、抗幻觉能力、问答能力等。

而在其他测评ARC、HellaSwag、Winogrande中，通义千问Qwen-72B与Llama-2-70B的差距非常小。

ARC考察模型阅读理解，这个能力关系大模型的语言理解、文档问答、工具调用能力；WinoGrande考察模型的语言推理、指代理解关系大模型的语言理解、语言推理、指代消歧等能力；Hellaswag考察模型的常识和语言推理关系模型的常识和语言推理能力。中国权威的大模型评测平台OpenCompass近期也更新了榜单，通义千问72B模型以67.1的综合得分夺冠。

OpenCompass是上海人工智能实验室开源的大模型评测平台，涵盖学科、语言、知识、理解、推理等五大评测维度，可全面评估大模型能力。

在OpenCompass中文数据集评测中，Qwen-72B基座大模型和对话大模型（Qwen-72B-Chat）包揽前二，与其他模型拉开差距。

12月初，阿里云宣布正式开源720亿参数的大语言模型通义千问Qwen-72B，Qwen-72B在10个权威基准测评创下开源模型最优成绩，成为业界最强开源大模型，性能超越开源标杆Llama 2-70B和大部分商用闭源模型，可适配企业级、科研级的高性能应用。

据悉，通义千问-72B可以处理最多32k的长文本输入，在长文本理解测试集LEval上取得了超越ChatGPT-3.5-16k的效果。研发团队优化了Qwen-72B的指令遵循、工具使用等技能，使之能更好地被下游应用集成。比如，Qwen-72B搭载了强大的系统指令（System Prompt）能力，用户只用一句提示词就可定制AI助手，要求大模型扮演某个角色或者执行特定的回复任务。

阿里云是国内最早开源自研大模型的科技企业，今年8月以来陆续开源了Qwen-7B、Qwen-14B、Qwen-1.8B和视觉理解模型Qwen-VL、音频理解大模型Qwen-Audio，率先实现了大模型“全尺寸、全模态”开源。几款模型先后冲上HuggingFace、Github大模型榜单，广受中小企业和个人开发者的青睐，累计下载量超过150万，催生出150多款新模型、新应用。

/ END /

通义千问，榜首！

阿里云百炼

热门文章

最新文章

相关课程

相关电子书

相关实验场景