通义千问,榜首!

简介: 日前,全球最大的开源大模型社区HuggingFace和国内权威大模型评测平台OpenCompass分别公布了最新的开源大模型排行榜,阿里云通义千问(Qwen-72B)力压Llama2等国内外开源大模型在两个排行榜上同时登顶榜首。

日前,全球最大的开源大模型社区HuggingFace和国内权威大模型评测平台OpenCompass分别公布了最新的开源大模型排行榜,阿里云通义千问(Qwen-72B)力压Llama2等国内外开源大模型两个排行榜上同时登顶榜首。


HuggingFace的开源大模型排行榜(Open LLM Leaderboard)是目前大模型领域最具权威性的榜单,收录了全球上百个开源大模型,测试维度涵盖阅读理解、逻辑推理、数学计算、事实问答等六大评测。通义千问(Qwen-72B)表现抢眼,以73.6的综合得分在所有预训练模型中排名第一。
通义千问-72B登顶HuggingFace的Open LLM Leaderboard

从得分维度看,通义千问Qwen-72B在多个测评中断层领先其他开源模型,其中MMLU、TruthfulQA、GSM8K三个维度的得分远超Llama-2-70B,分别得分为77.37、60.19、70.43。
Qwen-72B得分最高的三大测评分别是:MMLU考察模型的世界知识和语言能力,综合评测LLM的英文综合能力和知识能力;GSM8K考察的是模型的数学推理和计算关系大模型的数学推理能力;TruthfulQA考察模型的常识问答关系模型的常识能力、抗幻觉能力、问答能力等。
而在其他测评ARC、HellaSwag、Winogrande中,通义千问Qwen-72B与Llama-2-70B的差距非常小。
ARC考察模型阅读理解,这个能力关系大模型的语言理解、文档问答、工具调用能力;WinoGrande考察模型的语言推理、指代理解关系大模型的语言理解、语言推理、指代消歧等能力;Hellaswag考察模型的常识和语言推理关系模型的常识和语言推理能力。
中国权威的大模型评测平台OpenCompass近期也更新了榜单,通义千问72B模型以67.1的综合得分夺冠。OpenCompass是上海人工智能实验室开源的大模型评测平台,涵盖学科、语言、知识、理解、推理等五大评测维度,可全面评估大模型能力。

在OpenCompass中文数据集评测中,Qwen-72B基座大模型和对话大模型(Qwen-72B-Chat)包揽前二,与其他模型拉开差距。
12月初,阿里云宣布正式开源720亿参数的大语言模型通义千问Qwen-72B,Qwen-72B在10个权威基准测评创下开源模型最优成绩,成为业界最强开源大模型,性能超越开源标杆Llama 2-70B和大部分商用闭源模型,可适配企业级、科研级的高性能应用。

据悉,通义千问-72B可以处理最多32k的长文本输入,在长文本理解测试集LEval上取得了超越ChatGPT-3.5-16k的效果。研发团队优化了Qwen-72B的指令遵循、工具使用等技能,使之能更好地被下游应用集成。比如,Qwen-72B搭载了强大的系统指令(System Prompt)能力,用户只用一句提示词就可定制AI助手,要求大模型扮演某个角色或者执行特定的回复任务。

阿里云是国内最早开源自研大模型的科技企业,今年8月以来陆续开源了Qwen-7B、Qwen-14B、Qwen-1.8B和视觉理解模型Qwen-VL、音频理解大模型Qwen-Audio,率先实现了大模型“全尺寸、全模态”开源。几款模型先后冲上HuggingFace、Github大模型榜单,广受中小企业和个人开发者的青睐,累计下载量超过150万,催生出150多款新模型、新应用

相关文章
|
8月前
|
人工智能 算法
通义千问春节上新,除夕夜AI和你一起过大年!
通义千问春节上新,除夕夜AI和你一起过大年!
147 4
|
8月前
嘿!通义千问,帮我总结下2023年
嘿!通义千问,帮我总结下2023年
385 1
|
XML Java 测试技术
通义灵码与githubcopilot的对比评测
本文评测了通义灵码,与github copilot在一些代码编写能力上面的能力比较。 虽然github copilot要强很多,但灵码目前的能力也不算很弱,并且在一些小类上会做的更好一些。 值得试试看,也是免费的
54863 10
|
2月前
|
机器学习/深度学习 人工智能 安全
通义千问开源的QwQ模型,一个会思考的AI,百炼邀您第一时间体验
Qwen团队推出新成员QwQ-32B-Preview,专注于增强AI推理能力。通过深入探索和试验,该模型在数学和编程领域展现了卓越的理解力,但仍在学习和完善中。目前,QwQ-32B-Preview已上线阿里云百炼平台,提供免费体验。
|
28天前
|
人工智能 数据可视化 Java
通义灵码 AI 盲盒
基于通义灵码的 @workspace 和 @terminal 功能,可显著提升开发效率和体验。@workspace 通过文件导航、代码结构可视化、搜索和注释生成,帮助开发者快速熟悉项目结构和核心逻辑;@terminal 则支持代码片段运行、调试和 AI 代码补全,加速新需求实现和问题排查。这些工具降低了学习成本,简化了开发流程,提升了团队协作效率。
|
1月前
|
存储 自然语言处理 关系型数据库
基于阿里云通义千问开发智能客服与问答系统
在企业的数字化转型过程中,智能客服系统已成为提高客户满意度和降低运营成本的重要手段。阿里云的通义千问作为一款强大的大语言模型,具有自然语言理解、对话生成、知识检索等能力,非常适合用来开发智能客服与问答系统。 通过本博客,我们将演示如何基于阿里云的通义千问模型,结合阿里云相关产品如函数计算(FC)、API网关、RDS等,搭建一个功能齐全的智能客服系统。
97 5
|
8月前
|
人工智能 自然语言处理 人机交互
|
2月前
通义千问—7B模型
在交互式问答中,模型对历史信息的记忆能力较弱。例如,在询问“辽宁省会在哪儿”之后,如果不持续提及“沈阳”,模型将无法记住该城市,导致回答变得空泛。
|
3月前
|
存储 人工智能 Serverless
通义千问大模型
在数字化时代,企业面临海量客户对话数据处理的挑战。阿里云推出的AI大模型助力客户对话分析方案,通过整合多种云服务,实现对话内容的自动化分析,提升服务质量和客户体验。本文将深入评测该方案的优势与实际应用效果。
|
人工智能 自然语言处理 搜索推荐
2023云栖大会 | 阿里云发布通义千问2.0
今天,阿里云正式发布千亿级参数大模型通义千问2.0。在10个权威测评中,通义千问2.0多方面性能超过GPT-3.5,正在加速追赶GPT-4。 此外,通义千问APP在各大手机应用市场正式上线,所有人都可通过APP直接体验最新模型能力。 过去6个月,通义千问2.0在性能上取得巨大飞跃,相比4月发布的1.0版本,通义千问2.0在复杂指令理解、文学创作、通用数学、知识记忆、幻觉抵御等能力上均有显著提升。目前,通义千问的多方面性能已经超过GPT-3.5,加速追赶GPT-4。
2730 0
2023云栖大会 | 阿里云发布通义千问2.0