通义千问,榜首!

简介: 通义千问,榜首!




日前,全球最大的开源大模型社区HuggingFace和国内权威大模型评测平台OpenCompass分别公布了最新的开源大模型排行榜,阿里云通义千问(Qwen-72B)力压Llama2等国内外开源大模型两个排行榜上同时登顶榜首。


HuggingFace的开源大模型排行榜(Open LLM Leaderboard)是目前大模型领域最具权威性的榜单,收录了全球上百个开源大模型,测试维度涵盖阅读理解、逻辑推理、数学计算、事实问答等六大评测。通义千问(Qwen-72B)表现抢眼,以73.6的综合得分在所有预训练模型中排名第一。


通义千问-72B登顶HuggingFace的Open LLM Leaderboard


从得分维度看,通义千问Qwen-72B在多个测评中断层领先其他开源模型,其中MMLU、TruthfulQA、GSM8K三个维度的得分远超Llama-2-70B,分别得分为77.37、60.19、70.43。


Qwen-72B得分最高的三大测评分别是:MMLU考察模型的世界知识和语言能力,综合评测LLM的英文综合能力和知识能力;GSM8K考察的是模型的数学推理和计算关系大模型的数学推理能力;TruthfulQA考察模型的常识问答关系模型的常识能力、抗幻觉能力、问答能力等。


而在其他测评ARC、HellaSwag、Winogrande中,通义千问Qwen-72B与Llama-2-70B的差距非常小。


ARC考察模型阅读理解,这个能力关系大模型的语言理解、文档问答、工具调用能力;WinoGrande考察模型的语言推理、指代理解关系大模型的语言理解、语言推理、指代消歧等能力;Hellaswag考察模型的常识和语言推理关系模型的常识和语言推理能力。中国权威的大模型评测平台OpenCompass近期也更新了榜单,通义千问72B模型以67.1的综合得分夺冠。


OpenCompass是上海人工智能实验室开源的大模型评测平台,涵盖学科、语言、知识、理解、推理等五大评测维度,可全面评估大模型能力。




在OpenCompass中文数据集评测中,Qwen-72B基座大模型和对话大模型(Qwen-72B-Chat)包揽前二,与其他模型拉开差距。


12月初,阿里云宣布正式开源720亿参数的大语言模型通义千问Qwen-72B,Qwen-72B在10个权威基准测评创下开源模型最优成绩,成为业界最强开源大模型,性能超越开源标杆Llama 2-70B和大部分商用闭源模型,可适配企业级、科研级的高性能应用。


据悉,通义千问-72B可以处理最多32k的长文本输入,在长文本理解测试集LEval上取得了超越ChatGPT-3.5-16k的效果。研发团队优化了Qwen-72B的指令遵循、工具使用等技能,使之能更好地被下游应用集成。比如,Qwen-72B搭载了强大的系统指令(System Prompt)能力,用户只用一句提示词就可定制AI助手,要求大模型扮演某个角色或者执行特定的回复任务。


阿里云是国内最早开源自研大模型的科技企业,今年8月以来陆续开源了Qwen-7B、Qwen-14B、Qwen-1.8B和视觉理解模型Qwen-VL、音频理解大模型Qwen-Audio,率先实现了大模型“全尺寸、全模态”开源。几款模型先后冲上HuggingFace、Github大模型榜单,广受中小企业和个人开发者的青睐,累计下载量超过150万,催生出150多款新模型、新应用


/ END /

相关实践学习
如何快速体验知识检索增强应用
在应用广场中您可以挑选智能体API应用、官方预置完整工程链路的知识检索增强(RAG)应用、流程编排应用,以及官方最佳实践的写作应用妙笔等,通过应用快速将通义千问系列等大语言模型能力接入到业务解决方案中。
目录
相关文章
|
4月前
|
人工智能 自动驾驶 云栖大会
大模型赋能智能座舱,NVIDIA 深度适配通义千问大模型
9月20日杭州云栖大会上, NVIDIA DRIVE Orin系统级芯片实现了与阿里云通义千问多模态大模型Qwen2-VL的深度适配。阿里云、斑马智行联合NVIDIA英伟达推出舱驾融合大模型解决方案,基于通义大模型开发“能听会看”的智能座舱助理,让车内人员通过语音交流就能操作座舱内的各类应用,享受极致丰富的交互体验。
281 14
|
10天前
|
关系型数据库 机器人 OLAP
智答引领|AnalyticDB与通义千问大模型联手打造社区问答新体验
PolarDB开源社区推出基于云原生数据仓库AnalyticDB和通义千问大模型的“PolarDB知识问答助手”,实现一站式全链路RAG能力,大幅提升查询效率和问答准确率。该系统整合静态和动态知识库,提供高效的数据检索与查询服务,支持多种场景下的精准回答,并持续优化用户体验。欢迎加入钉群体验并提出宝贵意见。
智答引领|AnalyticDB与通义千问大模型联手打造社区问答新体验
|
23天前
|
开发框架 自然语言处理 JavaScript
千问开源P-MMEval数据集,面向大模型的多语言平行评测集
近期,通义千问团队联合魔搭社区开源的多语言基准测试集 P-MMEval,涵盖了高效的基础和专项能力数据集。
千问开源P-MMEval数据集,面向大模型的多语言平行评测集
|
1天前
|
编解码 Cloud Native 算法
通义万相:视觉生成大模型再进化
通义万相是阿里云推出的视觉生成大模型,涵盖图像和视频生成。其2.0版本在文生图和文生视频方面进行了重大升级,采用Diffusion Transformer架构,提升了模型的灵活性和可控性。通过高质量美学标准和多语言支持,大幅增强了画面表现力。此外,视频生成方面引入高压缩比VAE、1080P长视频生成及多样化艺术风格支持,实现了更丰富的创意表达。未来,通义万相将继续探索视觉领域的规模化和泛化,打造更加通用的视觉生成大模型。
|
10天前
|
机器学习/深度学习 人工智能 安全
通义视觉推理大模型QVQ-72B-preview重磅上线
Qwen团队推出了新成员QVQ-72B-preview,这是一个专注于提升视觉推理能力的实验性研究模型。提升了视觉表示的效率和准确性。它在多模态评测集如MMMU、MathVista和MathVision上表现出色,尤其在数学推理任务中取得了显著进步。尽管如此,该模型仍存在一些局限性,仍在学习和完善中。
|
4月前
|
存储 关系型数据库 分布式数据库
GraphRAG:基于PolarDB+通义千问+LangChain的知识图谱+大模型最佳实践
本文介绍了如何使用PolarDB、通义千问和LangChain搭建GraphRAG系统,结合知识图谱和向量检索提升问答质量。通过实例展示了单独使用向量检索和图检索的局限性,并通过图+向量联合搜索增强了问答准确性。PolarDB支持AGE图引擎和pgvector插件,实现图数据和向量数据的统一存储与检索,提升了RAG系统的性能和效果。
|
26天前
|
缓存 API 开发工具
Qwen-coder方向-如果从0开始应用通义千问开源大模型
从0开始接触,带您全面了解Qwen2.5语言模型家族,包括其核心功能、微调方法以及具体应用场景。我们将通过一系列精心准备的应用demo和使用指南,帮助您掌握如何充分利用Qwen2.5的强大能力
241 8
|
2月前
|
人工智能 开发者
再次获奖!世界互联网大会把荣誉给了通义大模型
再次获奖!世界互联网大会把荣誉给了通义大模型
54 11
|
2月前
|
人工智能 边缘计算 自然语言处理
DistilQwen2:通义千问大模型的知识蒸馏实践
DistilQwen2 是基于 Qwen2大模型,通过知识蒸馏进行指令遵循效果增强的、参数较小的语言模型。本文将介绍DistilQwen2 的技术原理、效果评测,以及DistilQwen2 在阿里云人工智能平台 PAI 上的使用方法,和在各开源社区的下载使用教程。
|
3月前
|
自然语言处理 Java API
Spring Boot 接入大模型实战:通义千问赋能智能应用快速构建
【10月更文挑战第23天】在人工智能(AI)技术飞速发展的今天,大模型如通义千问(阿里云推出的生成式对话引擎)等已成为推动智能应用创新的重要力量。然而,对于许多开发者而言,如何高效、便捷地接入这些大模型并构建出功能丰富的智能应用仍是一个挑战。
339 6