备案控制台

开发者社区人工智能文章正文

重磅！阿里巴巴开源最大参数规模大模型——高达720亿参数规模的Qwen-72B发布！还有一个的18亿参数的Qwen-1.8B

2023-12-02 4025

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 阿里巴巴开源了720亿参数规模的Qwen-72B大语言模型，是目前国内最大参数规模的开源模型。该模型在3万亿tokens数据上训练，支持多种语言和代码、数学等数据。Qwen-72B模型具有出色的评估效果，在数学逻辑和意图理解等方面超过了其他开源模型，并且支持多语言扩展。此外，阿里巴巴还开源了18亿参数规模的Qwen-1.8B模型，虽然规模较小但效果不错。Qwen-72B模型已对学术和个人完全开放，商用情况下月活低于100万可直接商用。有兴趣的用户可以通过相关链接获取模型地址和资源信息。

Qwen系列是阿里巴巴开源的一系列大语言模型。在此前的开源中，阿里巴巴共开源了3个系列的大模型，分别是70亿参数规模和140亿参数规模的Qwen-7B和Qwen-14B，还有一个是多模态大模型Qwen-VL。而此次阿里巴巴开源了720亿参数规模的Qwen-72B，是目前国内最大参数规模的开源大语言模型，应该也是全球范围内首次有和Llama2-70B同等规模的大语言模型开源。

下面主要介绍五个方面的内容：

Qwen-72B模型简介
Qwen-1.8B模型简介
Qwen-72B模型的多语言支持
Qwen-72B模型的评估效果
Qwen-72B模型的开源地址和其它资源

Qwen-72B模型简介

Qwen-72B模型是在3万亿tokens数据上训练的结果。该数据集包含了中、英文等多个语言的语料，同时包含了代码、数学等数据。Qwen-72B训练数据的词表为15万亿的。最高支持32K上下文长度。

Qwen-72B模型训练的具体参数如下：

Qwen-72B参数规模720亿，半精度（FP16）模型的载入需要144GB以上的显存！而Int4量化之后需要最少48GB的显存才可以推理。

Qwen-1.8B模型简介

此次开源的模型除了Qwen-72B的超大规模参数模型外，还有一个18亿参数规模的模型Qwen-1.8B。这个模型最高支持8K上下文输入，经过了充分训练（2.2万亿tokens数据集），官方宣传效果远超过近似规模模型。Qwen-1.8B模型在MMLU的评测结果如下：

虽然当前小模型不多，但是Qwen-1.8B效果还不错。而且这个模型最低int8/int4版本仅需2GB显存就可以推理。生成2048长度的序列只需要3GB显存，微调需要6GB显存！

Qwen-72B模型的多语言支持

注意，虽然Qwen-72B的模型虽然主要支持中英文，但是在多语言场景下支持也非常有前景。根据官方的信息：

在分词器方面，相比目前主流开源模型以中英词表为主，Qwen-72B使用了超过15万token大小的词表。该词表在GPT-4使用的BPE词表cl100k_base基础上，对中文、多语言进行了优化，在对中、英、代码数据的高效编解码的基础上，对部分多语言更加友好。

下图是Qwen-72B模型在各种语言上的压缩比例：

这意味着Qwen-72B开源很容易拓展到其他语言的支持！

Qwen-72B模型的评估效果

Qwen-72B模型的评测结果非常好。在GSM8K（数学逻辑）和MMLU（意图理解与通用知识）的评测都是目前开源模型最强，超过了李开复的零一万物的Yi-34B模型，仅次于GPT-4和Google的PaLM2模型。

下图是DataLearnerAI大模型综合排行截图：

这些得分也是目前国内开源模型中最强的。

此外值得一提的是，Qwen-1.8B模型的MMLU得分和LLaMA2 7B差不多，证明这个模型虽然不大，但是能力还是很不错的~

不过值得一提的是，这两个模型的代码评分都很一般，在HuamanEval得分上不如CodeLLaMA-13B：

Qwen-72B模型的开源地址和其它资源

Qwen-72B模型对学术和个人完全开放，商用的情况如果月活低于100万，那就直接商用即可。如果月活超过100万那则需要申请，申请应该也是免费。

Qwen-72B模型商用申请地址：https://dashscope.console.aliyun.com/openModelApply/Qwen-72B-Chat

Qwen-72B地址和资源参考DataLearnerAI信息卡地址：https://www.datalearner.com/ai-models/pretrained-models/Qwen-72B

Qwen-1.8B地址和资源参考DataLearnerAI信息卡地址：https://www.datalearner.com/ai-models/pretrained-models/Qwen-1_8B

文章标签：

自然语言处理

编解码

周周的奇妙编程

目录

相关文章

楠竹11

|

7月前

|

编解码人工智能

蚂蚁百灵大模型推出20亿参数遥感模型SkySense

【2月更文挑战第13天】蚂蚁百灵大模型推出20亿参数遥感模型SkySense

楠竹11

345 1 1

蚂蚁百灵大模型推出20亿参数遥感模型SkySense

魔搭ModelScope社区小助手

|

13天前

|

数据采集人工智能数据可视化

InternVL 2.5，首个MMMU超过70%的开源模型，性能媲美GPT-4o

近期Internvl2.5发布，性能与GPT-4o和Claude-3.5-sonnet等领先的商业模型相媲美，成为首个在MMMU上超过70%的开源模型，通过链式思考（CoT）推理实现了3.7个百分点的提升，展示了强大的测试时间可扩展性潜力。

魔搭ModelScope社区小助手

115 25 27

-开发达人-

|

机器学习/深度学习人工智能自然语言处理

性能超越Llama2-13B，可免费商用，姚星创业公司开源百亿参数通用大模型

性能超越Llama2-13B，可免费商用，姚星创业公司开源百亿参数通用大模型

-开发达人-

499 0 0

Botow

|

4月前

|

数据采集人工智能自然语言处理

Llama 3.1发布：4050亿参数模型，迄今为止最强的开源大模型之一

Meta宣布发布Llama 3.1 405B，这一目前公开的最大且最先进的语言模型，标志着开源语言模型新时代的到来。Llama 3.1 405B不仅在常识理解、数学、工具使用及多语言翻译等功能上媲美顶尖AI模型，其8B和70B版本亦支持多种语言，拥有长达128K的上下文理解能力。该模型在150多个多语言基准测试中表现出色，并经过广泛的人工评估。为克服大规模训练挑战，Meta采用标准解码器架构和迭代后训练策略，大幅提升了数据质量和模型性能。此外，Llama 3.1通过监督微调、拒绝采样和直接偏好优化等手段提高了模型对指令的响应性和安全性。

Botow

94 2 2

小王老师呀

|

5月前

|

自然语言处理 API Android开发

阿里Qwen2-72B大模型已是开源榜的王者，为什么还要推出其他参数模型，被其他模型打榜？

阿里云的Qwen2-72B模型在Hugging Face上荣登开源模型榜首，展现卓越性能，超越其他包括Meta的Llama-3在内的竞争者。Qwen2有多个参数版本，其中72B版本在自然语言理解、知识、代码等任务上表现出色。较小参数版本如7B模型在某些方面略逊一筹。推出不同参数模型可能是为了降低成本、加速迭代、构建丰富的模型生态。通过提供不同规模的模型，阿里云旨在促进技术研究和全场景应用，类似于微软Windows XP和阿里云OS生态的构建策略。

小王老师呀

357 1 1

ModelScope运营小助手

|

7月前

|

人工智能物联网测试技术

以小博大，微软开源27亿参数模型Phi-2，魔搭最佳实践来啦！

近日，微软公布了在 Microsoft Ignite 2023大会上宣布开源的 Phi-2 模型的更多细节，“打破传统语言模型缩放定律，可PK比自己大25倍的模型”、“以小博大”等评价，让Phi-2一时间在开源社区中引发关注。

ModelScope运营小助手

2187 1 3

楠竹11

|

7月前

|

人工智能数据处理调度

中国10亿参数规模以上大模型数量超100个

中国超过100个10亿参数以上AI大模型，彰显全球AI领导地位；广泛应用于多行业，加速数字化转型；政府强调数据开放与市场优化，推动新产业发展；多元算力协同布局，聚焦绿色低碳；面对数据安全与环保挑战，寻求可持续发展道路。

楠竹11

61 1 1

中国10亿参数规模以上大模型数量超100个

楠竹11

|

7月前

|

人工智能自然语言处理搜索推荐

Cohere推出350亿参数可扩展生成模型

【2月更文挑战第22天】Cohere推出350亿参数可扩展生成模型

楠竹11

92 2 2

Cohere推出350亿参数可扩展生成模型

喜欢在风中追逐的你

|

人工智能索引 Python

阿里云社区MS大模型评测

通过中文竞技场模型比较模型AB的优劣

喜欢在风中追逐的你

224 0 0

5i77ajz5u7ji6

|

7月前

|

存储人工智能自然语言处理

参数是ChaGPT的近6倍！英特尔公布AI大模型Aurora genAI，具备1万亿参数

参数是ChaGPT的近6倍！英特尔公布AI大模型Aurora genAI，具备1万亿参数

5i77ajz5u7ji6

102 0 0

热门文章

最新文章

四大触点，教你从“用户视角”构建数据分析体系

Spring-boot+Dubbo应用启停源码分析

《Stata统计分析与应用（第2版）》一3.4 图形的保存、合并及修改

RocketMq-Request-Reply消息

Confluence 6 手动添加用户

2013年4月20日通用权限管理系统组件V3.8功能改进说明

Configuring EIGRP Unequal-Cost Paths

PowerShell 指定关键词遍历文件内容

Windows时间服务出现故障向用户发送错误的时间

三种dedecms调用相关文章的方法

《鸿蒙HarmonyOS应用开发从入门到精通（第2版）》简介

《Python 助力：人工智能模型的“瘦身”与“加速”之旅》

《非计算机专业者：Python 开启人工智能职业新航道》

《Python赋能：智绘智慧城市新蓝图》

《智育新篇：点亮学生人工智能伦理与社会责任之光》

《数据主权：人工智能时代的核心基石与挑战》

鸿蒙HarmonyOS应用开发 | 探索 HarmonyOS Next-从开发到实战掌握 HarmonyOS Next 的分布式能力

鸿蒙原生开发环境的创新与性能优化：从工具到跨平台支持的全方位提升

鸿蒙HarmonyOS应用开发 | 「鸿蒙技术分享」HarmonyOS NEXT元服务卡片实战体验

Qwen-Coder：通过Qwen 2.5模型实现智能代码生成的技术实践

相关课程

更多

云原生AI套件：一键训练大模型及部署GPU共享推理服务

使用Higress AI网关优化AI调用成本

创空间应用训练个性化模型

基于通义灵码实现高效 AI 编码

相关电子书

更多

图计算专场大规模分布式图计算、学习和推理技术及创新应用论坛

魔搭中文开源模型社区 · 模型即服务

七牛AI训练业务的K8S实践

相关实验场景

更多

使用PAI+LLaMA Factory微调Qwen2-VL模型，搭建文旅领域知识问答机器人

函数计算一键部署AI大语言模型并会话

在云上部署ChatGLM2-6B大模型（GPU版）

使用函数计算部署通义千问大模型实现AI对话

利用大模型大规模分发技术，实现AIGC在线应用秒级弹性

Lindorm AIGC：十分钟搞定智能问答 + 多模态检索

下一篇

DataWorks售前咨询