重磅!阿里巴巴开源最大参数规模大模型——高达720亿参数规模的Qwen-72B发布!还有一个的18亿参数的Qwen-1.8B

简介: 阿里巴巴开源了720亿参数规模的Qwen-72B大语言模型,是目前国内最大参数规模的开源模型。该模型在3万亿tokens数据上训练,支持多种语言和代码、数学等数据。Qwen-72B模型具有出色的评估效果,在数学逻辑和意图理解等方面超过了其他开源模型,并且支持多语言扩展。此外,阿里巴巴还开源了18亿参数规模的Qwen-1.8B模型,虽然规模较小但效果不错。Qwen-72B模型已对学术和个人完全开放,商用情况下月活低于100万可直接商用。有兴趣的用户可以通过相关链接获取模型地址和资源信息。

Qwen系列是阿里巴巴开源的一系列大语言模型。在此前的开源中,阿里巴巴共开源了3个系列的大模型,分别是70亿参数规模和140亿参数规模的Qwen-7B和Qwen-14B,还有一个是多模态大模型Qwen-VL。而此次阿里巴巴开源了720亿参数规模的Qwen-72B,是目前国内最大参数规模的开源大语言模型,应该也是全球范围内首次和Llama2-70B同等规模的大语言模型开源。

image.png

下面主要介绍五个方面的内容:

  1. Qwen-72B模型简介

  2. Qwen-1.8B模型简介

  3. Qwen-72B模型的多语言支持

  4. Qwen-72B模型的评估效果

  5. Qwen-72B模型的开源地址和其它资源

Qwen-72B模型简介

Qwen-72B模型是在3万亿tokens数据上训练的结果。该数据集包含了中、英文等多个语言的语料,同时包含了代码、数学等数据。Qwen-72B训练数据的词表为15万亿的。最高支持32K上下文长度

Qwen-72B模型训练的具体参数如下:

image.png

Qwen-72B参数规模720亿,半精度(FP16)模型的载入需要144GB以上的显存!而Int4量化之后需要最少48GB的显存才可以推理。

image.png

Qwen-1.8B模型简介

此次开源的模型除了Qwen-72B的超大规模参数模型外,还有一个18亿参数规模的模型Qwen-1.8B。这个模型最高支持8K上下文输入,经过了充分训练(2.2万亿tokens数据集),官方宣传效果远超过近似规模模型。Qwen-1.8B模型在MMLU的评测结果如下:

image.png

虽然当前小模型不多,但是Qwen-1.8B效果还不错。而且这个模型最低int8/int4版本仅需2GB显存就可以推理。生成2048长度的序列只需要3GB显存,微调需要6GB显存!

image.png

Qwen-72B模型的多语言支持

注意,虽然Qwen-72B的模型虽然主要支持中英文,但是在多语言场景下支持也非常有前景。根据官方的信息:

在分词器方面,相比目前主流开源模型以中英词表为主,Qwen-72B使用了超过15万token大小的词表。该词表在GPT-4使用的BPE词表cl100k_base基础上,对中文、多语言进行了优化,在对中、英、代码数据的高效编解码的基础上,对部分多语言更加友好。

下图是Qwen-72B模型在各种语言上的压缩比例:

image.png

这意味着Qwen-72B开源很容易拓展到其他语言的支持

Qwen-72B模型的评估效果

Qwen-72B模型的评测结果非常好。在GSM8K(数学逻辑)MMLU(意图理解与通用知识)的评测都是目前开源模型最强,超过了李开复的零一万物的Yi-34B模型,仅次于GPT-4和Google的PaLM2模型。

下图是DataLearnerAI大模型综合排行截图:

image.png

这些得分也是目前国内开源模型中最强的。

此外值得一提的是,Qwen-1.8B模型的MMLU得分和LLaMA2 7B差不多,证明这个模型虽然不大,但是能力还是很不错的~

不过值得一提的是,这两个模型的代码评分都很一般,在HuamanEval得分上不如CodeLLaMA-13B:

image.png

Qwen-72B模型的开源地址和其它资源

Qwen-72B模型对学术和个人完全开放,商用的情况如果月活低于100万,那就直接商用即可。如果月活超过100万那则需要申请,申请应该也是免费。

Qwen-72B模型商用申请地址:https://dashscope.console.aliyun.com/openModelApply/Qwen-72B-Chat

Qwen-72B地址和资源参考DataLearnerAI信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/Qwen-72B

Qwen-1.8B地址和资源参考DataLearnerAI信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/Qwen-1_8B

相关文章
|
6月前
|
编解码 人工智能
蚂蚁百灵大模型推出20亿参数遥感模型SkySense
【2月更文挑战第13天】蚂蚁百灵大模型推出20亿参数遥感模型SkySense
312 1
蚂蚁百灵大模型推出20亿参数遥感模型SkySense
|
机器学习/深度学习 人工智能 自然语言处理
性能超越Llama2-13B,可免费商用,姚星创业公司开源百亿参数通用大模型
性能超越Llama2-13B,可免费商用,姚星创业公司开源百亿参数通用大模型
488 0
|
3月前
|
数据采集 人工智能 自然语言处理
Llama 3.1发布:4050亿参数模型,迄今为止最强的开源大模型之一
Meta宣布发布Llama 3.1 405B,这一目前公开的最大且最先进的语言模型,标志着开源语言模型新时代的到来。Llama 3.1 405B不仅在常识理解、数学、工具使用及多语言翻译等功能上媲美顶尖AI模型,其8B和70B版本亦支持多种语言,拥有长达128K的上下文理解能力。该模型在150多个多语言基准测试中表现出色,并经过广泛的人工评估。为克服大规模训练挑战,Meta采用标准解码器架构和迭代后训练策略,大幅提升了数据质量和模型性能。此外,Llama 3.1通过监督微调、拒绝采样和直接偏好优化等手段提高了模型对指令的响应性和安全性。
80 2
|
6月前
|
人工智能 数据处理 调度
中国10亿参数规模以上大模型数量超100个
中国超过100个10亿参数以上AI大模型,彰显全球AI领导地位;广泛应用于多行业,加速数字化转型;政府强调数据开放与市场优化,推动新产业发展;多元算力协同布局,聚焦绿色低碳;面对数据安全与环保挑战,寻求可持续发展道路。
55 1
中国10亿参数规模以上大模型数量超100个
|
6月前
|
人工智能 自然语言处理 搜索推荐
Cohere推出350亿参数可扩展生成模型
【2月更文挑战第22天】Cohere推出350亿参数可扩展生成模型
79 2
Cohere推出350亿参数可扩展生成模型
|
6月前
|
人工智能 弹性计算 机器人
马斯克旗下公司宣布开源 Grok-1 模型,参数量达3140亿
最近,Meta基础人工智能研究(FAIR)团队发布了名为Branch-Train-MiX (BTX)的方法,可从种子模型开始,该模型经过分支,以高吞吐量和低通信成本的并行方式训练专家模型。Meta FAIR的成员之一Jason Weston在其X上发文介绍了这一进展。
|
6月前
|
存储 人工智能 自然语言处理
参数是ChaGPT的近6倍!英特尔公布AI大模型Aurora genAI,具备1万亿参数
参数是ChaGPT的近6倍!英特尔公布AI大模型Aurora genAI,具备1万亿参数
89 0
|
人工智能 PyTorch 测试技术
一个开源方案,极速预训练650亿参数LLaMA
一个开源方案,极速预训练650亿参数LLaMA
358 0
一个开源方案,极速预训练650亿参数LLaMA
|
存储 机器学习/深度学习 人工智能
Meta揭幕全球最快AI超算:目标一天之内训练万亿参数大模型
Meta揭幕全球最快AI超算:目标一天之内训练万亿参数大模型
252 0
|
存储 人工智能 自然语言处理
D1net阅闻 | 英特尔推出AI大模型Aurora genAI,参数量是GPT-3的近6倍
D1net阅闻 | 英特尔推出AI大模型Aurora genAI,参数量是GPT-3的近6倍
220 0