魔搭中文开源模型社区:模型即服务-GLM-130B:让每个人都能用上千亿模型(上)

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: 魔搭中文开源模型社区:模型即服务


 

作者:唐杰清华大学计算机系知识工程实验室KEG

 

一、 大模型的发展与瓶颈

 

image.png

 

目前,大模型的发展如火如荼。在深度学习阶段,Al研发成本较高且效率偏低,阻碍了中小企业采用AI技术的意愿,成为Al普惠的障碍。大家需要大规模的标注数据,数据量少、样本较小成为瓶颈。除此之外,模型的调参、调优的手动工作太多,需要大量的Al专业人员来完成。

 

在大模型时代,中小企业不再需要招聘很多AI算法专业人员,可显著降低研发门槛,降低成本。中小企业只需要筒单配置,即可调用大模型的API,获得模型能力,不需要大量Al专业人员。大家只需要利用少量数据进行微调或不微调,即可快速适配应用需求。

 

image.png

 

目前,大模型预训练已经有很多相关模型。如上图所示,达摩院、华为、清华大学、谷歌、百度等,均已推出了自己的大模型。

 

 

在充分训练的情况下,规模越大性能越好是学界的共识。Google的最新研究指出,随着模型规模扩展到千亿规模,模型的少样本/零样本能力会发生质的变化。

 

image.png

 

训练开源开放的高精度千亿中英双语稠密模型,对大模型研究有重大意义。如上图所示,当参数量增大时,它的QA能力、推理能力等等,都逐渐显现出来。

 

image.png

 

上图是一个租房买房的网站,Adapt是一个应用。用户只需要对Adapt说一句话,AI会自动理解用户需要什么。然后在网站上自动搜索,整个流程完全自动化。

 

image.png

 

在上图的Excel文件中,用户只需输入一句自然语言,系统就会自动计算并添加Profit和Profit Margin。

 

image.png

 

接下来,讲一讲模型问答。如上图所示,当用户提问:“夏天穿棉袄会怎么样?”计算机会说:“很热”。当用户提问:“一斤西瓜十块钱,五斤西瓜多少钱呢?”千亿模就会直接输出“5×10=50元”。由此可见,大模型在千亿量级时,会做很多复杂的推理。

 

image.png

 

清华大学训练的GLM-130B同时支持中文和英文。在英文的语言建模和少样本语言理解任务上,其表现基本和GPT-3持平,切优于目前开源的OPT和BLOOM。

 

在中文上的CLUE和FewCLUE数据集上,零样本能力明显优于具有2600亿参数的ERINE Titan 3.0。

 

除此之外,清华大学适配了英伟达的Faster Transformer推理库,相比于常用的Megatron框架,可以在一台A100上实现最高2.5倍的推理加速性能。

 

image.png

 

如上图所示,国产超算的悟道,拥有1.75万亿参数模型。能够适配国产超算的深度学习平台八卦炉和FastMoE,通过系统算法协同设计,具备全机训练百万亿模型的能力。

 

通过智源、清华、国家并行中心、阿里达摩院、青岛海洋科学与技术试点国家实验室五方合作,成功摆脱了对国外企业的硬软件依赖,实现自主可控。

 

image.png

 

然而,训练并开源一个千亿规模的稠密语言模型面临重重挑战。首先,模型本身训练成本及其高昂,据悉,OpenAI训练GPT-3使用了上万块V100,机时费用460万美元,总成本据悉1200万美元;很少有机构能赞助这一比费用

 

其次,数千亿规模模型训练的过程会变得非常不稳定(这一点已经被目前的BLOOM、OPT证实过了),GPT-3这类千亿模型很少公布训练过程和细节,如何成功训练一个高质量的千亿模型也是个难点。

 

最后,千亿模型本身因为参数量巨大,推理的硬件门槛比较高,如GPT3至少需要一台DGX-A100才能推理,大部分用户都被挡在门槛外。

 

二、 GLM-130B大模型详解

 

image.png

 

针对上述挑战,清华大学从去年12月份开始的8个月时间里从零开始解决了无数的难题。

 

在工程方面,如何不同架构集群上高效训练千亿模型是极大的挑战。科研人员前后辗转了海光、昇腾、神威和英伟达在内的多个集群,经过了大量底层的调试工作解决了种种困难才让千亿模型在这些集群上高效训练。

 

在算法方面,千亿模型的混合精度训练本身是非常不稳定的,稍有不慎就可能导致不收敛,而且如此大的模型启动训练需要的资源就不小,调试起来非常困难。最后,科研人员成功解决了这些不稳定性问题并成功训练了GLM-130B模型。

 

image.png

 

目前,GLM-130B具有如下优势。首先,模型同时支持中文和英文。在英文的语言建模和少样本语言理解任务上的表现基本和GPT-3持平,切优于目前开源的OPT和BLOOM。

 

在中文上的CLUE和FewCLUE数据集上的零样本能力明显优于具有2600亿参数的ERINE Titan 3.0。除此之外GLM-130B,模型具有在英伟达,海光,昇腾和神威上训练的能力。

 

image.png

 

在架构方面,目前有两种基于Transformer的经典语言模型GPT和BERT。GPT为单向注意力,预测下一个单词,擅长长文本生成。BERT则为双向注意力,预测被随机遮盖的单词,擅长文本理解。

 

image.png

 

如上图所示,GLM-130B是一种通用的语言模型,通过引入“自回归填空预训练”的方式,能够自回归的预测被遮盖的区间。它可以同时进行长文本生成和文本理解的任务。

 

image.png

 

在多任务预训练时,从X1到X6采样15%作为生成目标,最后采样50-100%作为生成目标,在分类问题取得了突出的效果。

 

image.png

 

除此之外,当GLM用于文本生成时,仅需一个模型即可完成不同个任务。

 

image.png

 

为了模型具有最佳的性能,清华大学充分探索近年来提出的系列Transformer模型架构。科研人员在小规模上,进行了大量的对比实验,并选择DeepNorm,RoPE和门控注意力三个Transformer进行改进,获得最佳性能。

 

image.png

 

 

在常用的混合精度训练场景下,启动1750亿的GPT-3模型训练需要2.8T的显存存放状态,远远超过单卡显存。

 


 


相关文章
|
4月前
|
自然语言处理 数据可视化 物联网
Qwen1.5-MoE开源,魔搭社区推理训练最佳实践教程来啦
通义千问团队推出Qwen系列的首个MoE模型,Qwen1.5-MoE-A2.7B。
|
9月前
|
数据可视化 PyTorch 算法框架/工具
零一万物Yi-34B-Chat 微调模型及量化版开源!魔搭社区最佳实践教程!
11月24日,零一万物基正式发布并开源微调模型 Yi-34B-Chat,可申请免费商用。同时,零一万物还为开发者提供了 4bit/8bit 量化版模型,Yi-34B-Chat 4bit 量化版模型可以直接在消费级显卡(如RTX3090)上使用。魔搭社区已支持下载、推理训练体验,并推出相关教程,欢迎大家来玩!
|
4月前
|
自然语言处理 物联网 Swift
零一万物开源Yi-VL多模态大模型,魔搭社区推理&微调最佳实践来啦!
近期,零一万物Yi系列模型家族发布了其多模态大模型系列,Yi Vision Language(Yi-VL)多模态语言大模型正式面向全球开源。
|
2月前
|
机器学习/深度学习 自然语言处理 测试技术
社区供稿 | RWKV-6-World 14B正式开源发布,迄今最强的稠密纯RNN大语言模型
2024年7月19日,RWKV 开源基金会宣布正式向全球开源 RWKV-6-World 14B 模型。
|
3月前
|
人工智能 JSON 自然语言处理
智谱AI GLM4开源!支持多模态&长序列,魔搭推理、微调最佳实践来啦!
GLM-4-9B是智谱AI推出的新一代预训练模型GLM-4系列的开源版本,它在多个数据集上的测试中表现出高绩效,包括语义理解、数学问题解决、推理和代码理解等方面。GLM-4-9B模型有四个变体:基础版GLM-4-9B(8K)、对话版GLM-4-9B-Chat(128K)、超长上下文版GLM-4-9B-Chat-1M(1M)和多模态版GLM-4V-9B-Chat(8K)。用户可以通过魔搭社区提供的链接体验这些模型,包括在CPU上运行的版本和支持vLLM推理的版本。
智谱AI GLM4开源!支持多模态&长序列,魔搭推理、微调最佳实践来啦!
|
2月前
|
数据可视化 物联网 Swift
谷歌开源Gemma2!魔搭社区推理、微调最佳实践教程
Google面向全球研究人员和开发者发布并开源 Gemma 2 大语言模型!本次Gemma 2 系列为轻量级开放模型,提供9B和27B参数两种尺寸,采用全新的架构设计,性能表现优异。
|
4月前
|
人工智能 安全 测试技术
微软开源4.2B参数多模态SLM模型Phi-3-vision,魔搭社区推理、微调实战教程来啦!
在 Microsoft Build 2024 上,微软持续开源了 Phi-3 系列的新模型们。包括 Phi-3-vision,这是一种将语言和视觉功能结合在一起的多模态模型。
|
4月前
|
数据可视化 物联网 关系型数据库
幻方开源第二代MoE模型 DeepSeek-V2,魔搭社区推理、微调最佳实践教程
5月6日,幻方继1月份推出首个国产MoE模型,历时4个月,带来第二代MoE模型DeepSeek-V2,并开源了技术报告和模型权重,魔搭社区可下载体验。
|
4月前
|
自然语言处理 物联网 Swift
联合XTuner,魔搭社区全面支持数据集的长文本训练
XTuner和魔搭社区(SWIFT)合作引入了一项长序列文本训练技术,该技术能够在多GPU环境中将长序列文本数据分割并分配给不同GPU,从而减少每个GPU上的显存占用。通过这种方式,训练超大规模模型时可以处理更长的序列,提高训练效率。魔搭社区的SWIFT框架已经集成了这一技术,支持多种大模型和数据集的训练。此外,SWIFT还提供了一个用户友好的界面,方便用户进行训练和部署,并且支持评估功能。
|
4月前
|
自然语言处理 前端开发 Swift
社区供稿 | 中文llama3模型哪家强?llama3汉化版微调模型大比拼
随着llama3的发布,业界越来越多的针对其中文能力的微调版本也不断涌现出来,我们在ModelScope魔搭社区上,搜集到几款比较受欢迎的llama3中文版本模型,来从多个维度评测一下,其对齐后的中文能力到底如何? 微调后是否产生了灾难性遗忘问题。