魔搭中文开源模型社区:模型即服务-GLM-130B:让每个人都能用上千亿模型(上)

简介: 魔搭中文开源模型社区:模型即服务


 

作者:唐杰清华大学计算机系知识工程实验室KEG

 

一、 大模型的发展与瓶颈

 

image.png

 

目前,大模型的发展如火如荼。在深度学习阶段,Al研发成本较高且效率偏低,阻碍了中小企业采用AI技术的意愿,成为Al普惠的障碍。大家需要大规模的标注数据,数据量少、样本较小成为瓶颈。除此之外,模型的调参、调优的手动工作太多,需要大量的Al专业人员来完成。

 

在大模型时代,中小企业不再需要招聘很多AI算法专业人员,可显著降低研发门槛,降低成本。中小企业只需要筒单配置,即可调用大模型的API,获得模型能力,不需要大量Al专业人员。大家只需要利用少量数据进行微调或不微调,即可快速适配应用需求。

 

image.png

 

目前,大模型预训练已经有很多相关模型。如上图所示,达摩院、华为、清华大学、谷歌、百度等,均已推出了自己的大模型。

 

 

在充分训练的情况下,规模越大性能越好是学界的共识。Google的最新研究指出,随着模型规模扩展到千亿规模,模型的少样本/零样本能力会发生质的变化。

 

image.png

 

训练开源开放的高精度千亿中英双语稠密模型,对大模型研究有重大意义。如上图所示,当参数量增大时,它的QA能力、推理能力等等,都逐渐显现出来。

 

image.png

 

上图是一个租房买房的网站,Adapt是一个应用。用户只需要对Adapt说一句话,AI会自动理解用户需要什么。然后在网站上自动搜索,整个流程完全自动化。

 

image.png

 

在上图的Excel文件中,用户只需输入一句自然语言,系统就会自动计算并添加Profit和Profit Margin。

 

image.png

 

接下来,讲一讲模型问答。如上图所示,当用户提问:“夏天穿棉袄会怎么样?”计算机会说:“很热”。当用户提问:“一斤西瓜十块钱,五斤西瓜多少钱呢?”千亿模就会直接输出“5×10=50元”。由此可见,大模型在千亿量级时,会做很多复杂的推理。

 

image.png

 

清华大学训练的GLM-130B同时支持中文和英文。在英文的语言建模和少样本语言理解任务上,其表现基本和GPT-3持平,切优于目前开源的OPT和BLOOM。

 

在中文上的CLUE和FewCLUE数据集上,零样本能力明显优于具有2600亿参数的ERINE Titan 3.0。

 

除此之外,清华大学适配了英伟达的Faster Transformer推理库,相比于常用的Megatron框架,可以在一台A100上实现最高2.5倍的推理加速性能。

 

image.png

 

如上图所示,国产超算的悟道,拥有1.75万亿参数模型。能够适配国产超算的深度学习平台八卦炉和FastMoE,通过系统算法协同设计,具备全机训练百万亿模型的能力。

 

通过智源、清华、国家并行中心、阿里达摩院、青岛海洋科学与技术试点国家实验室五方合作,成功摆脱了对国外企业的硬软件依赖,实现自主可控。

 

image.png

 

然而,训练并开源一个千亿规模的稠密语言模型面临重重挑战。首先,模型本身训练成本及其高昂,据悉,OpenAI训练GPT-3使用了上万块V100,机时费用460万美元,总成本据悉1200万美元;很少有机构能赞助这一比费用

 

其次,数千亿规模模型训练的过程会变得非常不稳定(这一点已经被目前的BLOOM、OPT证实过了),GPT-3这类千亿模型很少公布训练过程和细节,如何成功训练一个高质量的千亿模型也是个难点。

 

最后,千亿模型本身因为参数量巨大,推理的硬件门槛比较高,如GPT3至少需要一台DGX-A100才能推理,大部分用户都被挡在门槛外。

 

二、 GLM-130B大模型详解

 

image.png

 

针对上述挑战,清华大学从去年12月份开始的8个月时间里从零开始解决了无数的难题。

 

在工程方面,如何不同架构集群上高效训练千亿模型是极大的挑战。科研人员前后辗转了海光、昇腾、神威和英伟达在内的多个集群,经过了大量底层的调试工作解决了种种困难才让千亿模型在这些集群上高效训练。

 

在算法方面,千亿模型的混合精度训练本身是非常不稳定的,稍有不慎就可能导致不收敛,而且如此大的模型启动训练需要的资源就不小,调试起来非常困难。最后,科研人员成功解决了这些不稳定性问题并成功训练了GLM-130B模型。

 

image.png

 

目前,GLM-130B具有如下优势。首先,模型同时支持中文和英文。在英文的语言建模和少样本语言理解任务上的表现基本和GPT-3持平,切优于目前开源的OPT和BLOOM。

 

在中文上的CLUE和FewCLUE数据集上的零样本能力明显优于具有2600亿参数的ERINE Titan 3.0。除此之外GLM-130B,模型具有在英伟达,海光,昇腾和神威上训练的能力。

 

image.png

 

在架构方面,目前有两种基于Transformer的经典语言模型GPT和BERT。GPT为单向注意力,预测下一个单词,擅长长文本生成。BERT则为双向注意力,预测被随机遮盖的单词,擅长文本理解。

 

image.png

 

如上图所示,GLM-130B是一种通用的语言模型,通过引入“自回归填空预训练”的方式,能够自回归的预测被遮盖的区间。它可以同时进行长文本生成和文本理解的任务。

 

image.png

 

在多任务预训练时,从X1到X6采样15%作为生成目标,最后采样50-100%作为生成目标,在分类问题取得了突出的效果。

 

image.png

 

除此之外,当GLM用于文本生成时,仅需一个模型即可完成不同个任务。

 

image.png

 

为了模型具有最佳的性能,清华大学充分探索近年来提出的系列Transformer模型架构。科研人员在小规模上,进行了大量的对比实验,并选择DeepNorm,RoPE和门控注意力三个Transformer进行改进,获得最佳性能。

 

image.png

 

 

在常用的混合精度训练场景下,启动1750亿的GPT-3模型训练需要2.8T的显存存放状态,远远超过单卡显存。

 


 


相关文章
|
28天前
|
应用服务中间件 数据中心
阿里云200m轻量服务器哪个区域好?亲测这么选最合适
阿里云200M轻量服务器选地域?建议就近选择:华北选北京,华东选杭州,华南选深圳,西南选成都,距离越近,延迟越低、速度越快。多地可选,覆盖全国,详情见官方页面。
349 155
|
文件存储
easyrecovery激活码2022绿色永久使用
Ontrack EasyRecovery是一款非常出色的数据恢复软件,
12959 0
easyrecovery激活码2022绿色永久使用
|
关系型数据库 MySQL 数据处理
针对MySQL亿级数据的高效插入策略与性能优化技巧
在处理MySQL亿级数据的高效插入和性能优化时,以上提到的策略和技巧可以显著提升数据处理速度,减少系统负担,并保持数据的稳定性和一致性。正确实施这些策略需要深入理解MySQL的工作原理和业务需求,以便做出最适合的配置调整。
1589 6
|
数据采集 自然语言处理 调度
一文详谈RAG优化方案与实践
RAG通过检索现有的大量知识,结合强大的生成模型,为复杂的问答、文本摘要和生成任务带来了全新的解决方案。本文详细的介绍了RAG遇到的挑战、通用范式、工程实践、优化实现策略等。
|
存储 分布式计算 监控
Hadoop在云计算环境下的部署策略
【8月更文第28天】Hadoop是一个开源软件框架,用于分布式存储和处理大规模数据集。随着云计算技术的发展,越来越多的企业开始利用云平台的优势来部署Hadoop集群,以实现更高的可扩展性、可用性和成本效益。本文将探讨如何在公有云、私有云及混合云环境下部署和管理Hadoop集群,并提供具体的部署策略和代码示例。
541 0
|
机器学习/深度学习 人工智能 达摩院
|
缓存
响应状态码
响应状态码
340 1
|
人工智能 并行计算 算法
|
人工智能 达摩院
魔搭中文开源模型社区:模型即服务-通用多模态AI构建(下)
魔搭中文开源模型社区:模型即服务-通用多模态AI构建()
870 1
|
人工智能 编解码 达摩院
魔搭中文开源模型社区:模型即服务-视觉AI能力的开放现状及ModelScope实战(中)
魔搭中文开源模型社区:模型即服务-视觉AI能力的开放现状及ModelScope实战
1668 0