除此之外,在训练初期embedding的梯度和其余层有数量级的差异,可能对损失函数缩放不利。清华大学可以通过手动调小梯度的方式平衡embedding层梯度,对稳定训练非常有帮助,对loss几乎不影响。
如上图所示,清华大学对GLM-130B的英文语言模型能力进行了评估。其中,LAMBADA是一个广泛采用的通过预测句子末尾单词,评估达模型语言能力的数据集。GLM-130B取得了80.2的优异成绩,超过了GPT-3以及SOTA PaLM 540B。
在文语言理解能力上,清华大学在大规模多任务语言理解MMLU上进行了测试,发现GLM-130B的表现与GPT-3相当,并大幅超越BLOOM-176B。随着持续训练,水平尚未收敛,并将持续提高。
在中文方面,清华大学选取了CLUE和FewCLUE两个常用数据集进行了测试,可以发现GLM-130B全面超越了ERNIE TITAN 3.0(260B),并在生成式阅读理解任务上取得了巨大的提升。
除此之外,清华大学近期探索了GLM-130B的模型量化。在保留中间结果度为FP16的情况下,GLM-130B的权重可以量化到INT8而没有任何损失,甚至以非常小的精度损失可以量化到INT4。
在无损性能的INT8量化下,GLM-130B支持8张V100以及8张3090服务器高效。在一点点的精度损失下,用户可以在4张3090甚至8张2080 Ti上进行高效推理。
如上图所示,在T4量化在8张RTX 3090时,GLM-130B仅需5秒生成128 Token。
目前,GLM-130B已开源模型代码,大家可以免费下载。GLM-130B在英文的语言建模和少样本语言理解任务上的表现基本和GPT-3持平,且优于目前开源的OPT和BLOOM。
GLM-130B在中文CLUE和FewCLUE数据集上的零样本能力明显优于,具有2600亿参数的ERINE Titan 3.0。
除此之外,GLM-130B适配了英伟达的Faster Transformer推理库。相比于常用的Megatron框架,用户可以在一台A100上实现最高2.5倍的推理加速性能。