近年来,以 GPT-3 为代表的千亿规模稠密语言模型展现出了强大的零样本/少样本学习能力,引起了新一轮的研究热潮。然而,GPT-3 的模型参数不开源,仅以付费 API 的形式提供给海外研究者(中国地区不可用),给研究者对模型的深入研究设立了障碍。尽管目前有形如 OPT-175B 和 BLOOM-176B 这类的开源千亿模型,用户也至少需要一台 A100(80G * 8)服务器才能启动推理,大部分普通研究者仍然被挡在门槛之外,这极大的影响了预训练语言模型的普惠性(Inclusivity)。
机器之心最新一期线上分享邀请到了清华大学知识工程实验室一年级博士生、 GLM-130B 项目学生负责人之一曾奥涵,将围绕架构选择、工程实现、训练策略三个方面介绍 GLM-130B 在训练过程中遇到的种种困难以及对应的解决方案及取得的一系列工作成果。以下是 GLM-130B 的介绍:
GLM-130B 是一个开源开放的双语(中文和英文)双向稠密模型,拥有 1300 亿参数,模型架构采用通用语言模型(GLM)。它旨在支持在一台 A100(40G * 8)或 V100(32G * 8)服务器上对千亿规模参数的模型进行推理。在 INT4 量化方案下,GLM-130B 可以几乎不损失模型性能的情况下在 RTX 3090(24G * 4)或 GTX 1080 Ti(11G * 8)服务器上进行高效推理。截至 2022 年 7 月 3 日,GLM-130B 已完成 4000 亿个文本标识符(中文和英文各 2000 亿)的训练,它有以下独特优势:
双语:同时支持中文和英文。
高精度(英文): 在 LAMBADA 上优于 GPT-3 175B(+4.0%)、OPT-175B(+5.5%)和 BLOOM-176B(+13.0%),在 MMLU 上略优于 GPT-3 175B(+0.9%)。
高精度(中文):在 7 个零样本 CLUE 数据集(+24.26%)和 5 个零样本 FewCLUE 数据集(+12.75%)上明显优于 ERNIE TITAN 3.0 260B。
快速推理:支持用一台 A100 服务器使用 SAT 和 FasterTransformer 进行快速推理(提速最高可达 2.5 倍)。
低资源推理:INT4 量化方案下,支持在几乎不损失模型性能的情况下用 RTX 3090(24G * 4)或 GTX 1080 Ti(11G * 8)服务器进行高效推理
可复现性:所有结果(超过 30 个任务)均可通过开源代码和模型参数轻松复现。
跨平台:支持在 NVIDIA、海光 DCU、昇腾 910 和申威处理器上进行训练。