5300亿！巨型语言模型参数每年暴涨10倍，新「摩尔定律」要来了？（上）

2022-01-17 194

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 近年来，大型语言模型参数量每年暴增10倍，最近的巨无霸模型MT-NLG，参数更是达到了5300亿！关于模型参数的「新摩尔定律」已呼之欲出。不过，这可不一定是好事。

前不久，微软和英伟达推出包含5300亿参数的语言模型MT-NLG，这是一种基于transformer的模型，被誉为「世界上最强，最大的语言生成模型」。 不过，这真的是一件值得欢欣鼓舞的事情吗？

大脑的深度学习

研究人员估计，人类大脑平均包含860亿个神经元和100万亿个突触。但不是所有的都用于语言。有趣的是，GPT-4预计将有大约100万亿个参数。

两个「100万亿」。

这会是一个巧合吗？我们不禁思考，建立与人脑大小差不多的语言模型是否是一个长期可行的方法？当然了，经过数百万年的进化，我们的大脑已经成为了一个非常了不起的设备，而深度学习模型才发展了几十年。诚然，我们的直觉告诉我们，有些东西不能够通过计算来衡量的。

是深度学习，还是「深度钱包」？

在庞大的文本数据集上训练一个5300亿个参数模型，无疑需要庞大的基础设施。

事实上，微软和英伟达使用数百台DGX-A100的GPU服务器，每台售价高达19.9万美元，再加上网络设备、主机等成本，任何想要重复这个实验的人都必须花费大约1亿美元。

严谨地来看，哪些公司有业务例子可以证明在深度学习基础设备上花费1亿美元是合理的？或者1000万美元？如果设计出来，那这些模型是为谁而设计的呢？

GPU集群：散热、环保都成问题

实际上，在GPU上训练深度学习模型是一项十分费力的事情。

据英伟达服务器参数表显示，每台英伟达 DGX A100服务器最高能耗为6.5千瓦。当然，数据中心（或者服务器）也至少需要同样多的散热设备。

除非你是史塔克家族的人，需要拯救临冬城，否则散热将成为一大难题。 而且，随着公众对气候和社会责任问题的意识增强，公司还需要考虑他们的碳足迹问题。马萨诸塞大学2019年的一项研究「用GPU训练BERT，其碳足迹大致相当于进行一次横跨美国的飞行」。

而BERT-Large的参数数量更是高达3.4亿，训练起来的碳足迹究竟有多大？恐怕只是想想都害怕。

所以，我们真的应该为MT-NLG模型的5300亿个参数感到兴奋吗?。用这么多参数和算力换来的基准测试性能改进，值得付出这些成本、复杂度和碳足迹吗? 大力推广这些巨型模型，真的有助于公司和个人理解和拥抱机器学习吗? 而如果，我们把重点放在可操作性更高的技术上，就可以用来构建高质量的机器学习解决方案。比如下面这些技术：

使用预训练模型

绝大多数情况下，并不需要定制模型体系结构。

一个好的起点是寻找那些已经为能为你解决问题的(比如，总结英语文本)预训练模型。然后，快速尝试几个模型来预测数据。如果参数表明，某个参数良好，那么就完全可以了。
如果需要更准确的参数，那就尝试微调模型 (下面会有详细介绍)。

5300亿！巨型语言模型参数每年暴涨10倍，新「摩尔定律」要来了？（上）

大脑的深度学习

研究人员估计，人类大脑平均包含860亿个神经元和100万亿个突触。但不是所有的都用于语言。有趣的是，GPT-4预计将有大约100万亿个参数。

是深度学习，还是「深度钱包」？

在庞大的文本数据集上训练一个5300亿个参数模型，无疑需要庞大的基础设施。

GPU集群：散热、环保都成问题

实际上，在GPU上训练深度学习模型是一项十分费力的事情。

使用预训练模型

绝大多数情况下，并不需要定制模型体系结构。

新智元

热门文章

最新文章

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

5300亿！巨型语言模型参数每年暴涨10倍，新「摩尔定律」要来了？（上）

大脑的深度学习

研究人员估计，人类大脑平均包含860亿个神经元和100万亿个突触。但不是所有的都用于语言。有趣的是，GPT-4预计将有大约100万亿个参数。

是深度学习，还是「深度钱包」？

在庞大的文本数据集上训练一个5300亿个参数模型，无疑需要庞大的基础设施。

GPU集群：散热、环保都成问题

实际上，在GPU上训练深度学习模型是一项十分费力的事情。

使用预训练模型

绝大多数情况下，并不需要定制模型体系结构。

新智元

热门文章

最新文章

相关电子书