5300亿!巨型语言模型参数每年暴涨10倍,新「摩尔定律」要来了?(上)

简介: 近年来,大型语言模型参数量每年暴增10倍,最近的巨无霸模型MT-NLG,参数更是达到了5300亿!关于模型参数的「新摩尔定律」已呼之欲出。不过,这可不一定是好事。

前不久,微软和英伟达推出包含5300亿参数的语言模型MT-NLG,这是一种基于transformer的模型,被誉为「世界上最强,最大的语言生成模型」。 不过,这真的是一件值得欢欣鼓舞的事情吗? 

60.jpg

大脑的深度学习

研究人员估计,人类大脑平均包含860亿个神经元和100万亿个突触。但不是所有的都用于语言。有趣的是,GPT-4预计将有大约100万亿个参数。

61.jpg



两个「100万亿」。


这会是一个巧合吗?我们不禁思考,建立与人脑大小差不多的语言模型是否是一个长期可行的方法?
 当然了,经过数百万年的进化,我们的大脑已经成为了一个非常了不起的设备,而深度学习模型才发展了几十年。诚然,我们的直觉告诉我们,有些东西不能够通过计算来衡量的。 

是深度学习,还是「深度钱包」?

在庞大的文本数据集上训练一个5300亿个参数模型,无疑需要庞大的基础设施。

 事实上,微软和英伟达使用数百台DGX-A100的GPU服务器,每台售价高达19.9万美元,再加上网络设备、主机等成本,任何想要重复这个实验的人都必须花费大约1亿美元。62.jpg


严谨地来看,哪些公司有业务例子可以证明在深度学习基础设备上花费1亿美元是合理的?或者1000万美元?如果设计出来,那这些模型是为谁而设计的呢? 

GPU集群:散热、环保都成问题

实际上,在GPU上训练深度学习模型是一项十分费力的事情。

 据英伟达服务器参数表显示,每台英伟达 DGX A100服务器最高能耗为6.5千瓦。当然,数据中心(或者服务器)也至少需要同样多的散热设备。 63.jpg

除非你是史塔克家族的人,需要拯救临冬城,否则散热将成为一大难题。 而且,随着公众对气候和社会责任问题的意识增强,公司还需要考虑他们的碳足迹问题。 马萨诸塞大学2019年的一项研究「用GPU训练BERT,其碳足迹大致相当于进行一次横跨美国的飞行」。


64.jpg

而BERT-Large的参数数量更是高达3.4亿,训练起来的碳足迹究竟有多大?恐怕只是想想都害怕。 

65.jpg

所以,我们真的应该为MT-NLG模型的5300亿个参数感到兴奋吗?。用这么多参数和算力换来的基准测试性能改进,值得付出这些成本、复杂度和碳足迹吗? 大力推广这些巨型模型,真的有助于公司和个人理解和拥抱机器学习吗? 而如果,我们把重点放在可操作性更高的技术上,就可以用来构建高质量的机器学习解决方案。比如下面这些技术: 

使用预训练模型

绝大多数情况下,并不需要定制模型体系结构。

 一个好的起点是寻找那些已经为能为你解决问题的(比如,总结英语文本)预训练模型。 然后,快速尝试几个模型来预测数据。如果参数表明,某个参数良好,那么就完全可以了。
如果需要更准确的参数,那就尝试微调模型 (下面会有详细介绍)。 

相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
相关文章
|
2月前
|
自然语言处理 算法
LLM的能力大约每8个月就会翻一倍,速度远超摩尔定律!
【2月更文挑战第27天】LLM的能力大约每8个月就会翻一倍,速度远超摩尔定律!
12 2
LLM的能力大约每8个月就会翻一倍,速度远超摩尔定律!
|
12月前
|
机器学习/深度学习 计算机视觉
模型大十倍,性能提升几倍?谷歌研究员进行了一番研究
模型大十倍,性能提升几倍?谷歌研究员进行了一番研究
116 0
|
12月前
|
机器学习/深度学习 人工智能 量子技术
人类已达硅计算架构上限!预计2030年,AI会消耗全球电力供应的50%
人类已达硅计算架构上限!预计2030年,AI会消耗全球电力供应的50%
120 0
|
12月前
|
算法 PyTorch 算法框架/工具
100亿参数的语言模型跑不动?MIT华人博士提出SmoothQuant量化,内存需求直降一半,速度提升1.56倍!(2)
100亿参数的语言模型跑不动?MIT华人博士提出SmoothQuant量化,内存需求直降一半,速度提升1.56倍!
243 0
|
12月前
|
机器学习/深度学习 人工智能 安全
谷歌砸了4亿刀的Anthrophic:AI模型训练计算量5年增加1000倍!
谷歌砸了4亿刀的Anthrophic:AI模型训练计算量5年增加1000倍!
|
机器学习/深度学习 存储 人工智能
5300亿!巨型语言模型参数每年暴涨10倍,新「摩尔定律」要来了?(下)
近年来,大型语言模型参数量每年暴增10倍,最近的巨无霸模型MT-NLG,参数更是达到了5300亿!关于模型参数的「新摩尔定律」已呼之欲出。不过,这可不一定是好事。
213 0
5300亿!巨型语言模型参数每年暴涨10倍,新「摩尔定律」要来了?(下)
|
机器学习/深度学习 人工智能 并行计算
全球最快AI超级计算机开动,每秒4百亿亿浮点运算!正拼接最大宇宙3D地图
一个计算机探索宇宙的史诗级时刻!近日,被誉为全球最快的人工智能工作负载超级计算机——Perlmutte宣布开启。这台新超级计算机以拥有6144个英伟达A100张量核心图形处理器,将负责拼接有史以来最大的可见宇宙3D地图。并且,它有望拨开物理学天空的乌云——暗能量。
221 0
全球最快AI超级计算机开动,每秒4百亿亿浮点运算!正拼接最大宇宙3D地图
|
人工智能 调度 Android开发
AI跑分超过骁龙845又如何?CPU和GPU性能决定联发科Helio P90命运
一直以来,对于联发科处理器的表现,圈内有个说法:一核有难,九核围观。 当然,这个说法跟处理器本身关系并不大,问题出在联发科芯片设计的调度问题。联发科芯片的亮点是核心够多,且工作流程是高负载启用大小核心,低负载禁用大核心。以“启用小核心并调整CPU频率大小”的调度方式,达到省电不影响性能之目的。
167 0
AI跑分超过骁龙845又如何?CPU和GPU性能决定联发科Helio P90命运
|
机器学习/深度学习 人工智能 算法
【AI计算的新摩尔定律】3.5个月翻一倍,6年增长30万倍
今天,OpenAI发布了一份关于AI计算能力增长趋势的分析报告,报告显示:自2012年以来,AI训练中所使用的计算力每3.5个月增长一倍,自2012年以来,这个指标已经增长了30万倍以上。
2863 0