5300亿!巨型语言模型参数每年暴涨10倍,新「摩尔定律」要来了?(下)

简介: 近年来,大型语言模型参数量每年暴增10倍,最近的巨无霸模型MT-NLG,参数更是达到了5300亿!关于模型参数的「新摩尔定律」已呼之欲出。不过,这可不一定是好事。

使用小模型 

在评估模型时,应该尽量选择能够提供所需精度的最小模型。这样做预测速度更快,训练和推理所需要的硬件资源也更少。 算力昂贵,能省就省。 实际上,现在的机器学习模型越来越小,也早已不是什么新鲜事了。熟悉计算机视觉的人都会记得 2017年SqueezeNet 的问世,与 AlexNet 相比,SqueezeNet的规模缩小了98%,同时在精度表现上与AlexNet不相上下。 66.jpg


除了计算机视觉领域,NLP社区也在努力缩小模型的规模,其中大量使用了知识蒸馏等迁移学习技术。其中最出名的可能就是对谷歌BERT模型的改进型DistilBERT。 与原始 BERT 模型相比,DistilBERT保留了97%的语言理解能力,同时模型体积缩小了 40%,速度提高了60%。相同的方法已应用于其他模型,比如 Facebook 的 BART。 最近来自「Big Science」项目的最新模型也令人印象深刻。如下图所示,这些项目中的 T0 模型在许多任务上都优于 GPT-3的性能,但模型大小只有GPT-3的1/16。

67.jpg

微调模型

如果需要在一个高度专门化领域使用模型,大可不必从头开始训练模型,这时应该对模型进行微调,也就是说,仅在自己的数据集上训练几个时期。 实际上,微调模型也是迁移学习的一种方式,目的还是节约资源,能省就省! 使用迁移学习的好处不少,比如: 

  • 需要收集、存储、清理和注释的数据更少
  • 实验和数据迭代的速度更快
  • 获得产出所需的资源更少

 换句话说就是:省时、省钱、省资源! 

使用云基础设施


68.jpg


云计算企业知道如何构建高效的基础设施。研究表明,基于云的基础设施往往比替代方案能效更高、碳足迹更浅。Earth.org 表示,虽然云基础设施目前并不完美,但仍然比替代方案更节能,可以促进对环境有益的服务,推动经济增长。” 确实,在易用性、灵活性和「即用即付」方面,云当然有很多优势。如果实在负担不起自购 GPU,何不尝试在 Amazon SageMaker(AWS 的机器学习托管服务)上微调模型呢? 

优化模型

从编译器到虚拟机,软件工程师长期以来一直使用工具来自动优化硬件代码。

 然而,和软件行业相比,机器学习社区仍在为这个问题苦苦挣扎,这是有原因的。最重要的是,对机器学习模型的进行优化是一项极其复杂的任务,其中涉及以下技术和条件:69.jpg

  • 硬件:大量面向加速训练任务(Graphcore、Habana)和推理任务(Google TPU、AWS Inferentia)的专用硬件。
  • 剪枝:删除对预测结果影响很小或没有影响的模型参数。
  • 融合:合并模型层(比如卷积和激活)。
  • 量化:以较小的值存储模型参数(比如使用8位存储,而不是32位存储)

 所幸,现在已经开始出现可用的自动化工具,如Optimum 开源库和 Infinity,这是一种容器化解决方案,延时低至1毫秒,但精度可以与Transformer相当。 

另一个「摩尔定律」要来了吗? 

在过去的几年里,大型语言模型的规模每年都以10倍的速度增长。看起来,另一个「摩尔定律」就要诞生了。 原来的摩尔定律,现在的命运如何?关于「摩尔定律行将终结」的话题,早几年就已经甚嚣尘上。 70.jpg

但有一点是确切无疑的,如果机器学习沿着「模型巨大化」的路走下去,路可能会越走越窄。收益递减、成本增加、复杂度增加,这些可以预见的问题,可能会在不远的未来,把机器学习行业逼进死胡同。 这就是人工智能未来的样子吗? 希望不是。与其追逐万亿参数的巨大模型,不如把更多精力放在构建解决现实世界问题的、实用且高效的解决更好么?

相关文章
|
10月前
|
人工智能 自然语言处理 监控
从数据洞察到动态优化:SaaS+AI引领智能化服务新时代
SaaS(软件即服务)结合AI(人工智能),正引领企业解决方案向智能化转型。SaaS+AI大幅提升了工作效率与决策质量。它能自动完成重复任务、简化设置流程、主动识别并解决潜在问题,还能根据用户需求提供个性化推荐和动态优化配置。
834 1
从数据洞察到动态优化:SaaS+AI引领智能化服务新时代
|
Web App开发 测试技术 API
Playwright 测试报告中显示的标签和注释。
Playwright 测试报告中显示的标签和注释。
264 57
|
9月前
|
SQL 存储 关系型数据库
MySQL主从复制 —— 作用、原理、数据一致性,异步复制、半同步复制、组复制
MySQL主从复制 作用、原理—主库线程、I/O线程、SQL线程;主从同步要求,主从延迟原因及解决方案;数据一致性,异步复制、半同步复制、组复制
965 11
|
Java 关系型数据库 数据库连接
SpringBoot项目使用yml文件链接数据库异常
【10月更文挑战第3天】Spring Boot项目中数据库连接问题可能源于配置错误或依赖缺失。YAML配置文件的格式不正确,如缩进错误,会导致解析失败;而数据库驱动不匹配、连接字符串或认证信息错误同样引发连接异常。解决方法包括检查并修正YAML格式,确认配置属性无误,以及添加正确的数据库驱动依赖。利用日志记录和异常信息分析可辅助问题排查。
1193 11
|
机器学习/深度学习 自然语言处理 并行计算
一文快速读懂Transformer
Transformer模型近年来成为自然语言处理(NLP)领域的焦点,其强大的特征提取能力和并行计算优势在众多任务中取得显著效果。本文详细解读Transformer的原理,包括自注意力机制和编码器-解码器结构,并提供基于PyTorch的代码演示,展示了其在文本分类等任务中的应用。
|
数据采集 搜索推荐 安全
智慧城市的交通管理大数据模型
智慧城市交通管理系统借助大数据模型,通过全面收集交通数据(如监控、GPS、公共交通信息等),进行数据清洗和预处理,利用Python的Pandas进行数据管理。通过ARIMA等模型分析,预测交通流量、识别交通模式,支持智能信号控制、预测性维护和事件响应。这种集成分析与决策支持系统提升城市交通效率,确保出行安全,预示着未来交通管理的智能化和个性化趋势。【6月更文挑战第23天】
1398 10
|
新零售 大数据
全民拼团商城新零售系统开发|模式分析|详情方案
新零售是线上线下的结合,组合的价值主要是线下线上引流
|
测试技术
cypress 如何截图?
cypress 如何截图?
170 1
|
存储 Java API
Java 进阶集合Set、Map(二)
Java 进阶集合Set、Map
244 0
Java 进阶集合Set、Map(二)
|
Java 机器人 Linux
【2. 操作系统—中断、异常、系统调用】
🌗1. 启动 作用解析 Disk : 存放OS和Bootloader BIOS : 基于I/O处理系统(主要是计算机开机后,能够检查各种外设,然后加载软件执行) Bootloader : 加载OS,将OS从磁盘放入内存 注意:os最开始不是放到内存中的,而是放到disk(硬盘)中,由bios提供支持 开机流程 BIOS 开机后,寻找显卡和执行BIOS (此时, CS : IP = 0xF000 : 0xFFF0, CS/IP 两个寄存器) 将Bootloader从磁盘的引导扇区加载到0x7C00 (Bootloader一共占用512M字节的内存) 跳转到 CS : IP = 0
307 0
【2. 操作系统—中断、异常、系统调用】