深度学习变天,模型越做越小!Google发布FLAN,模型参数少400亿,性能超越GPT-3

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
简介: 你是否抱怨过深度学习这畸形的研究发展路线,大公司才能玩得起sota,普通人连买张显卡都要承受几倍的溢价!最近Google发布了一个新的语言模型FLAN,或许能在深度学习中带来新的发展趋势,它相比GPT-3少了400亿参数,性能还更强!

像OpenAI的GPT-3这样的语言模型,近年来层出不穷,企业也更愿意投入来研究如何利用AI技术和数据来学习文本生成等。 而GPT-3也不负众望,它及它的后继模型能够像人一样来写电子邮件、文本摘要、甚至写各种语言的代码。

40.jpg但它也有一个致命缺点,那就是训练时间长,需要海量的训练数据,并且生成的模型参数量极大,需要高性能运算设备才能发挥全部性能。目前的研究也在朝着更大的语言模型、更多任务的数据方向发展。 传统观点认为,模型的参数越多,它可以完成的任务就越复杂,性能也越好。在机器学习中,参数是模型在进行预测时使用的内部配置变量,通过不同的参数可以对不同的问题进行拟合。 但是越来越多的研究对这个概念提出了质疑。最近,谷歌的研究人员发表了一项研究,声称他们发布了一个参数量远小于 GPT-3 的模型——微调语言网络 (fine-tuned language net, FLAN),并且在许多有难度的基准测试中性能都大幅超过 GPT-3。  41.jpg论文地址:https://arxiv.org/pdf/2109.01652.pdf 与 GPT-3 的 1750 亿个参数相比,FLAN 拥有 1370 亿个参数,在研究人员对其进行测试的 25 项任务中,有19项超过了zero-shot 175B GPT-3。 FLAN甚至在ANLI、RTE、BoolQ、AI2-ARC、OpenbookQA和StoryCloze上的表现都大大超过了 few-shot GPT-3。42.jpg消融研究表明,任务数量和模型规模是教学调整成功的关键因素 FLAN 与 GPT-3 的不同之处在于,FLAN 面向60 项自然语言处理任务进行了微调,这些任务通过自然语言指令来表达,例如情感分类中使用“这条影评的情绪是正面还是负面?”来表示。43.jpgFLAN是Base LM的指令调优(instruction-tuned)版本。指令调优管道混合了所有数据集,并从每个数据集中随机抽取样本。 各个数据集的样本数相差很大,有的数据集甚至有超过1000万个训练样本(例如翻译),因此将每个数据集的训练样例数量限制为30000个。 有的数据集几乎没有训练样本,例如CommitmentBank只有250个样本,为了防止这些数据集被边缘化,遵循样本比例混合方案(examples-proportional mixing schema),在最大混合率为3000的情况下,使用Adafactor优化器以3e-5的学习率,以8192的batch size对所有模型进行30000次梯度更新的微调。 微调过程中使用的输入和目标序列长度分别为1024和256。使用packing将多个训练样本组合成一个序列,使用特殊的序列结束标记将输入与目标分离。 谷歌的研究人员表示,这种指令调节(instruction tuning)通过教模型如何执行指令描述的任务来提高模型处理和理解自然语言的能力。 在FLAN对网页、编程语言、对话和维基百科文章的训练后,研究人员发现,该模型可以学习按照未经明确训练的任务进行操作,也就是说可以部分理解了自然语言的真实意图。尽管训练数据不如GPT-3的训练集“干净”,但FLAN仍然在问答和长文摘要等任务上超过了GPT-3。44.jpg除此之外,FLAN的zero-shot和few-shot性能与也比GPT-3好一些,这也表明模型有能力遵循各种指令。 除了速度优势,更小、更仔细微调(more carefully tuned)的模型还可以解决一些大型语言模型可能产生的其他问题,例如环境影响。 2020年6月,马萨诸塞大学艾摩斯特分校的研究人员发布了一份报告,估计训练和搜索某一模型所需的电力量约为626000磅二氧化碳的排放量,相当于美国平均汽车寿命排放量的5倍。 45.jpg谷歌的一项研究也发现,GPT-3在训练期间使用了1287兆瓦电,产生了552吨的二氧化碳排放。相比之下,FLAN只使用了451兆瓦电,产生了26吨的二氧化碳。 麻省理工学院最近一篇论文也说明,如果按照大型语言模型的趋势继续下去,从硬件、环境和资金的角度来看,训练的成本将变得令普通人无法触及。以低经济的方式实现高性能目标需要更高效的硬件、更高效的算法或其他改进,才能够让整体的收益保持为正。 康奈尔大学的自然语言处理研究员 Maria Antoniak 就曾公开表示,是否一定需要更大的模型才能处理好自然语言,目前来说这个问题还没有答案。即便说基准测试的排行榜被这些大模型刷了个遍,但把更多的数据输入到模型中,是否能继续带来性能提升,还是不确定的。 并且NLP的领域的评测通常是以任务为中心,研究人员通常共同解决特定数据集上的特定问题,这些任务通常是结构化的,并且所能涵盖的自然语言问题也是比较单一的。虽然在排行榜上取得更好的成绩代表模型性能更强,这种研究方法也在促进者NLP技术的发展,也可能限制研究人员在泛化性上的思考。并且这种研究结果能否最终进行真正的语言理解还有待商榷。 谷歌研究中提到大型语言模型的问题可能在于用于训练它们的数据以及常见的训练方法。例如奥地利维也纳大学医学院人工智能研究所的研究人员发现,GPT-3在生物医学领域中的表现并不如小型架构但精细的模型。 46.jpg即使在对生物医学数据进行预训练和微调后,研究者们还发现大的语言模型很难在问答、文本分类和识别上与更小的模型相媲美。 实验结果表明,在生物医学自然语言处理领域,多任务语言模型仍有很大的发展空间,很少有模型能够在少量训练数据可用的情况下有效地将知识转移到新任务。 这也可以归结为数据质量的问题。社区驱动项目EleutherAI的数据科学家Leo Gao的另一篇论文表明,训练数据中集中数据的管理方式会显著影响大型语言模型的性能。47.jpg通常研究人员普遍认为,使用分类器过滤掉来自「低质量源」像Common Crawl的数据可以提高训练数据质量,但过度过滤会导致类似GPT的语言模型性能下降。 通过对分类器得分进行过度的优化,会使得保留的数据开始以满足分类器要求的方式而出现偏差,从而生成一个不太丰富、多样性不足的数据集。 从直觉上看,丢弃的数据越多,剩余数据的质量就越高,但研究人员发现,基于浅分类器的过滤并不总是如此。相反,过滤在一定程度上提高了下游任务的性能,但随着过滤变得过多,性能又会下降高。可以推测这是由于Goodhart定律造成的,随着优化压力的增加,agent和真实目标之间的不一致变得更加明显。48.jpgGoodhart定律内容:当一个措施本身成为目标时,它就不再是一个好的措施。(When a measure becomes a target, it ceases to be a good measure.)

相关文章
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
当语言遇见智慧火花:GPT家族历代模型大起底,带你见证从平凡到卓越的AI进化奇迹!
【10月更文挑战第6天】随着自然语言处理技术的进步,GPT系列模型(Generative Pre-trained Transformers)成为该领域的明星。从GPT-1的开创性工作,到GPT-2在规模与性能上的突破,再到拥有1750亿参数的GPT-3及其无需微调即可执行多种NLP任务的能力,以及社区驱动的GPT-NeoX,这些模型不断进化。虽然它们展现出强大的语言理解和生成能力,但也存在如生成错误信息或偏见等问题。本文将对比分析各代GPT模型的特点,并通过示例代码展示其部分功能。
127 2
|
2月前
|
数据采集 API 决策智能
华为诺亚联合中科大发布工具调用模型ToolACE,效果持平GPT-4获开源第一
 【10月更文挑战第10天】华为诺亚方舟实验室与中国科学技术大学合作推出ToolACE,一种自进化合成过程的工具调用模型。ToolACE通过多智能体交互和双重验证系统生成准确、复杂、多样化的工具学习数据,显著提升大型语言模型(LLM)的功能调用能力。实验结果显示,使用ToolACE数据训练的80亿参数模型性能媲美GPT-4,在伯克利功能调用排行榜上获得开源第一。
78 4
|
2月前
|
存储 数据采集 数据安全/隐私保护
商汤、清华、复旦等开源百亿级多模态数据集,可训练类GPT-4o模型
商汤科技、清华大学和复旦大学等机构联合开源了名为OmniCorpus的多模态数据集,规模达百亿级,旨在支持类似GPT-4级别的大型多模态模型训练。该数据集包含86亿张图像和1696亿个文本标记,远超现有数据集规模并保持高质量,具备广泛来源和灵活性,可轻松转换为纯文本或图像-文本对。经验证,该数据集质量优良,有望促进多模态模型研究,但同时也面临存储管理、数据偏见及隐私保护等挑战。
166 60
|
23天前
|
机器学习/深度学习 算法 开发者
探索深度学习中的优化器选择对模型性能的影响
在深度学习领域,优化器的选择对于模型训练的效果具有决定性作用。本文通过对比分析不同优化器的工作原理及其在实际应用中的表现,探讨了如何根据具体任务选择合适的优化器以提高模型性能。文章首先概述了几种常见的优化算法,包括梯度下降法、随机梯度下降法(SGD)、动量法、AdaGrad、RMSProp和Adam等;然后,通过实验验证了这些优化器在不同数据集上训练神经网络时的效率与准确性差异;最后,提出了一些基于经验的规则帮助开发者更好地做出选择。
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
o1医学领域大胜GPT-4,性能暴涨!顶尖华人团队激动发文:离AI医生越来越近了
【10月更文挑战第29天】近日,一支顶尖华人团队发布论文《A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor?》,揭示了OpenAI最新语言模型o1在医学领域的卓越表现。研究显示,o1在概念识别、文本总结、问答等任务上远超GPT-4,显著提升了医学领域的AI应用水平,向实现AI医生的目标迈进了一大步。
46 3
|
3月前
|
机器学习/深度学习 PyTorch 调度
在Pytorch中为不同层设置不同学习率来提升性能,优化深度学习模型
在深度学习中,学习率作为关键超参数对模型收敛速度和性能至关重要。传统方法采用统一学习率,但研究表明为不同层设置差异化学习率能显著提升性能。本文探讨了这一策略的理论基础及PyTorch实现方法,包括模型定义、参数分组、优化器配置及训练流程。通过示例展示了如何为ResNet18设置不同层的学习率,并介绍了渐进式解冻和层适应学习率等高级技巧,帮助研究者更好地优化模型训练。
173 4
在Pytorch中为不同层设置不同学习率来提升性能,优化深度学习模型
|
2月前
|
机器学习/深度学习 算法 决策智能
【机器学习】揭秘深度学习优化算法:加速训练与提升性能
【机器学习】揭秘深度学习优化算法:加速训练与提升性能
|
2月前
|
API
2024-05-14 最新!OpenAI 新模型 GPT-4 omni 简单测试,4o速度确实非常快!而且很便宜!
2024-05-14 最新!OpenAI 新模型 GPT-4 omni 简单测试,4o速度确实非常快!而且很便宜!
48 0
|
2月前
|
开发工具 git
LLM-03 大模型 15分钟 FineTuning 微调 GPT2 模型 finetuning GPT微调实战 仅需6GB显存 单卡微调 数据 10MB数据集微调
LLM-03 大模型 15分钟 FineTuning 微调 GPT2 模型 finetuning GPT微调实战 仅需6GB显存 单卡微调 数据 10MB数据集微调
65 0
|
3月前
|
机器学习/深度学习 PyTorch TensorFlow
Python实现深度学习学习率指数衰减的方法与参数介绍
学习率指数衰减提供了一种高效的动态调整学习率的手段,帮助模型在不同训练阶段以不同的学习速度优化,有利于提升模型性能和训练效率。通过合理设置衰减策略中的参数,可以有效地控制学习率的衰减过程,实现更加精确的模型训练调优。
51 0