480万标记样本:Facebook提出「预微调」,持续提高语言模型性能

简介: 近日,Facebook的研究人员提出了一种能够改善训练语言模型性能的方法——预微调,在大约50个分类、摘要、问答和常识推理数据集上进行了480万个标记样本。

微信图片_20220112145219.jpg


机器学习研究人员在自我监督的语言模型预训练方面取得了非凡的成功。自监督学习是不需要标记数据而进行训练。预训练是指通过一项任务来训练模型,并可应用于其他任务。

 

这样,预训练就模仿了人类处理新知识的方式。也就是说,通过使用以前学习过的任务参数,模型可以学习适应新的和不熟悉的任务

 

但是,对于许多自然语言任务,存在针对相关问题的训练示例。

 

为了利用这些优势,Facebook的研究人员提出了一种训练语言模型的方法——预微调。


微信图片_20220112145224.png


Facebook研究人员提出能够改善训练模型性能的方法


预先训练的语言模型使自然语言处理变得更便宜、更快、更容易,以更少的训练数据获得更好的性能。

 

语言模型预训练使用自我监督,不需要任何训练数据。另一方面,微调可用于进行端点调整以增强性能。

 

Facebook研究人员提出「预微调」训练语言模型的这一方法在大约50个分类、摘要、问答和常识推理数据集上进行了480万个标记样本


微信图片_20220112145226.png


他们声称,预微调能够持续改善预训练模型的性能,同时还能显着提高微调过程中的采样效率。

 

这是以前尝试过的方法,通常会取得成功。

 

在2019年的一项研究中,艾伦研究所的研究人员注意到,在多选问题数据集上对BERT模型进行预微调似乎可以教给该模型一些有关多选问题的知识。


微信图片_20220112145228.png


随后的研究发现,预微调提高了模型对名称交换的鲁棒性。在这种情况下,不同人的名字被替换为该模型必须回答的句子。

 

为了确保他们的微调前阶段包含通用语言表示形式,Facebook研究人员囊括了在四个不同领域中的任务:分类、常识推理、机器阅读理解和摘要。

 

他们称其为预先优化的模型MUPPET,代表「具有预先优化的大型多任务表示」。


训练任务大于15个,「预微调」能够改善模型性能


在对两种受欢迎经过预训练的自然语言理解模型RoBERTa和BART进行了预微调之后,研究人员在广泛使用的基准(包括RTE,BoolQ,RACE,SQuAD和MNLI)上测试了它们的性能。


微信图片_20220112145230.png


有趣的是,结果表明,当很少的任务直到临界点时(通常超过15个任务),预调整会损害性能。

 

但是,超出这15个任务进行预微调会导致与语言任务数量相关的性能改进。

 

MUPPET模型的性能优于其经过香草预训练的同类模型,利用34-40个任务的表示形式。

 

与基线RoBERTa模型相比,使用较少的数据即可使模型达到更高的精确度。


微信图片_20220112145232.png


研究人员在描述其工作的论文中写道,在资源匮乏的情况下,这些性能提高尤其明显,因为在这种情况下,用于微调的标签数据相对较少。我们证明,通过大规模多任务学习,我们可以有效地学习更强大的表示形式。

 

Facebook的研究工作表明,看似非常不同的数据集能够通过改善模型的表示形式互相帮助。

 

参考链接:


https://venturebeat.com/2021/02/01/facebook-researchers-propose-pre-fine-tuning-to-improve-language-model-performance/

相关文章
|
SQL 分布式计算 Java
GraalVM在Facebook大量使用,性能提升显著!
GraalVM在Facebook大量使用,性能提升显著!
603 0
GraalVM在Facebook大量使用,性能提升显著!
|
11月前
|
计算机视觉
迟到的 HRViT | Facebook提出多尺度高分辨率ViT,这才是原汁原味的HRNet思想(二)
迟到的 HRViT | Facebook提出多尺度高分辨率ViT,这才是原汁原味的HRNet思想(二)
166 0
|
11月前
|
机器学习/深度学习 编解码 数据可视化
超越 Swin、ConvNeXt | Facebook提出Neighborhood Attention Transformer
超越 Swin、ConvNeXt | Facebook提出Neighborhood Attention Transformer
100 0
|
11月前
|
机器学习/深度学习 编解码 vr&ar
迟到的 HRViT | Facebook提出多尺度高分辨率ViT,这才是原汁原味的HRNet思想(一)
迟到的 HRViT | Facebook提出多尺度高分辨率ViT,这才是原汁原味的HRNet思想(一)
162 0
|
11月前
最快ViT | FaceBook提出LeViT,0.077ms的单图处理速度却拥有ResNet50的精度(文末附论文与源码)(二)
最快ViT | FaceBook提出LeViT,0.077ms的单图处理速度却拥有ResNet50的精度(文末附论文与源码)(二)
60 0
|
11月前
|
机器学习/深度学习 编解码 数据挖掘
最快ViT | FaceBook提出LeViT,0.077ms的单图处理速度却拥有ResNet50的精度(文末附论文与源码)(一)
最快ViT | FaceBook提出LeViT,0.077ms的单图处理速度却拥有ResNet50的精度(文末附论文与源码)(一)
139 0
|
11月前
|
编解码
Facebook提出FP-NAS:搜索速度是EfficientNet的132倍且精度更高(文末获取论文)(二)
Facebook提出FP-NAS:搜索速度是EfficientNet的132倍且精度更高(文末获取论文)(二)
114 0
|
11月前
|
机器学习/深度学习 编解码 人工智能
Facebook提出FP-NAS:搜索速度是EfficientNet的132倍且精度更高(文末获取论文)(一)
Facebook提出FP-NAS:搜索速度是EfficientNet的132倍且精度更高(文末获取论文)(一)
128 0
|
机器学习/深度学习 运维 算法
华裔女博士生一作:Facebook提出用于超参数调整的自我监督学习框架
Facebook的研究人员近日提出了一种用于超参数调整的自我监督学习框架。这个新模型实现了准确预测的结果,估计超参数的速度快了6到20倍。
134 0
华裔女博士生一作:Facebook提出用于超参数调整的自我监督学习框架
|
机器学习/深度学习 算法 数据挖掘
ResNet压缩20倍,Facebook提出新型无监督模型压缩量化方法
怎样用量化方法解决模型压缩问题?Facebook 近日提出了一个基于向量的量化方法,无需标注数据即可对 ResNet 模型进行20倍压缩,还能够获得很高的准确率。
358 0
ResNet压缩20倍,Facebook提出新型无监督模型压缩量化方法