[大语言模型-论文精读] 利用多样性进行大型语言模型预训练中重要数据的选择

简介: [大语言模型-论文精读] 利用多样性进行大型语言模型预训练中重要数据的选择

[大语言模型-论文精读] 利用多样性进行大型语言模型预训练中重要数据的选择

论文信息:

Harnessing Diversity for Important Data Selection in Pretraining Large Language Models

Authors: Chi Zhang, Huaping Zhong, Kuan Zhang, Chengliang Chai, Rui Wang, Xinlin Zhuang, Tianyi Bai, Jiantao Qiu, Lei Cao, Ye Yuan, Guoren Wang and Conghui He

1. 概览

问题解决:

这篇论文解决的主要问题是在预训练大型语言模型(LLMs)时,如何从大规模可用的训练语料库中选择数据的问题。特别是在数据质量参差不齐的情况下,如何有效地选择对模型性能提升有重要影响的数据实例。

研究结果:

论文提出了一种名为Quad的新方法,该方法在考虑数据质量的同时,还考虑了数据的多样性。Quad利用数据影响(influence)来评估数据质量,并通过簇聚类和多臂赌博机(Multi-Armed Bandit, MAB)方法来确保数据多样性。实验结果表明,Quad方法在预训练阶段能够达到最先进的结果。

2. 研究背景

技术背景:

大型语言模型(LLMs)在人工智能领域取得了显著进展,它们通过扩展模型参数、非监督数据集大小和计算资源,能够成功处理广泛的下游任务。然而,预训练LLMs时计算资源有限,因此精心选择训练数据集对于产生高性能的LLMs至关重要。

发展历史:

以往的数据选择方法包括基于规则的数据过滤、查询高性能模型、使用替代模型等。这些方法虽然在某些数据集和模型上取得了成功,但它们依赖于简单的启发式规则,没有考虑所选数据对模型的影响,导致预训练结果次优。

3. 技术挑战

发展困难:

  • 计算成本高:计算所有可用数据的影响分数非常耗时,尤其是需要梯度计算的影响函数。
  • 数据多样性不足:仅选择影响分数最高的数据实例可能导致选择的数据在特征空间中分布过于集中,缺乏多样性,从而影响预训练模型对各种下游任务的泛化能力。

4. 如何破局

解决方法:

  • 簇聚类:Quad首先将数据集分成多个簇,使得同一簇内的数据实例相似,不同簇之间的数据实例具有多样性。
  • 多臂赌博机方法:每个簇被视为一个赌博机的臂,通过选择臂来抽取样本并计算影响分数,从而在确保高质量数据的同时,也保证了数据的多样性。
  • 加速iHV P计算方法:为了更准确地评估单个数据点对整体模型的影响,Quad扩展了从MLP层到整个层的加速iHV P计算方法。

5. 技术应用

实验设置:

  • 使用预训练的嵌入模型对候选池中的数据进行k-means聚类。
  • 通过计算簇间的距离并找到相邻簇,使用多臂赌博机方法选择数据子集。
  • 在在线过程中,将数据选择问题重新定义为多臂赌博机问题,每个簇代表一个臂。

潜在应用:

  • 该方法可以应用于任何需要预训练大型语言模型的场景,特别是在数据量巨大且质量不一的情况下。
  • 可以用于提高特定领域内大型模型的性能,通过选择与该领域相关的数据进行进一步训练。

6. 小结

这篇论文通过结合数据影响和多样性,为预训练大型语言模型的数据选择提供了一种新的方法,有望提高模型在各种下游任务中的性能和泛化能力。


后记

如果您对我的博客内容感兴趣,欢迎三连击(点赞,关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术

目录
相关文章
|
机器学习/深度学习 自然语言处理 搜索推荐
9月大型语言模型研究论文总结
大型语言模型(llm)在今年发展迅速,随着新一代模型不断地被开发,研究人员和工程师了解最新进展变得非常重要。本文总结9-10月期间发布了一些重要的LLM论文。
101 0
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
【大语言模型-论文精读】用于医疗领域摘要任务的大型语言模型评估综述(上)
【大语言模型-论文精读】用于医疗领域摘要任务的大型语言模型评估综述(上)
38 2
|
1月前
|
机器学习/深度学习 人工智能 安全
【大语言模型-论文精读】用于医疗领域摘要任务的大型语言模型评估综述(下)
【大语言模型-论文精读】用于医疗领域摘要任务的大型语言模型评估综述(下)
32 1
|
1月前
|
机器学习/深度学习 开发框架 人工智能
[大语言模型-论文精读] 悉尼大学-ACL2024-提升大型语言模型的复杂视觉推理能力
[大语言模型-论文精读] 悉尼大学-ACL2024-提升大型语言模型的复杂视觉推理能力
32 0
|
1月前
|
机器学习/深度学习 人工智能 安全
[大语言模型-论文精读] 更大且更可指导的语言模型变得不那么可靠
[大语言模型-论文精读] 更大且更可指导的语言模型变得不那么可靠
24 0
|
2月前
|
机器学习/深度学习 搜索推荐
CIKM 2024:LLM蒸馏到GNN,性能提升6.2%!Emory提出大模型蒸馏到文本图
【9月更文挑战第17天】在CIKM 2024会议上,Emory大学的研究人员提出了一种创新框架,将大型语言模型(LLM)的知识蒸馏到图神经网络(GNN)中,以克服文本图(TAGs)学习中的数据稀缺问题。该方法通过LLM生成文本推理,并训练解释器模型理解这些推理,再用学生模型模仿此过程。实验显示,在四个数据集上性能平均提升了6.2%,但依赖于LLM的质量和高性能。论文链接:https://arxiv.org/pdf/2402.12022
81 7
|
3月前
|
机器学习/深度学习 自然语言处理 数据处理
|
3月前
|
机器学习/深度学习 自然语言处理 并行计算
|
5月前
|
Python
技术心得:判别式模型vs.生成式模型
技术心得:判别式模型vs.生成式模型
26 0
|
6月前
论文介绍:GraphEdit——利用大型语言模型学习图结构
【5月更文挑战第22天】GraphEdit是新提出的图结构学习方法,利用大型语言模型增强对图数据中复杂节点关系的理解。通过指令调整LLMs,它能去噪并识别节点依赖性,提供全面的图理解。实验显示GraphEdit在节点分类任务中优于其他方法,但其泛化能力、处理动态图及提升可解释性等方面仍有待进一步研究。[链接](https://arxiv.org/abs/2402.15183)
48 1