一篇名为"DataComp-LM: In search of the next generation of training sets for language models"的论文,由来自全球23所机构的研究人员共同撰写,近期在arXiv上发布。该论文主要介绍了一个名为DataComp for Language Models(DCLM)的项目,旨在为语言模型的训练提供更好的数据集。
DCLM项目的主要目标是通过控制数据集的实验,提高语言模型的性能。为了实现这一目标,研究人员从Common Crawl中提取了240万亿(240T)的标记数据,并基于OpenLM框架提供了有效的预训练方法。此外,他们还设计了一套包含53个下游任务的评估套件,以全面评估语言模型的能力。
在DCLM项目中,研究人员鼓励参与者尝试各种数据管理策略,如去重、过滤和数据混合,以找到最佳的数据集组合。他们还提供了不同规模的模型,从4.12亿到70亿参数不等,以适应不同参与者的需求。
作为DCLM项目的基线,研究人员进行了广泛的实验,并发现基于模型的过滤是构建高质量训练集的关键。基于这一发现,他们构建了一个名为DCLM-Baseline的数据集,该数据集仅包含2.6T的训练标记,但足以训练一个70亿参数的语言模型,并在MMLU任务上达到64%的5-shot准确率。
与之前的开放数据语言模型MAP-Neo相比,DCLM-Baseline在MMLU任务上的准确率提高了6.6个百分点,同时训练所需的计算量减少了40%。此外,DCLM-Baseline的性能还与Mistral-7B-v0.3和Llama 3 8B等其他大型语言模型相当,但训练所需的计算量要少得多。
这些结果强调了数据集设计在语言模型训练中的重要性。通过适当的数据管理策略,研究人员能够构建一个高质量的数据集,从而提高语言模型的性能。然而,需要注意的是,尽管DCLM项目提供了一个强大的工具和方法来改进语言模型的训练数据,但数据的质量和多样性仍然是一个挑战,需要进一步的研究和探索。
此外,DCLM项目还面临着一些潜在的伦理和社会影响。例如,如果语言模型的训练数据存在偏见或不准确的信息,那么这些模型可能会在实际应用中产生不公平或误导性的输出。因此,在使用DCLM项目或其他类似工具时,研究人员和从业者需要谨慎考虑数据的来源、质量和潜在影响。