240万亿巨量数据被洗出，足够训出18个GPT-4！全球23所机构联手，清洗秘籍公开-阿里云开发者社区

240万亿巨量数据被洗出，足够训出18个GPT-4！全球23所机构联手，清洗秘籍公开

2024-07-05 94

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【7月更文挑战第5天】全球23所机构合作的DCLM项目揭示了数据清洗新范式，从240T海量数据中提炼出2.6T高质量集，提升语言模型效能。DCLM-Baseline数据集在减少40%计算量的同时，使70亿参数模型在MMLU上达到64%准确率，超越MAP-Neo并媲美其他LLMs。然而，数据偏见和伦理问题仍是挑战。[论文链接](https://arxiv.org/abs/2406.11794)**

一篇名为"DataComp-LM: In search of the next generation of training sets for language models"的论文，由来自全球23所机构的研究人员共同撰写，近期在arXiv上发布。该论文主要介绍了一个名为DataComp for Language Models（DCLM）的项目，旨在为语言模型的训练提供更好的数据集。

DCLM项目的主要目标是通过控制数据集的实验，提高语言模型的性能。为了实现这一目标，研究人员从Common Crawl中提取了240万亿（240T）的标记数据，并基于OpenLM框架提供了有效的预训练方法。此外，他们还设计了一套包含53个下游任务的评估套件，以全面评估语言模型的能力。

在DCLM项目中，研究人员鼓励参与者尝试各种数据管理策略，如去重、过滤和数据混合，以找到最佳的数据集组合。他们还提供了不同规模的模型，从4.12亿到70亿参数不等，以适应不同参与者的需求。

作为DCLM项目的基线，研究人员进行了广泛的实验，并发现基于模型的过滤是构建高质量训练集的关键。基于这一发现，他们构建了一个名为DCLM-Baseline的数据集，该数据集仅包含2.6T的训练标记，但足以训练一个70亿参数的语言模型，并在MMLU任务上达到64%的5-shot准确率。

与之前的开放数据语言模型MAP-Neo相比，DCLM-Baseline在MMLU任务上的准确率提高了6.6个百分点，同时训练所需的计算量减少了40%。此外，DCLM-Baseline的性能还与Mistral-7B-v0.3和Llama 3 8B等其他大型语言模型相当，但训练所需的计算量要少得多。

这些结果强调了数据集设计在语言模型训练中的重要性。通过适当的数据管理策略，研究人员能够构建一个高质量的数据集，从而提高语言模型的性能。然而，需要注意的是，尽管DCLM项目提供了一个强大的工具和方法来改进语言模型的训练数据，但数据的质量和多样性仍然是一个挑战，需要进一步的研究和探索。

此外，DCLM项目还面临着一些潜在的伦理和社会影响。例如，如果语言模型的训练数据存在偏见或不准确的信息，那么这些模型可能会在实际应用中产生不公平或误导性的输出。因此，在使用DCLM项目或其他类似工具时，研究人员和从业者需要谨慎考虑数据的来源、质量和潜在影响。

论文地址：https://arxiv.org/abs/2406.11794

240万亿巨量数据被洗出，足够训出18个GPT-4！全球23所机构联手，清洗秘籍公开

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

240万亿巨量数据被洗出，足够训出18个GPT-4！全球23所机构联手，清洗秘籍公开

热门文章

最新文章

相关课程

相关电子书

相关实验场景