权重、代码、数据集全开源，性能超越Mistral-7B，苹果小模型来了-阿里云开发者社区

权重、代码、数据集全开源，性能超越Mistral-7B，苹果小模型来了

2024-08-12 175

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【8月更文挑战第12天】DCLM是由多家机构联合推出的全新测试平台，旨在通过优化数据集增强语言模型性能。其核心贡献包括一个含240万亿token的标准化语料库及有效的预训练方案。DCLM-BASELINE数据集成功训练出7B参数模型，在MMLU上5-shot准确率达64%，超越Mistral-7B，且计算成本降低40%。尽管存在局限，但该项目已全开源，为社区提供宝贵资源，推动语言模型发展。[论文链接](https://arxiv.org/pdf/2406.11794)

在人工智能领域，尤其是自然语言处理（NLP）的研究中，数据集的质量对于训练高效能的语言模型至关重要。近期，由华盛顿大学、苹果公司、丰田研究所等多家机构联合发表的论文《DataComp-LM: In search of the next generation of training sets for language models》（以下简称"DCLM"），提出了一种全新的测试平台和方法，旨在通过改进数据集来提升语言模型的性能。

DCLM的核心贡献在于它提供了一个标准化的语料库，这个语料库从Common Crawl中提取了高达240万亿个token，并且基于OpenLM框架提供了有效的预训练配方。此外，DCLM还提供了一个包含53个下游评估任务的广泛套件，使得参与者能够在不同的模型规模上进行数据策划策略的实验，包括模型规模从412M到7B参数不等。

这项研究的亮点之一是其基线实验，该实验发现基于模型的过滤是组装高质量训练集的关键。研究团队通过这些实验，创建了DCLM-BASELINE数据集，这一数据集使得从头开始训练一个7B参数的语言模型在MMLU上的5-shot准确率达到了64%，这在开放数据语言模型中是前所未有的，并且与MAP-Neo相比，在训练计算量减少40%的情况下，实现了6.6个百分点的改进。

DCLM-BASELINE数据集的创建，不仅在性能上取得了显著的成果，同时也在效率上实现了重大突破。与Mistral-7B-v0.3和Llama 3 8B等模型相比，DCLM-BASELINE在MMLU上的表现可圈可点，并且在53个自然语言理解任务的平均表现上与它们相当，但训练所需的计算量却大大减少。

然而，尽管DCLM在数据集设计和模型训练方面取得了显著的成果，但它也存在一些局限性。首先，由于计算资源的限制，研究团队只能单独地对数据集设计的不同维度进行消融研究，而无法在更大的规模上测试所有方法。其次，DCLM-BASELINE数据集在特定领域，如代码和数学问题上的表现并不突出，这表明数据集的优化还有待进一步的研究和改进。

此外，DCLM的研究主要集中在语言理解上，而在公平性、多语言性和安全性等其他重要的性能维度上尚未进行充分的探索。未来的工作可以扩展DCLM，以覆盖这些维度，并加强数据为中心的研究。

值得注意的是，DCLM的研究成果已经全部开源，包括框架、模型和数据集，这为整个研究社区提供了一个宝贵的资源，以促进数据为中心的研究，并推动语言模型的发展。开源的策略不仅有助于促进知识的共享和技术的传播，也使得更多的研究者能够参与到这一领域的研究中来，共同推动科学的进步。

论文链接：https://arxiv.org/pdf/2406.11794

权重、代码、数据集全开源，性能超越Mistral-7B，苹果小模型来了

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

权重、代码、数据集全开源，性能超越Mistral-7B，苹果小模型来了

热门文章

最新文章

相关课程

相关电子书

相关实验场景