权重、代码、数据集全开源,性能超越Mistral-7B,苹果小模型来了

简介: 【8月更文挑战第12天】DCLM是由多家机构联合推出的全新测试平台,旨在通过优化数据集增强语言模型性能。其核心贡献包括一个含240万亿token的标准化语料库及有效的预训练方案。DCLM-BASELINE数据集成功训练出7B参数模型,在MMLU上5-shot准确率达64%,超越Mistral-7B,且计算成本降低40%。尽管存在局限,但该项目已全开源,为社区提供宝贵资源,推动语言模型发展。[论文链接](https://arxiv.org/pdf/2406.11794)

在人工智能领域,尤其是自然语言处理(NLP)的研究中,数据集的质量对于训练高效能的语言模型至关重要。近期,由华盛顿大学、苹果公司、丰田研究所等多家机构联合发表的论文《DataComp-LM: In search of the next generation of training sets for language models》(以下简称"DCLM"),提出了一种全新的测试平台和方法,旨在通过改进数据集来提升语言模型的性能。

DCLM的核心贡献在于它提供了一个标准化的语料库,这个语料库从Common Crawl中提取了高达240万亿个token,并且基于OpenLM框架提供了有效的预训练配方。此外,DCLM还提供了一个包含53个下游评估任务的广泛套件,使得参与者能够在不同的模型规模上进行数据策划策略的实验,包括模型规模从412M到7B参数不等。

这项研究的亮点之一是其基线实验,该实验发现基于模型的过滤是组装高质量训练集的关键。研究团队通过这些实验,创建了DCLM-BASELINE数据集,这一数据集使得从头开始训练一个7B参数的语言模型在MMLU上的5-shot准确率达到了64%,这在开放数据语言模型中是前所未有的,并且与MAP-Neo相比,在训练计算量减少40%的情况下,实现了6.6个百分点的改进。

DCLM-BASELINE数据集的创建,不仅在性能上取得了显著的成果,同时也在效率上实现了重大突破。与Mistral-7B-v0.3和Llama 3 8B等模型相比,DCLM-BASELINE在MMLU上的表现可圈可点,并且在53个自然语言理解任务的平均表现上与它们相当,但训练所需的计算量却大大减少。

然而,尽管DCLM在数据集设计和模型训练方面取得了显著的成果,但它也存在一些局限性。首先,由于计算资源的限制,研究团队只能单独地对数据集设计的不同维度进行消融研究,而无法在更大的规模上测试所有方法。其次,DCLM-BASELINE数据集在特定领域,如代码和数学问题上的表现并不突出,这表明数据集的优化还有待进一步的研究和改进。

此外,DCLM的研究主要集中在语言理解上,而在公平性、多语言性和安全性等其他重要的性能维度上尚未进行充分的探索。未来的工作可以扩展DCLM,以覆盖这些维度,并加强数据为中心的研究。

值得注意的是,DCLM的研究成果已经全部开源,包括框架、模型和数据集,这为整个研究社区提供了一个宝贵的资源,以促进数据为中心的研究,并推动语言模型的发展。开源的策略不仅有助于促进知识的共享和技术的传播,也使得更多的研究者能够参与到这一领域的研究中来,共同推动科学的进步。

论文链接:https://arxiv.org/pdf/2406.11794

目录
相关文章
|
8天前
|
机器学习/深度学习 数据采集 数据处理
谷歌提出视觉记忆方法,让大模型训练数据更灵活
谷歌研究人员提出了一种名为“视觉记忆”的方法,结合了深度神经网络的表示能力和数据库的灵活性。该方法将图像分类任务分为图像相似性和搜索两部分,支持灵活添加和删除数据、可解释的决策机制以及大规模数据处理能力。实验结果显示,该方法在多个数据集上取得了优异的性能,如在ImageNet上实现88.5%的top-1准确率。尽管有依赖预训练模型等限制,但视觉记忆为深度学习提供了新的思路。
17 2
|
3月前
长上下文能力只是吹牛?最强GPT-4o正确率仅55.8%,开源模型不如瞎蒙
【8月更文挑战第10天】新研究NoCha挑战显示,即使是顶级的大型语言模型GPT-4o,在处理长篇幅文本时正确率仅55.8%,低于人类直观水平。该挑战基于近作英文小说,检验模型对整本书信息的理解与推理能力。结果显示,模型在全局推理上的表现不佳,倾向于依赖局部信息而非整体上下文,尤其是在复杂推理需求高的科幻小说上表现更弱。这一发现揭示了当前模型在处理长上下文任务上的局限性。论文链接: [https://arxiv.org/pdf/2406.16264](https://arxiv.org/pdf/2406.16264)。
124 65
|
6月前
|
测试技术
首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源
【5月更文挑战第6天】Cobra,首个基于Mamba的多模态大语言模型,开源了其权重和训练代码。Cobra结合Mamba的高效语言模型与视觉模态,以线性计算复杂度提升MLLM效率,适用于更多实际场景。通过优化模态融合,Cobra在速度、性能和参数效率上超越现有方法,如在封闭集挑战预测中表现优秀,并能在参数量减少的情况下保持强效性能。[链接](https://arxiv.org/pdf/2403.14520v2.pdf)
102 1
|
6月前
|
人工智能 PyTorch iOS开发
苹果AppleMacOs最新Sonoma系统本地训练和推理GPT-SoVITS模型实践
GPT-SoVITS是少有的可以在MacOs系统下训练和推理的TTS项目,虽然在效率上没有办法和N卡设备相提并论,但终归是开发者在MacOs系统构建基于M系列芯片AI生态的第一步。
苹果AppleMacOs最新Sonoma系统本地训练和推理GPT-SoVITS模型实践
|
人工智能 缓存 并行计算
终极「揭秘」:GPT-4模型架构、训练成本、数据集信息都被扒出来了
终极「揭秘」:GPT-4模型架构、训练成本、数据集信息都被扒出来了
939 0
|
机器学习/深度学习 存储 人工智能
ICLR 2023 Spotlight|节省95%训练开销,清华黄隆波团队提出强化学习专用稀疏训练框架RLx2
ICLR 2023 Spotlight|节省95%训练开销,清华黄隆波团队提出强化学习专用稀疏训练框架RLx2
184 0
|
数据采集 机器学习/深度学习 自然语言处理
首次:微软用GPT-4做大模型指令微调,新任务零样本性能再提升
首次:微软用GPT-4做大模型指令微调,新任务零样本性能再提升
238 0
|
编解码 计算机视觉
详细解读 | Google与Waymo教你如何更好的训练目标检测模型!!!(附论文)(二)
详细解读 | Google与Waymo教你如何更好的训练目标检测模型!!!(附论文)(二)
130 0
|
编解码 计算机视觉 异构计算
详细解读 | Google与Waymo教你如何更好的训练目标检测模型!!!(附论文)(一)
详细解读 | Google与Waymo教你如何更好的训练目标检测模型!!!(附论文)(一)
197 0
|
机器学习/深度学习 分布式计算 算法
训练速度提高最多5.4倍,谷歌提出RL训练新范式ActorQ
训练速度提高最多5.4倍,谷歌提出RL训练新范式ActorQ