权重、代码、数据集全开源,性能超越Mistral-7B,苹果小模型来了

简介: 【8月更文挑战第12天】DCLM是由多家机构联合推出的全新测试平台,旨在通过优化数据集增强语言模型性能。其核心贡献包括一个含240万亿token的标准化语料库及有效的预训练方案。DCLM-BASELINE数据集成功训练出7B参数模型,在MMLU上5-shot准确率达64%,超越Mistral-7B,且计算成本降低40%。尽管存在局限,但该项目已全开源,为社区提供宝贵资源,推动语言模型发展。[论文链接](https://arxiv.org/pdf/2406.11794)

在人工智能领域,尤其是自然语言处理(NLP)的研究中,数据集的质量对于训练高效能的语言模型至关重要。近期,由华盛顿大学、苹果公司、丰田研究所等多家机构联合发表的论文《DataComp-LM: In search of the next generation of training sets for language models》(以下简称"DCLM"),提出了一种全新的测试平台和方法,旨在通过改进数据集来提升语言模型的性能。

DCLM的核心贡献在于它提供了一个标准化的语料库,这个语料库从Common Crawl中提取了高达240万亿个token,并且基于OpenLM框架提供了有效的预训练配方。此外,DCLM还提供了一个包含53个下游评估任务的广泛套件,使得参与者能够在不同的模型规模上进行数据策划策略的实验,包括模型规模从412M到7B参数不等。

这项研究的亮点之一是其基线实验,该实验发现基于模型的过滤是组装高质量训练集的关键。研究团队通过这些实验,创建了DCLM-BASELINE数据集,这一数据集使得从头开始训练一个7B参数的语言模型在MMLU上的5-shot准确率达到了64%,这在开放数据语言模型中是前所未有的,并且与MAP-Neo相比,在训练计算量减少40%的情况下,实现了6.6个百分点的改进。

DCLM-BASELINE数据集的创建,不仅在性能上取得了显著的成果,同时也在效率上实现了重大突破。与Mistral-7B-v0.3和Llama 3 8B等模型相比,DCLM-BASELINE在MMLU上的表现可圈可点,并且在53个自然语言理解任务的平均表现上与它们相当,但训练所需的计算量却大大减少。

然而,尽管DCLM在数据集设计和模型训练方面取得了显著的成果,但它也存在一些局限性。首先,由于计算资源的限制,研究团队只能单独地对数据集设计的不同维度进行消融研究,而无法在更大的规模上测试所有方法。其次,DCLM-BASELINE数据集在特定领域,如代码和数学问题上的表现并不突出,这表明数据集的优化还有待进一步的研究和改进。

此外,DCLM的研究主要集中在语言理解上,而在公平性、多语言性和安全性等其他重要的性能维度上尚未进行充分的探索。未来的工作可以扩展DCLM,以覆盖这些维度,并加强数据为中心的研究。

值得注意的是,DCLM的研究成果已经全部开源,包括框架、模型和数据集,这为整个研究社区提供了一个宝贵的资源,以促进数据为中心的研究,并推动语言模型的发展。开源的策略不仅有助于促进知识的共享和技术的传播,也使得更多的研究者能够参与到这一领域的研究中来,共同推动科学的进步。

论文链接:https://arxiv.org/pdf/2406.11794

目录
相关文章
|
2月前
|
人工智能 自然语言处理
大模型在装傻!谷歌苹果最新发现:LLM知道但不告诉你,掌握知识比表现出来的多
在AI领域,大模型(LLM)展现出了惊人的进步,但在谷歌和苹果的最新研究中,发现这些模型有时会故意“装傻”,即使已知正确答案也不告知用户。这种“隐藏智慧”现象揭示了大模型可能具备超出表面表现的深层能力,对AI评估与应用提出了新挑战,同时也带来了设计更高效模型的新机遇。论文链接:https://arxiv.org/pdf/2410.02707
47 11
|
2月前
|
机器学习/深度学习 数据采集 数据处理
谷歌提出视觉记忆方法,让大模型训练数据更灵活
谷歌研究人员提出了一种名为“视觉记忆”的方法,结合了深度神经网络的表示能力和数据库的灵活性。该方法将图像分类任务分为图像相似性和搜索两部分,支持灵活添加和删除数据、可解释的决策机制以及大规模数据处理能力。实验结果显示,该方法在多个数据集上取得了优异的性能,如在ImageNet上实现88.5%的top-1准确率。尽管有依赖预训练模型等限制,但视觉记忆为深度学习提供了新的思路。
41 2
|
2月前
|
机器学习/深度学习 自然语言处理 数据格式
社区供稿 |【8卡从零训练Steel-LLM】微调探索与评估
本篇文章主要介绍下微调上的探索以及评估。另外,还特意试了试训练CMMLU数据集,能在榜单上提多少分
|
5月前
长上下文能力只是吹牛?最强GPT-4o正确率仅55.8%,开源模型不如瞎蒙
【8月更文挑战第10天】新研究NoCha挑战显示,即使是顶级的大型语言模型GPT-4o,在处理长篇幅文本时正确率仅55.8%,低于人类直观水平。该挑战基于近作英文小说,检验模型对整本书信息的理解与推理能力。结果显示,模型在全局推理上的表现不佳,倾向于依赖局部信息而非整体上下文,尤其是在复杂推理需求高的科幻小说上表现更弱。这一发现揭示了当前模型在处理长上下文任务上的局限性。论文链接: [https://arxiv.org/pdf/2406.16264](https://arxiv.org/pdf/2406.16264)。
135 65
|
4月前
|
搜索推荐 算法
模型小,还高效!港大最新推荐系统EasyRec:零样本文本推荐能力超越OpenAI、Bert
【9月更文挑战第21天】香港大学研究者开发了一种名为EasyRec的新推荐系统,利用语言模型的强大文本理解和生成能力,解决了传统推荐算法在零样本学习场景中的局限。EasyRec通过文本-行为对齐框架,结合对比学习和协同语言模型调优,提升了推荐准确性。实验表明,EasyRec在多个真实世界数据集上的表现优于现有模型,但其性能依赖高质量文本数据且计算复杂度较高。论文详见:http://arxiv.org/abs/2408.08821
113 7
|
5月前
|
数据采集 人工智能 自然语言处理
Llama 3.1发布:4050亿参数模型,迄今为止最强的开源大模型之一
Meta宣布发布Llama 3.1 405B,这一目前公开的最大且最先进的语言模型,标志着开源语言模型新时代的到来。Llama 3.1 405B不仅在常识理解、数学、工具使用及多语言翻译等功能上媲美顶尖AI模型,其8B和70B版本亦支持多种语言,拥有长达128K的上下文理解能力。该模型在150多个多语言基准测试中表现出色,并经过广泛的人工评估。为克服大规模训练挑战,Meta采用标准解码器架构和迭代后训练策略,大幅提升了数据质量和模型性能。此外,Llama 3.1通过监督微调、拒绝采样和直接偏好优化等手段提高了模型对指令的响应性和安全性。
99 2
|
5月前
|
机器学习/深度学习 自然语言处理 测试技术
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
【8月更文挑战第21天】谷歌DeepMind推出的FLAMe(Foundational Large Autorater Models)是一种基于深度学习的自动评估模型,旨在通过分析输入文本与参考答案的差异来评估大型语言模型(LLMs)的输出质量。FLAMe采用多任务学习方法,在涵盖500万个手工评分的100多种质量评估任务上训练,展现出强大的泛化能力。在RewardBench基准测试中,FLAMe以87.8%的准确率超越GPT-4等先进模型。这一突破不仅降低了人工评估成本,还提高了评估效率,为自然语言处理等领域带来革新。
69 1
|
8月前
|
测试技术
首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源
【5月更文挑战第6天】Cobra,首个基于Mamba的多模态大语言模型,开源了其权重和训练代码。Cobra结合Mamba的高效语言模型与视觉模态,以线性计算复杂度提升MLLM效率,适用于更多实际场景。通过优化模态融合,Cobra在速度、性能和参数效率上超越现有方法,如在封闭集挑战预测中表现优秀,并能在参数量减少的情况下保持强效性能。[链接](https://arxiv.org/pdf/2403.14520v2.pdf)
128 1
|
8月前
|
人工智能 PyTorch iOS开发
苹果AppleMacOs最新Sonoma系统本地训练和推理GPT-SoVITS模型实践
GPT-SoVITS是少有的可以在MacOs系统下训练和推理的TTS项目,虽然在效率上没有办法和N卡设备相提并论,但终归是开发者在MacOs系统构建基于M系列芯片AI生态的第一步。
苹果AppleMacOs最新Sonoma系统本地训练和推理GPT-SoVITS模型实践
|
人工智能 缓存 并行计算
终极「揭秘」:GPT-4模型架构、训练成本、数据集信息都被扒出来了
终极「揭秘」:GPT-4模型架构、训练成本、数据集信息都被扒出来了
988 0

热门文章

最新文章