中科大联合华为诺亚提出Entropy Law,揭秘大模型性能、数据压缩率以及训练损失关系

简介: 【8月更文挑战第14天】中科大与华为联合提出的Entropy Law理论,揭示了大语言模型性能与数据压缩率及训练损失的关系,指出低压缩率和高数据一致性有利于提升模型效能。基于此,开发出ZIP数据选择算法,通过多阶段贪婪策略优选低冗余样本,有效提高了模型训练效率和性能,同时降低了计算成本。这一成果为优化大模型训练提供了新途径。论文详述请见链接:https://arxiv.org/pdf/2407.06645。

在人工智能领域,大语言模型(LLMs)的兴起引发了广泛的关注和研究。这些模型在处理自然语言任务时展现出了卓越的能力,但它们的性能往往受到数据质量和训练效率的影响。为了解决这些问题,中国科学技术大学(USTC)与华为诺亚方舟实验室的研究人员提出了一种名为Entropy Law的理论,该理论揭示了大模型性能、数据压缩率以及训练损失之间的关系。

大语言模型的训练通常需要大量的数据,但并非所有数据都对模型的学习有用。因此,数据选择成为了提高模型性能的关键。然而,传统的数据选择方法主要关注单个样本的质量,而忽视了样本之间的组合效应。即使每个样本的质量都很高,它们的组合也可能因为内在的同质性或矛盾而对模型的学习产生不利影响。

为了解决这个问题,研究人员提出了Entropy Law,该理论基于信息压缩的原理,将大模型的性能与数据压缩率和第一epoch训练损失联系起来。数据压缩率反映了数据集的信息冗余程度,而第一epoch训练损失则反映了模型对数据集中固有知识的掌握程度。

通过理论推导和实证研究,研究人员发现,模型的性能与训练数据的压缩率呈负相关。这意味着,当数据集的压缩率较低时,模型的性能通常较好。此外,他们还发现,当数据集的一致性较高时,模型的性能也较好。

基于Entropy Law的发现,研究人员提出了一种名为ZIP的数据选择算法。该算法旨在优先选择具有较低压缩率的数据子集,以最大化模型学习的有效信息量。

ZIP算法采用了一种多阶段的贪婪策略,通过迭代的方式选择数据样本。在每个迭代中,算法首先进行全局选择,选择具有较低压缩率的候选样本。然后,进行局部粗粒度选择,选择与已选样本具有较低冗余度的较小样本集。最后,进行局部细粒度选择,选择与已选样本具有较低相似度的样本。

为了验证Entropy Law和ZIP算法的有效性,研究人员进行了广泛的实验。他们使用不同的大模型骨干和不同的对齐阶段,比较了ZIP算法与其他基于质量的数据选择方法的性能。

实验结果表明,ZIP算法在各种情况下都表现出了优越的性能。它能够有效地选择具有较低压缩率和较高一致性的数据集,从而提高模型的性能。此外,ZIP算法还具有较低的计算成本,因为它是一种轻量级的数据选择方法。

Entropy Law和ZIP算法的提出为大语言模型的训练提供了新的思路和方法。它们不仅可以用于数据选择,还可以用于检测模型训练中的潜在性能风险。通过在训练初期应用Entropy Law,可以预测模型在特定数据集上的性能,从而减少不必要的计算开销。

然而,Entropy Law和ZIP算法也存在一些局限性。首先,它们主要关注数据的压缩率和一致性,而没有考虑其他可能影响模型性能的因素,如数据的多样性和覆盖面。其次,ZIP算法的贪婪策略可能导致次优解,因为它没有考虑所有可能的组合。

论文链接: https://arxiv.org/pdf/2407.06645

目录
相关文章
|
1月前
|
机器学习/深度学习 人工智能 算法
GSPO:Qwen让大模型强化学习训练告别崩溃,解决序列级强化学习中的稳定性问题
这是7月份的一篇论文,Qwen团队提出的群组序列策略优化算法及其在大规模语言模型强化学习训练中的技术突破
484 0
GSPO:Qwen让大模型强化学习训练告别崩溃,解决序列级强化学习中的稳定性问题
|
2月前
|
存储 资源调度 并行计算
# Qwen3-8B 与 Qwen3-14B 的 TTFT 性能对比与底层原理详解
通义千问Qwen3系列是通义实验室2025年推出的最新大模型,包含多种参数版本,其中Qwen3-8B与Qwen3-14B均支持32K token上下文。Qwen3-8B参数量较小,响应更快,适合低延迟交互;Qwen3-14B参数更多,推理更强,适用于复杂任务。两者在TTFT、架构优化、量化技术及部署方案上各有侧重,满足多样应用场景需求。
798 9
|
3月前
|
人工智能 并行计算 持续交付
如何使用龙蜥衍生版KOS,2步实现大模型训练环境部署
大幅降低了用户开发和应用大模型的技术门槛。
|
2月前
|
机器学习/深度学习 人工智能 测试技术
【ICML2025】大模型后训练性能4倍提升!阿里云PAI团队研究成果ChunkFlow中选
近日,阿里云 PAI 团队、通义实验室与中国科学院大学前沿交叉科学学院合作在机器学习顶级会议 ICML 2025 上发表论文 Efficient Long Context Fine-tuning with Chunk Flow。ChunkFlow 作为阿里云在变长和超长序列数据集上高效训练解决方案,针对处理变长和超长序列数据的性能问题,提出了以 Chunk 为中心的训练机制,支撑 Qwen 全系列模型的长序列续训练和微调任务,在阿里云内部的大量的业务上带来2倍以上的端到端性能收益,大大降低了训练消耗的 GPU 卡时。
|
2月前
|
机器学习/深度学习 数据采集 人工智能
微调之后还能做什么?大模型后训练全链路技术解析
本文探讨了后训练的重要性、方法以及最新进展。文章将包含理论分析与实际操作指南,适合希望深入了解并应用这些技术的开发者。
400 18
微调之后还能做什么?大模型后训练全链路技术解析
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
ICLR 2025 | EDiT:一种基于 Local SGD 策略的大模型高效分布式训练方法
蚂蚁 AI Infra 团队在深度学习最核心之一的训练框架方向上持续投入与创新,实现了提升资源利用率、加速训练、提升训练稳定性等目标。我们提出的 EDiT 方法,即为其中一项工作。
|
2月前
|
存储 缓存 资源调度
# Qwen3-8B 与 ChatGPT-4o Mini 的 TTFT 性能对比与底层原理详解
Qwen3-8B 是通义实验室推出的80亿参数模型,支持32K上下文,采用FP8量化和CUDA优化,提升推理效率;ChatGPT-4o Mini 为OpenAI轻量模型,参数约3.8B,支持128K上下文,通过蒸馏技术实现低延迟。两者在TTFT、长文本处理和部署优化上各有优势,适用于不同应用场景。
261 8
|
2月前
|
机器学习/深度学习 人工智能 安全
DeepSeek-R1技术突破:纯RL训练竟能激发大模型"反思"能力?
仅通过强化学习(RL)训练,无需监督微调(SFT),就能让大模型自发产生带有反思的思维链(long CoT)。这一发现颠覆了此前行业对模型训练范式的认知。
150 3

热门文章

最新文章