中科大联合华为诺亚提出Entropy Law,揭秘大模型性能、数据压缩率以及训练损失关系

简介: 【8月更文挑战第14天】中科大与华为联合提出的Entropy Law理论,揭示了大语言模型性能与数据压缩率及训练损失的关系,指出低压缩率和高数据一致性有利于提升模型效能。基于此,开发出ZIP数据选择算法,通过多阶段贪婪策略优选低冗余样本,有效提高了模型训练效率和性能,同时降低了计算成本。这一成果为优化大模型训练提供了新途径。论文详述请见链接:https://arxiv.org/pdf/2407.06645。

在人工智能领域,大语言模型(LLMs)的兴起引发了广泛的关注和研究。这些模型在处理自然语言任务时展现出了卓越的能力,但它们的性能往往受到数据质量和训练效率的影响。为了解决这些问题,中国科学技术大学(USTC)与华为诺亚方舟实验室的研究人员提出了一种名为Entropy Law的理论,该理论揭示了大模型性能、数据压缩率以及训练损失之间的关系。

大语言模型的训练通常需要大量的数据,但并非所有数据都对模型的学习有用。因此,数据选择成为了提高模型性能的关键。然而,传统的数据选择方法主要关注单个样本的质量,而忽视了样本之间的组合效应。即使每个样本的质量都很高,它们的组合也可能因为内在的同质性或矛盾而对模型的学习产生不利影响。

为了解决这个问题,研究人员提出了Entropy Law,该理论基于信息压缩的原理,将大模型的性能与数据压缩率和第一epoch训练损失联系起来。数据压缩率反映了数据集的信息冗余程度,而第一epoch训练损失则反映了模型对数据集中固有知识的掌握程度。

通过理论推导和实证研究,研究人员发现,模型的性能与训练数据的压缩率呈负相关。这意味着,当数据集的压缩率较低时,模型的性能通常较好。此外,他们还发现,当数据集的一致性较高时,模型的性能也较好。

基于Entropy Law的发现,研究人员提出了一种名为ZIP的数据选择算法。该算法旨在优先选择具有较低压缩率的数据子集,以最大化模型学习的有效信息量。

ZIP算法采用了一种多阶段的贪婪策略,通过迭代的方式选择数据样本。在每个迭代中,算法首先进行全局选择,选择具有较低压缩率的候选样本。然后,进行局部粗粒度选择,选择与已选样本具有较低冗余度的较小样本集。最后,进行局部细粒度选择,选择与已选样本具有较低相似度的样本。

为了验证Entropy Law和ZIP算法的有效性,研究人员进行了广泛的实验。他们使用不同的大模型骨干和不同的对齐阶段,比较了ZIP算法与其他基于质量的数据选择方法的性能。

实验结果表明,ZIP算法在各种情况下都表现出了优越的性能。它能够有效地选择具有较低压缩率和较高一致性的数据集,从而提高模型的性能。此外,ZIP算法还具有较低的计算成本,因为它是一种轻量级的数据选择方法。

Entropy Law和ZIP算法的提出为大语言模型的训练提供了新的思路和方法。它们不仅可以用于数据选择,还可以用于检测模型训练中的潜在性能风险。通过在训练初期应用Entropy Law,可以预测模型在特定数据集上的性能,从而减少不必要的计算开销。

然而,Entropy Law和ZIP算法也存在一些局限性。首先,它们主要关注数据的压缩率和一致性,而没有考虑其他可能影响模型性能的因素,如数据的多样性和覆盖面。其次,ZIP算法的贪婪策略可能导致次优解,因为它没有考虑所有可能的组合。

论文链接: https://arxiv.org/pdf/2407.06645

目录
相关文章
|
6月前
|
负载均衡 并行计算 异构计算
大模型训练推理优化(5): FlexLink —— NVLink 带宽无损提升27%
本期我们将介绍蚂蚁集团ASystem团队在大模型通信优化上的新工作FlexLink,旨在通过动态聚合多路通信(NVLink,PCIe,RDMA),在H800等典型硬件上将典型通信算子如(AllReduce, All Gather)吞吐提升最高达27%,尤其适合大模型长序列推理(Prefill阶段),及训练等通信密集的带宽bound场景。方案对精度无影响。
|
6月前
|
数据采集 机器学习/深度学习 编解码
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
692 0
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
|
6月前
|
机器学习/深度学习 人工智能 算法
GSPO:Qwen让大模型强化学习训练告别崩溃,解决序列级强化学习中的稳定性问题
这是7月份的一篇论文,Qwen团队提出的群组序列策略优化算法及其在大规模语言模型强化学习训练中的技术突破
1508 0
GSPO:Qwen让大模型强化学习训练告别崩溃,解决序列级强化学习中的稳定性问题
|
7月前
|
存储 资源调度 并行计算
# Qwen3-8B 与 Qwen3-14B 的 TTFT 性能对比与底层原理详解
通义千问Qwen3系列是通义实验室2025年推出的最新大模型,包含多种参数版本,其中Qwen3-8B与Qwen3-14B均支持32K token上下文。Qwen3-8B参数量较小,响应更快,适合低延迟交互;Qwen3-14B参数更多,推理更强,适用于复杂任务。两者在TTFT、架构优化、量化技术及部署方案上各有侧重,满足多样应用场景需求。
3906 10
|
7月前
|
机器学习/深度学习 人工智能 测试技术
【ICML2025】大模型后训练性能4倍提升!阿里云PAI团队研究成果ChunkFlow中选
近日,阿里云 PAI 团队、通义实验室与中国科学院大学前沿交叉科学学院合作在机器学习顶级会议 ICML 2025 上发表论文 Efficient Long Context Fine-tuning with Chunk Flow。ChunkFlow 作为阿里云在变长和超长序列数据集上高效训练解决方案,针对处理变长和超长序列数据的性能问题,提出了以 Chunk 为中心的训练机制,支撑 Qwen 全系列模型的长序列续训练和微调任务,在阿里云内部的大量的业务上带来2倍以上的端到端性能收益,大大降低了训练消耗的 GPU 卡时。
|
8月前
|
人工智能 并行计算 持续交付
如何使用龙蜥衍生版KOS,2步实现大模型训练环境部署
大幅降低了用户开发和应用大模型的技术门槛。
|
5月前
|
机器学习/深度学习 算法 数据可视化
从零开始训练推理模型:GRPO+Unsloth改造Qwen实战指南
推理型大语言模型兴起,通过先思考再作答提升性能。本文介绍GRPO等强化学习算法,详解其原理并动手用Qwen2.5-3B训练推理模型,展示训练前后效果对比,揭示思维链生成的实现路径。
721 2
从零开始训练推理模型:GRPO+Unsloth改造Qwen实战指南
|
5月前
|
机器学习/深度学习 算法
Proximal SFT:用PPO强化学习机制优化SFT,让大模型训练更稳定
本文介绍了一种改进的监督微调方法——Proximal Supervised Fine-Tuning (PSFT),旨在解决传统SFT易过拟合、泛化能力差及导致“熵坍塌”的问题。受PPO强化学习算法启发,PSFT通过引入参数更新的稳定性机制,防止模型在训练中变得过于确定,从而提升探索能力与后续强化学习阶段的表现。实验表明,PSFT在数学推理、模型对齐及泛化能力方面均优于传统SFT。
579 3
Proximal SFT:用PPO强化学习机制优化SFT,让大模型训练更稳定

热门文章

最新文章