中科大联合华为诺亚提出Entropy Law,揭秘大模型性能、数据压缩率以及训练损失关系

简介: 【8月更文挑战第14天】中科大与华为联合提出的Entropy Law理论,揭示了大语言模型性能与数据压缩率及训练损失的关系,指出低压缩率和高数据一致性有利于提升模型效能。基于此,开发出ZIP数据选择算法,通过多阶段贪婪策略优选低冗余样本,有效提高了模型训练效率和性能,同时降低了计算成本。这一成果为优化大模型训练提供了新途径。论文详述请见链接:https://arxiv.org/pdf/2407.06645。

在人工智能领域,大语言模型(LLMs)的兴起引发了广泛的关注和研究。这些模型在处理自然语言任务时展现出了卓越的能力,但它们的性能往往受到数据质量和训练效率的影响。为了解决这些问题,中国科学技术大学(USTC)与华为诺亚方舟实验室的研究人员提出了一种名为Entropy Law的理论,该理论揭示了大模型性能、数据压缩率以及训练损失之间的关系。

大语言模型的训练通常需要大量的数据,但并非所有数据都对模型的学习有用。因此,数据选择成为了提高模型性能的关键。然而,传统的数据选择方法主要关注单个样本的质量,而忽视了样本之间的组合效应。即使每个样本的质量都很高,它们的组合也可能因为内在的同质性或矛盾而对模型的学习产生不利影响。

为了解决这个问题,研究人员提出了Entropy Law,该理论基于信息压缩的原理,将大模型的性能与数据压缩率和第一epoch训练损失联系起来。数据压缩率反映了数据集的信息冗余程度,而第一epoch训练损失则反映了模型对数据集中固有知识的掌握程度。

通过理论推导和实证研究,研究人员发现,模型的性能与训练数据的压缩率呈负相关。这意味着,当数据集的压缩率较低时,模型的性能通常较好。此外,他们还发现,当数据集的一致性较高时,模型的性能也较好。

基于Entropy Law的发现,研究人员提出了一种名为ZIP的数据选择算法。该算法旨在优先选择具有较低压缩率的数据子集,以最大化模型学习的有效信息量。

ZIP算法采用了一种多阶段的贪婪策略,通过迭代的方式选择数据样本。在每个迭代中,算法首先进行全局选择,选择具有较低压缩率的候选样本。然后,进行局部粗粒度选择,选择与已选样本具有较低冗余度的较小样本集。最后,进行局部细粒度选择,选择与已选样本具有较低相似度的样本。

为了验证Entropy Law和ZIP算法的有效性,研究人员进行了广泛的实验。他们使用不同的大模型骨干和不同的对齐阶段,比较了ZIP算法与其他基于质量的数据选择方法的性能。

实验结果表明,ZIP算法在各种情况下都表现出了优越的性能。它能够有效地选择具有较低压缩率和较高一致性的数据集,从而提高模型的性能。此外,ZIP算法还具有较低的计算成本,因为它是一种轻量级的数据选择方法。

Entropy Law和ZIP算法的提出为大语言模型的训练提供了新的思路和方法。它们不仅可以用于数据选择,还可以用于检测模型训练中的潜在性能风险。通过在训练初期应用Entropy Law,可以预测模型在特定数据集上的性能,从而减少不必要的计算开销。

然而,Entropy Law和ZIP算法也存在一些局限性。首先,它们主要关注数据的压缩率和一致性,而没有考虑其他可能影响模型性能的因素,如数据的多样性和覆盖面。其次,ZIP算法的贪婪策略可能导致次优解,因为它没有考虑所有可能的组合。

论文链接: https://arxiv.org/pdf/2407.06645

目录
相关文章
|
9月前
|
机器学习/深度学习 存储 计算机视觉
北京大学提出 PTQ4ViT | 双均匀量化+Hessian引导度量,推进Transformer模型落地
北京大学提出 PTQ4ViT | 双均匀量化+Hessian引导度量,推进Transformer模型落地
199 1
|
9月前
|
机器学习/深度学习 算法 安全
FRCNN来袭 | Faster RCNN与FCN永不遗忘,联邦学习+边缘数据既保护隐私也提升性能
FRCNN来袭 | Faster RCNN与FCN永不遗忘,联邦学习+边缘数据既保护隐私也提升性能
387 0
|
27天前
|
人工智能
精度与通用性不可兼得,北大华为理论证明低精度下scaling law难以实现
北京大学和华为的研究团队在论文《数值精度如何影响大型语言模型的数学推理能力》中指出,数值精度是影响Transformer模型在数学任务中表现的关键因素。研究发现,低数值精度下,模型难以处理算术任务,如迭代加法和整数乘法;而在标准数值精度下,模型表现更佳且所需规模较小。实验结果表明,提高数值精度可显著提升LLM的数学推理能力,为优化模型性能提供了新思路。
125 88
|
30天前
|
机器学习/深度学习 人工智能 算法
率先解决多类数据同时受损,中科大MIRA团队TRACER入选NeurIPS 2024:强鲁棒性的离线变分贝叶斯强化学习
中国科学技术大学MIRA团队提出了一种名为TRACER的创新算法,旨在解决离线强化学习中数据损坏问题。TRACER通过引入贝叶斯推理捕捉不确定性,利用熵度量区分损坏与无损数据,从而提高模型鲁棒性。实验表明,TRACER在多种数据损坏情况下显著优于现有方法。论文已发表于NeurIPS 2024。
47 23
|
4月前
|
数据处理
MoE再下一城!港大提出AnyGraph:首次开启图大模型Scaling Law之路
近年来,图结构数据因关系数据的广泛应用而备受关注,但现有模型在处理复杂图数据时需大量微调,灵活性受限。香港大学团队提出了AnyGraph,一种基于图混合专家(MoE)架构的统一图模型,有效应对结构与特征异质性、快速适应及规模定律挑战。通过多样化图专家与轻量级路由机制,AnyGraph实现零样本学习和跨领域数据处理。然而,其计算复杂度较高且路由机制仍有待优化。(239字)
68 2
|
7月前
|
人工智能 自然语言处理 网络架构
单一作者论文,谷歌提出百万专家Mixture,超越密集前馈、稀疏MoE
【7月更文挑战第27天】谷歌提出了一种名为“百万专家Mixture”的神经网络架构,旨在解决Transformer模型处理大规模数据时面临的计算和内存效率问题。该架构通过利用“产品键”技术实现从大规模专家池中的高效检索,相较于传统密集前馈网络和稀疏MoE模型,在性能-计算权衡方面展现出明显优势。尽管如此,模型训练的复杂性和大规模模型的有效管理仍然是挑战。[链接](https://arxiv.org/abs/2407.04153)
81 2
|
9月前
|
运维
ICLR 2024:跨领域准确进行零样本异常检测,浙大等提出AnomalyCLIP
【5月更文挑战第12天】 浙大、新大和哈佛研究人员合作提出AnomalyCLIP,利用预训练的视觉-语言模型CLIP,学习对象无关文本提示,实现准确的跨领域异常检测。在17个数据集上表现出色,但存在特定领域适应性和计算复杂度问题。研究表明潜力,尤其对工业和医学图像分析。[论文链接](https://arxiv.org/pdf/2310.18961.pdf)
228 1
|
9月前
|
算法 数据挖掘 关系型数据库
有限混合模型聚类FMM、广义线性回归模型GLM混合应用分析威士忌市场和研究专利申请数据
有限混合模型聚类FMM、广义线性回归模型GLM混合应用分析威士忌市场和研究专利申请数据
|
9月前
|
计算机视觉
模型落地必备 | 南开大学提出CrossKD蒸馏方法,同时兼顾特征和预测级别的信息
模型落地必备 | 南开大学提出CrossKD蒸馏方法,同时兼顾特征和预测级别的信息
188 0
|
机器学习/深度学习 人工智能 算法
NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习(1)
NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习
133 0
NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习(1)