EMNLP 2024 Oral | CoBa:均衡多任务收敛之道

简介: 我们提出了一种满足了以上两种需求的新的 MTL 方法——CoBa,旨在以最小的计算开销有效控制多任务收敛的平衡。CoBa 利用相对收敛分数(RCS)、绝对收敛分数(ACS)和发散因子(DF),在训练过程中动态地调整任务权重,确保所有任务的验证集损失以均匀的速度朝向收敛推进,同时缓解了个别任务提前发散的问题。本文在四个不同的多任务数据集上进行实验,结果表明,CoBa 不仅促进了任务收敛的平衡,而且与最佳基线方法相比,还使 LLMs 的性能至多提升了 13%。

200029495_1732097867.png

目录
相关文章
|
2月前
|
人工智能
精度与通用性不可兼得,北大华为理论证明低精度下scaling law难以实现
北京大学和华为的研究团队在论文《数值精度如何影响大型语言模型的数学推理能力》中指出,数值精度是影响Transformer模型在数学任务中表现的关键因素。研究发现,低数值精度下,模型难以处理算术任务,如迭代加法和整数乘法;而在标准数值精度下,模型表现更佳且所需规模较小。实验结果表明,提高数值精度可显著提升LLM的数学推理能力,为优化模型性能提供了新思路。
132 88
|
4月前
|
机器学习/深度学习 自然语言处理 物联网
NeurIPS 2024 Oral:小参数,大作为!揭秘非对称 LoRA 架构的高效性能
近期,一篇题为《\model~: 非对称LoRA架构实现高效微调》的论文被NeurIPS 2024接收为口头报告,该研究提出了一种创新的非对称LoRA架构,旨在解决大型语言模型(LLMs)在保持高性能的同时提高训练和部署效率的问题。通过引入共享A矩阵和多个B矩阵,\model~不仅提高了参数效率,还在多个数据集上展示了超越现有PEFT方法的性能,尤其是在多任务域和复杂数据集上的表现尤为突出。此架构还有效减少了训练能耗和延迟,为LLMs的高效应用提供了新思路。
95 4
|
7月前
|
数据采集 人工智能 自然语言处理
中科大联合华为诺亚提出Entropy Law,揭秘大模型性能、数据压缩率以及训练损失关系
【8月更文挑战第14天】中科大与华为联合提出的Entropy Law理论,揭示了大语言模型性能与数据压缩率及训练损失的关系,指出低压缩率和高数据一致性有利于提升模型效能。基于此,开发出ZIP数据选择算法,通过多阶段贪婪策略优选低冗余样本,有效提高了模型训练效率和性能,同时降低了计算成本。这一成果为优化大模型训练提供了新途径。论文详述请见链接:https://arxiv.org/pdf/2407.06645。
161 65
|
7月前
|
机器学习/深度学习
MoE也有Scaling Law,百万专家利用率近100%!DeepMind华人挑战MoE极限
【8月更文挑战第1天】近期研究提出"Mixture of A Million Experts", 通过PEER层解决了传统MoE中专家利用率低的问题。PEER采用产品键技术实现从百万级小型专家池中的稀疏检索,相较于FFW层和粗粒度MoE, 在语言建模任务上展现了更好的性能与计算效率平衡。此方法减少了计算和内存成本,同时提高了模型性能,开辟了深度学习的新方向。但仍面临模型复杂性增加及部分专家未充分利用等挑战。[论文](https://arxiv.org/abs/2407.04153)
109 7
|
10月前
|
知识图谱 异构计算
ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天
【2月更文挑战第28天】ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天
72 3
ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天
|
10月前
|
机器学习/深度学习 编解码 数据可视化
南开大学提出YOLO-MS | 超越YOLOv8与RTMDet,即插即用打破性能瓶颈
南开大学提出YOLO-MS | 超越YOLOv8与RTMDet,即插即用打破性能瓶颈
143 1
|
机器学习/深度学习 移动开发 Shell
全新Backbone | 超越PvT,TWins等方法,ECOFormer使用哈希注意力成就高峰!(二)
全新Backbone | 超越PvT,TWins等方法,ECOFormer使用哈希注意力成就高峰!(二)
144 0
|
机器学习/深度学习 移动开发 自然语言处理
全新Backbone | 超越PvT,TWins等方法,ECOFormer使用哈希注意力成就高峰!(一)
全新Backbone | 超越PvT,TWins等方法,ECOFormer使用哈希注意力成就高峰!(一)
148 0
|
机器学习/深度学习 算法 数据可视化
ICLR 2023 Oral | 漂移感知动态神经网络加持,时间域泛化新框架远超领域泛化&适应方法
ICLR 2023 Oral | 漂移感知动态神经网络加持,时间域泛化新框架远超领域泛化&适应方法
126 0
|
机器学习/深度学习 人工智能 算法
Nature子刊 | 不确定性驱动、用于主动学习的动力学用于自动采样
Nature子刊 | 不确定性驱动、用于主动学习的动力学用于自动采样
157 0