EMNLP 2024 Oral | CoBa:均衡多任务收敛之道

简介: 我们提出了一种满足了以上两种需求的新的 MTL 方法——CoBa,旨在以最小的计算开销有效控制多任务收敛的平衡。CoBa 利用相对收敛分数(RCS)、绝对收敛分数(ACS)和发散因子(DF),在训练过程中动态地调整任务权重,确保所有任务的验证集损失以均匀的速度朝向收敛推进,同时缓解了个别任务提前发散的问题。本文在四个不同的多任务数据集上进行实验,结果表明,CoBa 不仅促进了任务收敛的平衡,而且与最佳基线方法相比,还使 LLMs 的性能至多提升了 13%。

200029495_1732097867.png

目录
相关文章
|
2月前
|
人工智能
精度与通用性不可兼得,北大华为理论证明低精度下scaling law难以实现
北京大学和华为的研究团队在论文《数值精度如何影响大型语言模型的数学推理能力》中指出,数值精度是影响Transformer模型在数学任务中表现的关键因素。研究发现,低数值精度下,模型难以处理算术任务,如迭代加法和整数乘法;而在标准数值精度下,模型表现更佳且所需规模较小。实验结果表明,提高数值精度可显著提升LLM的数学推理能力,为优化模型性能提供了新思路。
132 88
|
机器学习/深度学习 算法 决策智能
【NeurIPS 2019】最大熵的蒙特卡洛规划算法
【NeurIPS 2019】最大熵的蒙特卡洛规划算法
133 0
|
机器学习/深度学习 移动开发 Shell
全新Backbone | 超越PvT,TWins等方法,ECOFormer使用哈希注意力成就高峰!(二)
全新Backbone | 超越PvT,TWins等方法,ECOFormer使用哈希注意力成就高峰!(二)
144 0
|
机器学习/深度学习 移动开发 自然语言处理
全新Backbone | 超越PvT,TWins等方法,ECOFormer使用哈希注意力成就高峰!(一)
全新Backbone | 超越PvT,TWins等方法,ECOFormer使用哈希注意力成就高峰!(一)
152 0
|
机器学习/深度学习 算法 数据可视化
ICLR 2023 Oral | 漂移感知动态神经网络加持,时间域泛化新框架远超领域泛化&适应方法
ICLR 2023 Oral | 漂移感知动态神经网络加持,时间域泛化新框架远超领域泛化&适应方法
126 0
|
机器学习/深度学习 编解码 监控
NWD-Based Model | 小目标检测新范式,抛弃IoU-Based暴力涨点(登顶SOTA)(一)
NWD-Based Model | 小目标检测新范式,抛弃IoU-Based暴力涨点(登顶SOTA)(一)
986 0
|
数据可视化 计算机视觉
NWD-Based Model | 小目标检测新范式,抛弃IoU-Based暴力涨点(登顶SOTA)(二)
NWD-Based Model | 小目标检测新范式,抛弃IoU-Based暴力涨点(登顶SOTA)(二)
772 0
|
机器学习/深度学习 人工智能 搜索推荐
AAAI 2023 | 超越SOTA 3.27%,上交大等提出自适应本地聚合新方法
AAAI 2023 | 超越SOTA 3.27%,上交大等提出自适应本地聚合新方法
229 0
|
机器学习/深度学习 计算机视觉 C++
CVPR 2022|解耦知识蒸馏,让Hinton在7年前提出的方法重回SOTA行列(1)
CVPR 2022|解耦知识蒸馏,让Hinton在7年前提出的方法重回SOTA行列
242 0
|
机器学习/深度学习 并行计算 PyTorch
用什么tricks能让模型训练得更快?先了解下这个问题的第一性原理(2)
用什么tricks能让模型训练得更快?先了解下这个问题的第一性原理
169 0

热门文章

最新文章