EMNLP 2024 Oral | CoBa:均衡多任务收敛之道

简介: 我们提出了一种满足了以上两种需求的新的 MTL 方法——CoBa,旨在以最小的计算开销有效控制多任务收敛的平衡。CoBa 利用相对收敛分数(RCS)、绝对收敛分数(ACS)和发散因子(DF),在训练过程中动态地调整任务权重,确保所有任务的验证集损失以均匀的速度朝向收敛推进,同时缓解了个别任务提前发散的问题。本文在四个不同的多任务数据集上进行实验,结果表明,CoBa 不仅促进了任务收敛的平衡,而且与最佳基线方法相比,还使 LLMs 的性能至多提升了 13%。

200029495_1732097867.png

目录
打赏
0
2
3
0
65
分享
相关文章
论文介绍:深入解析神经语言模型的规模定律
【4月更文挑战第2天】OpenAI的论文《Scaling Laws for Neural Language Models》探索了模型规模、数据量和计算资源与性能的幂律关系。研究发现,增大模型参数、数据集和计算投入能按幂律提升性能,且模型性能与架构细节关联较小。大型模型在样本效率上更优,能在少量数据上达到与小型模型相当的性能。尽管存在理论解释和数据规模等方面的局限性,该研究为优化资源分配和设计高性能语言模型提供了关键洞见。
140 2
论文介绍:深入解析神经语言模型的规模定律
田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型
【2月更文挑战第18天】田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型
176 2
田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型
关于近视与老花眼是否会达到平衡的研究
近视和老花眼是两种常见的眼睛屈光问题,它们有不同的原因和发展过程。近视是指远处物体看不清楚,主要是眼球轴长或角膜曲率过大导致光线聚焦在视网膜前,而不是在上面。老花眼是指难以看清近距离物体,主要是由于年龄增长导致眼中晶体变硬,难以调节对近距离的聚焦能力。
关于近视与老花眼是否会达到平衡的研究
【鲁棒优化、大M法、C&CG算法】计及风、光、负荷不确定性两阶段鲁棒优化(Matlab代码实现)
【鲁棒优化、大M法、C&CG算法】计及风、光、负荷不确定性两阶段鲁棒优化(Matlab代码实现)
467 0
全新Backbone | 超越PvT,TWins等方法,ECOFormer使用哈希注意力成就高峰!(二)
全新Backbone | 超越PvT,TWins等方法,ECOFormer使用哈希注意力成就高峰!(二)
153 0
ICLR 2023 Oral | 漂移感知动态神经网络加持,时间域泛化新框架远超领域泛化&适应方法
ICLR 2023 Oral | 漂移感知动态神经网络加持,时间域泛化新框架远超领域泛化&适应方法
154 0
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等