EMNLP 2024 Oral | CoBa:均衡多任务收敛之道

简介: 我们提出了一种满足了以上两种需求的新的 MTL 方法——CoBa,旨在以最小的计算开销有效控制多任务收敛的平衡。CoBa 利用相对收敛分数(RCS)、绝对收敛分数(ACS)和发散因子(DF),在训练过程中动态地调整任务权重,确保所有任务的验证集损失以均匀的速度朝向收敛推进,同时缓解了个别任务提前发散的问题。本文在四个不同的多任务数据集上进行实验,结果表明,CoBa 不仅促进了任务收敛的平衡,而且与最佳基线方法相比,还使 LLMs 的性能至多提升了 13%。

200029495_1732097867.png

目录
相关文章
|
8月前
|
机器学习/深度学习 存储 计算机视觉
北京大学提出 PTQ4ViT | 双均匀量化+Hessian引导度量,推进Transformer模型落地
北京大学提出 PTQ4ViT | 双均匀量化+Hessian引导度量,推进Transformer模型落地
181 1
|
3月前
|
数据处理
MoE再下一城!港大提出AnyGraph:首次开启图大模型Scaling Law之路
近年来,图结构数据因关系数据的广泛应用而备受关注,但现有模型在处理复杂图数据时需大量微调,灵活性受限。香港大学团队提出了AnyGraph,一种基于图混合专家(MoE)架构的统一图模型,有效应对结构与特征异质性、快速适应及规模定律挑战。通过多样化图专家与轻量级路由机制,AnyGraph实现零样本学习和跨领域数据处理。然而,其计算复杂度较高且路由机制仍有待优化。(239字)
60 2
|
5月前
|
机器学习/深度学习
MoE也有Scaling Law,百万专家利用率近100%!DeepMind华人挑战MoE极限
【8月更文挑战第1天】近期研究提出"Mixture of A Million Experts", 通过PEER层解决了传统MoE中专家利用率低的问题。PEER采用产品键技术实现从百万级小型专家池中的稀疏检索,相较于FFW层和粗粒度MoE, 在语言建模任务上展现了更好的性能与计算效率平衡。此方法减少了计算和内存成本,同时提高了模型性能,开辟了深度学习的新方向。但仍面临模型复杂性增加及部分专家未充分利用等挑战。[论文](https://arxiv.org/abs/2407.04153)
77 7
|
人工智能 算法
Facebook出手!自适应梯度打败人工调参
Facebook出手!自适应梯度打败人工调参
100 0
|
机器学习/深度学习 存储 人工智能
放弃反向传播后,Geoffrey Hinton参与的前向梯度学习重磅研究来了
放弃反向传播后,Geoffrey Hinton参与的前向梯度学习重磅研究来了
155 0
|
机器学习/深度学习 算法 网络架构
放弃反向传播后,Geoffrey Hinton参与的前向梯度学习重磅研究来了(2)
放弃反向传播后,Geoffrey Hinton参与的前向梯度学习重磅研究来了
101 0
|
机器学习/深度学习 移动开发 自然语言处理
全新Backbone | 超越PvT,TWins等方法,ECOFormer使用哈希注意力成就高峰!(一)
全新Backbone | 超越PvT,TWins等方法,ECOFormer使用哈希注意力成就高峰!(一)
121 0
|
机器学习/深度学习 移动开发 Shell
全新Backbone | 超越PvT,TWins等方法,ECOFormer使用哈希注意力成就高峰!(二)
全新Backbone | 超越PvT,TWins等方法,ECOFormer使用哈希注意力成就高峰!(二)
116 0
|
机器学习/深度学习 算法 数据可视化
ICLR 2023 Oral | 漂移感知动态神经网络加持,时间域泛化新框架远超领域泛化&适应方法
ICLR 2023 Oral | 漂移感知动态神经网络加持,时间域泛化新框架远超领域泛化&适应方法
114 0
|
机器学习/深度学习 计算机视觉 C++
CVPR 2022|解耦知识蒸馏,让Hinton在7年前提出的方法重回SOTA行列(1)
CVPR 2022|解耦知识蒸馏,让Hinton在7年前提出的方法重回SOTA行列
224 0