多目标建模算法PLE

简介: 本文用于介绍PLE算法

概述

在现如今的推荐系统或者搜索中,都存在多个目标,多目标的算法在现如今的系统中已然成为了标配。在多目标的建模过程中,如果不同的学习任务之间较为相关时,多个任务之间可以共享一部分的信息,这样最终能够提升整体的模型学习效果。但是如果多个任务之间的相关性并不强,或者说多个任务之间存在某种冲突,这样通过部分的共享就会起到事与愿违的效果,这便是通常所说的在多任务建模中出现的负迁移(negative transfer)现象,即在相关性不强或者无相关性的多任务环境下进行信息共享,最终影响整体的网络效果,MMoE[1]便是在这样的情况下被提出。在MMoE中,通过共享多个专家(expert)实现信息的共享,同时针对每一个上层任务(task)都有对应的门控函数(gate),学习到多个专家对于特定任务的贡献程度,即专家的分布。以此,实现了对任务之间的关联和区别的学习。

然而,在多任务建模过程中,还存在另外一种现象,称为跷跷板现象(seesaw phenomenon)。简单来说,跷跷板现象就是在对多个目标进行优化的过程中,一个任务指标的提升伴随着另外一些任务指标的下降。出现这种现象的主要原因是多个任务之间出现较多的共享,MMoE算法中也不能有效解决这样的一个问题。PLE(Progressive Layered Extraction)[2]模型在MMoE的基础上通过对共享的网络结构优化,在原先的共享部分,又增加了task-specific的部分,同时,为了增强网络的效果,构造了多层的网络结构。

2. 算法原理

2.1. Customized Gate Control

为解决上述提出的两个问题,参考[2]中首先提出了CGC(Customized Gate Control)网络。在CGC网络中,在共享专家网络的基础上,又针对特定的任务有特定的专家网络,以此增强每个任务的效果。CGC的网络结构如下图所示:

网络异常,图片无法展示
|

在CGC的网络结构中,其底层网络包括了shared experts和task-specific expert两个部分,且每一个expert部分都是由多个expert组成,上层针对每一个任务都有一个门控网络,且门控网络的输入是共享的experts和该任务对应的experts。由此可见,在CGC网络中,既包含了task-specific网络针对特定任务独有的信息,也包含了shared网络共享的信息,以上图为例,假设[E(k,1)T,E(k,2)T,⋯ ,E(k,mk)T]\left [ E_{\left ( k,1 \right )}^T,E_{\left ( k,2 \right )}^T,\cdots, E_{\left ( k,m_k \right )}^T \right ][E(k,1)T,E(k,2)T,,E(k,mk)T]为指定任务kkk对应的多个专家的输出,[E(s,1)T,E(s,2)T,⋯ ,E(s,ms)T]\left [ E_{\left ( s,1 \right )}^T,E_{\left ( s,2 \right )}^T,\cdots, E_{\left ( s,m_s \right )}^T \right ][E(s,1)T,E(s,2)T,,E(s,ms)T]为共享部分的多个专家的输出,这两个输出组合成上层门控网络的输入Sk(x)S^k\left ( x \right )Sk(x)

Sk(x)=[E(k,1)T,E(k,2)T,⋯ ,E(k,mk)T,E(s,1)T,E(s,2)T,⋯ ,E(s,ms)T]S^k\left ( x \right )=\left [ E_{\left ( k,1 \right )}^T,E_{\left ( k,2 \right )}^T,\cdots, E_{\left ( k,m_k \right )}^T, E_{\left ( s,1 \right )}^T,E_{\left ( s,2 \right )}^T,\cdots, E_{\left ( s,m_s \right )}^T \right ]Sk(x)=[E(k,1)T,E(k,2)T,,E(k,mk)T,E(s,1)T,E(s,2)T,,E(s,ms)T]

门控网络的计算输出gk(x)g^k\left ( x \right )gk(x)为:

gk(x)=wk(x)Sk(x)g^k\left ( x \right )=w^k\left ( x \right )S^k\left ( x \right )gk(x)=wk(x)Sk(x)

其中,wk(x)=Softmax(Wgkx)w^k\left ( x \right )=Softmax\left ( W_g^kx \right )wk(x)=Softmax(Wgkx),且Wgk∈R(mk+ms)×dW_g^k\in \mathbb{R}^{\left ( m_k+m_s \right )\times d}WgkR(mk+ms)×d

2.2. Progressive Layered Extraction

在深度学习中,为了使得模型能够具有更好的泛化能力,通常的方法是构建更深的网络。同样,为了能够得到更具有泛化能力的网络,可以将上述网络构建得更深,这便有了PLE结构。简单来说,PLE结构可以看做是CGC网络结构的扩展,由single-level的CGC衍生为multi-level的PLE。具体的PLE网络结构如下图所示:

网络异常,图片无法展示
|

与CGC网络相比,除了第一个Extraction Network的输入是原始的Input,其余的Extraction Network的输入是上一个Extraction Network的输出,即包含两个大的部分,即特定任务对应的专家网络输出,如上图中的Experts A和Experts B的输出,另外一个是共享专家网络的输出,如上图中的Experts Shared的输出。

2.3. 损失函数

在多任务重,其损失函数为各任务损失的加权求和,即为:

Lk(θ1,⋯ ,θK,θs)=∑k=1KωkLk(θk,θs)L_k\left ( \theta _1,\cdots ,\theta _K,\theta _s \right )=\sum_{k=1}^{K}\omega _kL_k\left ( \theta _k,\theta _s \right )Lk(θ1,,θK,θs)=k=1KωkLk(θk,θs)

其中,ωk\omega _kωk为第kkk个任务的权重,对于权重的设置,参考[2]中给出了如下的迭代公式:

ωk(t)=ωk,0×γkt\omega _k^{\left ( t \right )}=\omega _{k,0}\times \gamma _k^tωk(t)=ωk,0×γkt

其中,γk\gamma _kγk为更新率。对于任务kkk的损失函数Lk(θk,θs)L_k\left ( \theta _k,\theta _s \right )Lk(θk,θs),参考[2]中给出了如下的公式:

Lk(θk,θs)=1∑iδki∑iδki  lossk(y^ki(θk,θs),yki)L_k\left ( \theta _k,\theta _s \right )=\frac{1}{\sum_{i}\delta _k^i}\sum_{i}\delta _k^i\;loss_k\left ( \hat{y}_k^i\left ( \theta _k,\theta _s \right ),y_k^i \right )Lk(θk,θs)=iδki1iδkilossk(y^ki(θk,θs),yki)

因为存在不同任务上的样本空间不一致的问题,因此在特定的任务中计算损失函数时,选择在其空间上的样本,即对于δki\delta _k^iδki,其取值为000或者111,表示的是第iii个样本是否属于第kkk个任务的样本空间。

3. 总结

为了解决多任务模型中普遍存在的负迁移和跷跷板现象,在MMoE模型的基础上提出了CGC模型,在共享专家的基础上增加了针对特定任务的专家网络,可以针对特定任务学习到独有的网络部分,从而避免任务之间的相互影响,同时为了进一步提升整体网络的泛化效果,在CGC的基础上通过堆叠Extraction Network构造了更深的网络结构,进一步提升多任务模型的学习效果。

参考文献

[1] Ma J, Zhao Z, Yi X, et al. Modeling task relationships in multi-task learning with multi-gate mixture-of-experts[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018: 1930-1939.

[2] Tang H, Liu J, Zhao M, et al. Progressive layered extraction (ple): A novel multi-task learning (mtl) model for personalized recommendations[C]//Fourteenth ACM Conference on Recommender Systems. 2020: 269-278.

相关文章
|
6天前
|
算法
基于模糊控制算法的倒立摆控制系统simulink建模与仿真
本课题针对倒立摆模型,使用MATLAB2022a进行模糊控制器Simulink建模,通过调整小车推力控制摆角,实现系统的稳定。倒立摆作为非线性控制的经典案例,利用模糊控制策略提高了系统的鲁棒性和自适应性,确保了小车在特定位置的稳定停留。
|
11天前
|
机器学习/深度学习 人工智能 算法
【MM2024】面向 StableDiffusion 的多目标图像编辑算法 VICTORIA
阿里云人工智能平台 PAI 团队与华南理工大学合作在国际多媒体顶级会议 ACM MM2024 上发表 VICTORIA 算法,这是一种面向 StableDiffusion 的多目标图像编辑算法。VICTORIA 通过文本依存关系来修正图像编辑过程中的交叉注意力图,从而确保关系对象的一致性,支持用户通过修改描述性提示一次性编辑多个目标。
|
3月前
|
算法
基于MPPT最大功率跟踪算法的涡轮机控制系统simulink建模与仿真
**摘要:** 本课题构建了基于Simulink的涡轮机MPPT控制系统模型,采用爬山法追踪最大功率点,仿真展示MPPT控制效果、功率及转速变化。使用MATLAB2022a进行仿真,结果显示高效跟踪性能。MPPT算法确保系统在不同条件下的最优功率输出,通过调整涡轮参数如转速,匹配功率-转速曲线的峰值。该方法借鉴自光伏系统,适应涡轮机的变速操作。
|
24天前
|
算法 安全
分别使用OVP-UVP和OFP-UFP算法以及AFD检测算法实现反孤岛检测simulink建模与仿真
本课题通过Simulink建模与仿真,实现OVP-UVP、OFP-UFP算法及AFD检测算法的反孤岛检测。OVP-UVP基于电压幅值变化,OFP-UFP基于频率变化,而AFD则通过注入频率偏移信号来检测孤岛效应,确保电力系统安全稳定运行。系统使用MATLAB 2013b进行建模与仿真验证。
|
2月前
|
机器学习/深度学习 监控 算法
R-CNN系列目标算法
8月更文挑战第12天
|
3月前
|
传感器 算法
基于MPPT最大功率跟踪算法的风力机控制电路simulink建模与仿真
**摘要:** 本课题利用MATLAB2022a的Simulink进行风力机MPPT控制电路仿真,关注风力机转速、功率参数及CP效率。MPPT确保风力机在不同风速下优化运行,捕捉最大功率。风力机将风能转化为电能,功率与风速、叶片及发电机特性相关。MPPT算法动态调整参数以保持在最大功率点,常见算法如扰动观察法。仿真包含风速、转速、功率测量及控制算法模块,设计时需综合考虑传感器精度、抗干扰及控制器性能,适应不同风力机和发电机需求。
|
3月前
|
机器学习/深度学习 人工智能 分布式计算
算法金 | 最难的来了:超参数网格搜索、贝叶斯优化、遗传算法、模型特异化、Hyperopt、Optuna、多目标优化、异步并行优化
机器学习中的超参数调优是提升模型性能的关键步骤,包括网格搜索、随机搜索、贝叶斯优化和遗传算法等方法。网格搜索通过穷举所有可能的超参数组合找到最优,但计算成本高;随机搜索则在预设范围内随机采样,降低计算成本;贝叶斯优化使用代理模型智能选择超参数,效率高且适应性强;遗传算法模拟生物进化,全局搜索能力强。此外,还有多目标优化、异步并行优化等高级技术,以及Hyperopt、Optuna等优化库来提升调优效率。实践中,应结合模型类型、数据规模和计算资源选择合适的调优策略。
141 0
算法金 | 最难的来了:超参数网格搜索、贝叶斯优化、遗传算法、模型特异化、Hyperopt、Optuna、多目标优化、异步并行优化
|
4月前
|
算法
基于LQR控制算法的电磁减振控制系统simulink建模与仿真
该文主要介绍了基于LQR控制算法的电磁减振控制系统在MATLAB2022a中的Simulink建模与仿真。文章展示了系统仿真输出的控制器收敛曲线,并提供了相关图像来解释系统原理。LQR算法通过优化二次成本函数实现振动抑制,尤其适用于电磁减振系统,利用电磁执行机构动态调整力,高效抑制振动。文中附有关键模型和原理图。
|
4月前
|
算法 调度
【完全复现】基于改进粒子群算法的微电网多目标优化调度
该文档描述了一个使用改进粒子群算法实现的微电网多目标优化调度的Matlab程序。该模型旨在最小化运行成本和环境保护成本,将多目标问题通过权值转换为单目标问题解决。程序中定义了决策变量,如柴油发电机、微型燃气轮机、联络线和储能的输出,并使用全局变量处理电负荷、风力和光伏功率等数据。算法参数包括最大迭代次数和种群大小。代码调用了`PSOFUN`函数来执行优化计算,并展示了优化结果的图表。
|
5月前
|
算法
【优选算法】——Leetcode——LCR 179. 查找总价格为目标值的两个商品
【优选算法】——Leetcode——LCR 179. 查找总价格为目标值的两个商品

热门文章

最新文章