多目标建模算法PLE

简介: 本文用于介绍PLE算法

概述

在现如今的推荐系统或者搜索中,都存在多个目标,多目标的算法在现如今的系统中已然成为了标配。在多目标的建模过程中,如果不同的学习任务之间较为相关时,多个任务之间可以共享一部分的信息,这样最终能够提升整体的模型学习效果。但是如果多个任务之间的相关性并不强,或者说多个任务之间存在某种冲突,这样通过部分的共享就会起到事与愿违的效果,这便是通常所说的在多任务建模中出现的负迁移(negative transfer)现象,即在相关性不强或者无相关性的多任务环境下进行信息共享,最终影响整体的网络效果,MMoE[1]便是在这样的情况下被提出。在MMoE中,通过共享多个专家(expert)实现信息的共享,同时针对每一个上层任务(task)都有对应的门控函数(gate),学习到多个专家对于特定任务的贡献程度,即专家的分布。以此,实现了对任务之间的关联和区别的学习。

然而,在多任务建模过程中,还存在另外一种现象,称为跷跷板现象(seesaw phenomenon)。简单来说,跷跷板现象就是在对多个目标进行优化的过程中,一个任务指标的提升伴随着另外一些任务指标的下降。出现这种现象的主要原因是多个任务之间出现较多的共享,MMoE算法中也不能有效解决这样的一个问题。PLE(Progressive Layered Extraction)[2]模型在MMoE的基础上通过对共享的网络结构优化,在原先的共享部分,又增加了task-specific的部分,同时,为了增强网络的效果,构造了多层的网络结构。

2. 算法原理

2.1. Customized Gate Control

为解决上述提出的两个问题,参考[2]中首先提出了CGC(Customized Gate Control)网络。在CGC网络中,在共享专家网络的基础上,又针对特定的任务有特定的专家网络,以此增强每个任务的效果。CGC的网络结构如下图所示:

网络异常,图片无法展示
|

在CGC的网络结构中,其底层网络包括了shared experts和task-specific expert两个部分,且每一个expert部分都是由多个expert组成,上层针对每一个任务都有一个门控网络,且门控网络的输入是共享的experts和该任务对应的experts。由此可见,在CGC网络中,既包含了task-specific网络针对特定任务独有的信息,也包含了shared网络共享的信息,以上图为例,假设[E(k,1)T,E(k,2)T,⋯ ,E(k,mk)T]\left [ E_{\left ( k,1 \right )}^T,E_{\left ( k,2 \right )}^T,\cdots, E_{\left ( k,m_k \right )}^T \right ][E(k,1)T,E(k,2)T,,E(k,mk)T]为指定任务kkk对应的多个专家的输出,[E(s,1)T,E(s,2)T,⋯ ,E(s,ms)T]\left [ E_{\left ( s,1 \right )}^T,E_{\left ( s,2 \right )}^T,\cdots, E_{\left ( s,m_s \right )}^T \right ][E(s,1)T,E(s,2)T,,E(s,ms)T]为共享部分的多个专家的输出,这两个输出组合成上层门控网络的输入Sk(x)S^k\left ( x \right )Sk(x)

Sk(x)=[E(k,1)T,E(k,2)T,⋯ ,E(k,mk)T,E(s,1)T,E(s,2)T,⋯ ,E(s,ms)T]S^k\left ( x \right )=\left [ E_{\left ( k,1 \right )}^T,E_{\left ( k,2 \right )}^T,\cdots, E_{\left ( k,m_k \right )}^T, E_{\left ( s,1 \right )}^T,E_{\left ( s,2 \right )}^T,\cdots, E_{\left ( s,m_s \right )}^T \right ]Sk(x)=[E(k,1)T,E(k,2)T,,E(k,mk)T,E(s,1)T,E(s,2)T,,E(s,ms)T]

门控网络的计算输出gk(x)g^k\left ( x \right )gk(x)为:

gk(x)=wk(x)Sk(x)g^k\left ( x \right )=w^k\left ( x \right )S^k\left ( x \right )gk(x)=wk(x)Sk(x)

其中,wk(x)=Softmax(Wgkx)w^k\left ( x \right )=Softmax\left ( W_g^kx \right )wk(x)=Softmax(Wgkx),且Wgk∈R(mk+ms)×dW_g^k\in \mathbb{R}^{\left ( m_k+m_s \right )\times d}WgkR(mk+ms)×d

2.2. Progressive Layered Extraction

在深度学习中,为了使得模型能够具有更好的泛化能力,通常的方法是构建更深的网络。同样,为了能够得到更具有泛化能力的网络,可以将上述网络构建得更深,这便有了PLE结构。简单来说,PLE结构可以看做是CGC网络结构的扩展,由single-level的CGC衍生为multi-level的PLE。具体的PLE网络结构如下图所示:

网络异常,图片无法展示
|

与CGC网络相比,除了第一个Extraction Network的输入是原始的Input,其余的Extraction Network的输入是上一个Extraction Network的输出,即包含两个大的部分,即特定任务对应的专家网络输出,如上图中的Experts A和Experts B的输出,另外一个是共享专家网络的输出,如上图中的Experts Shared的输出。

2.3. 损失函数

在多任务重,其损失函数为各任务损失的加权求和,即为:

Lk(θ1,⋯ ,θK,θs)=∑k=1KωkLk(θk,θs)L_k\left ( \theta _1,\cdots ,\theta _K,\theta _s \right )=\sum_{k=1}^{K}\omega _kL_k\left ( \theta _k,\theta _s \right )Lk(θ1,,θK,θs)=k=1KωkLk(θk,θs)

其中,ωk\omega _kωk为第kkk个任务的权重,对于权重的设置,参考[2]中给出了如下的迭代公式:

ωk(t)=ωk,0×γkt\omega _k^{\left ( t \right )}=\omega _{k,0}\times \gamma _k^tωk(t)=ωk,0×γkt

其中,γk\gamma _kγk为更新率。对于任务kkk的损失函数Lk(θk,θs)L_k\left ( \theta _k,\theta _s \right )Lk(θk,θs),参考[2]中给出了如下的公式:

Lk(θk,θs)=1∑iδki∑iδki  lossk(y^ki(θk,θs),yki)L_k\left ( \theta _k,\theta _s \right )=\frac{1}{\sum_{i}\delta _k^i}\sum_{i}\delta _k^i\;loss_k\left ( \hat{y}_k^i\left ( \theta _k,\theta _s \right ),y_k^i \right )Lk(θk,θs)=iδki1iδkilossk(y^ki(θk,θs),yki)

因为存在不同任务上的样本空间不一致的问题,因此在特定的任务中计算损失函数时,选择在其空间上的样本,即对于δki\delta _k^iδki,其取值为000或者111,表示的是第iii个样本是否属于第kkk个任务的样本空间。

3. 总结

为了解决多任务模型中普遍存在的负迁移和跷跷板现象,在MMoE模型的基础上提出了CGC模型,在共享专家的基础上增加了针对特定任务的专家网络,可以针对特定任务学习到独有的网络部分,从而避免任务之间的相互影响,同时为了进一步提升整体网络的泛化效果,在CGC的基础上通过堆叠Extraction Network构造了更深的网络结构,进一步提升多任务模型的学习效果。

参考文献

[1] Ma J, Zhao Z, Yi X, et al. Modeling task relationships in multi-task learning with multi-gate mixture-of-experts[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018: 1930-1939.

[2] Tang H, Liu J, Zhao M, et al. Progressive layered extraction (ple): A novel multi-task learning (mtl) model for personalized recommendations[C]//Fourteenth ACM Conference on Recommender Systems. 2020: 269-278.

相关文章
|
14天前
|
算法
基于模糊PI控制算法的龙格库塔CSTR模型控制系统simulink建模与仿真
本项目基于MATLAB2022a,采用模糊PI控制算法结合龙格-库塔方法,对CSTR模型进行Simulink建模与仿真。通过模糊控制处理误差及变化率,实现精确控制。核心在于将模糊逻辑与经典数值方法融合,提升系统性能。
|
23天前
|
算法
基于GA遗传算法的PID控制器参数优化matlab建模与仿真
本项目基于遗传算法(GA)优化PID控制器参数,通过空间状态方程构建控制对象,自定义GA的选择、交叉、变异过程,以提高PID控制性能。与使用通用GA工具箱相比,此方法更灵活、针对性强。MATLAB2022A环境下测试,展示了GA优化前后PID控制效果的显著差异。核心代码实现了遗传算法的迭代优化过程,最终通过适应度函数评估并选择了最优PID参数,显著提升了系统响应速度和稳定性。
|
5月前
|
算法
基于MPPT最大功率跟踪算法的涡轮机控制系统simulink建模与仿真
**摘要:** 本课题构建了基于Simulink的涡轮机MPPT控制系统模型,采用爬山法追踪最大功率点,仿真展示MPPT控制效果、功率及转速变化。使用MATLAB2022a进行仿真,结果显示高效跟踪性能。MPPT算法确保系统在不同条件下的最优功率输出,通过调整涡轮参数如转速,匹配功率-转速曲线的峰值。该方法借鉴自光伏系统,适应涡轮机的变速操作。
|
2月前
|
算法
基于模糊控制算法的倒立摆控制系统simulink建模与仿真
本课题针对倒立摆模型,使用MATLAB2022a进行模糊控制器Simulink建模,通过调整小车推力控制摆角,实现系统的稳定。倒立摆作为非线性控制的经典案例,利用模糊控制策略提高了系统的鲁棒性和自适应性,确保了小车在特定位置的稳定停留。
|
2月前
|
机器学习/深度学习 人工智能 算法
【MM2024】面向 StableDiffusion 的多目标图像编辑算法 VICTORIA
阿里云人工智能平台 PAI 团队与华南理工大学合作在国际多媒体顶级会议 ACM MM2024 上发表 VICTORIA 算法,这是一种面向 StableDiffusion 的多目标图像编辑算法。VICTORIA 通过文本依存关系来修正图像编辑过程中的交叉注意力图,从而确保关系对象的一致性,支持用户通过修改描述性提示一次性编辑多个目标。
|
2月前
|
算法 安全
分别使用OVP-UVP和OFP-UFP算法以及AFD检测算法实现反孤岛检测simulink建模与仿真
本课题通过Simulink建模与仿真,实现OVP-UVP、OFP-UFP算法及AFD检测算法的反孤岛检测。OVP-UVP基于电压幅值变化,OFP-UFP基于频率变化,而AFD则通过注入频率偏移信号来检测孤岛效应,确保电力系统安全稳定运行。系统使用MATLAB 2013b进行建模与仿真验证。
|
4月前
|
机器学习/深度学习 监控 算法
R-CNN系列目标算法
8月更文挑战第12天
|
5月前
|
传感器 算法
基于MPPT最大功率跟踪算法的风力机控制电路simulink建模与仿真
**摘要:** 本课题利用MATLAB2022a的Simulink进行风力机MPPT控制电路仿真,关注风力机转速、功率参数及CP效率。MPPT确保风力机在不同风速下优化运行,捕捉最大功率。风力机将风能转化为电能,功率与风速、叶片及发电机特性相关。MPPT算法动态调整参数以保持在最大功率点,常见算法如扰动观察法。仿真包含风速、转速、功率测量及控制算法模块,设计时需综合考虑传感器精度、抗干扰及控制器性能,适应不同风力机和发电机需求。
|
5月前
|
机器学习/深度学习 人工智能 分布式计算
算法金 | 最难的来了:超参数网格搜索、贝叶斯优化、遗传算法、模型特异化、Hyperopt、Optuna、多目标优化、异步并行优化
机器学习中的超参数调优是提升模型性能的关键步骤,包括网格搜索、随机搜索、贝叶斯优化和遗传算法等方法。网格搜索通过穷举所有可能的超参数组合找到最优,但计算成本高;随机搜索则在预设范围内随机采样,降低计算成本;贝叶斯优化使用代理模型智能选择超参数,效率高且适应性强;遗传算法模拟生物进化,全局搜索能力强。此外,还有多目标优化、异步并行优化等高级技术,以及Hyperopt、Optuna等优化库来提升调优效率。实践中,应结合模型类型、数据规模和计算资源选择合适的调优策略。
227 0
算法金 | 最难的来了:超参数网格搜索、贝叶斯优化、遗传算法、模型特异化、Hyperopt、Optuna、多目标优化、异步并行优化
|
6月前
|
算法
基于LQR控制算法的电磁减振控制系统simulink建模与仿真
该文主要介绍了基于LQR控制算法的电磁减振控制系统在MATLAB2022a中的Simulink建模与仿真。文章展示了系统仿真输出的控制器收敛曲线,并提供了相关图像来解释系统原理。LQR算法通过优化二次成本函数实现振动抑制,尤其适用于电磁减振系统,利用电磁执行机构动态调整力,高效抑制振动。文中附有关键模型和原理图。