专家选择的可视化
我们可视化了支付宝数据集中,场景 / 任务的 specific/share 组的专家利用率,即 gate 激活程度。为了简单起见,每个层(即通道、域和任务)都包含两层专家选择层。
特定专家集和共享专家集都配置为仅选择一位专家 (topk=1)。下图显示,在 channel 级别,共享同一类型通道的场景具有更相似的分布。这表明我们的模型可以动态地模拟复杂的共享信息和场景之间的差异。相比之下,PLE 以静态方式定义特定 / 共享专家。在任务层面,我们观察每项任务,几乎在特定 / 共享组中选择一位专家,这意味着我们的模型也可以收敛到 PLE 设置。
这些观察结果表明,AESM^2 是一种更通用的模型,可以适应不同场景 / 任务的不同结构。
图 9:不同层级专家的被选择概率可视化对比
AESM 自动专家选择的讨论
为了定性的讨论这个问题,就需要先思考多场景和多任务问题的本质区别是什么?
多场景和多任务,都属于多目标问题的一个子集。笔者认为,多场景问题本质上要求泛化性,帕累托最优中的资源是模型参数的归属,任何一个事件(如点击和转化),不可能在两个场景同时发生;而多任务问题恰恰相反,帕累托最优的资源约束,主要是参数权重本身,是梯度冲突导致的参数更新方向的冲突,但并不特别强调泛化性:通常模型参数量越大,帕累托前沿越向前,但却会损伤泛化性,这一点可通过下图的实验证明,来自文献 [13]。
参数量会显著地影响多任务模型的泛化性和效率。因此要想同时解决多场景多任务,就必须平衡效率(帕累托前沿)和泛化性,它们是天然冲突的。解决这一问题最直观的思路,是通过 bottleneck 网络结构,在靠近输出层增加模型参数,提升帕累托前沿;而在底层施加稀疏性约束,使得底层提升泛化性。
值得指出,如果只是解决多任务优化问题,会有很多方法可以做到。但 AESM 方法却通过相当简单的方式,通过施加噪声和稀疏化,在类似 MMOE 的框架下,实现了类似 bottleneck 和 dropout 的思路来实现专家选择,让参数尽量在底层而不是上层实现共享,进而一定程度上平衡了多场景和多任务分别要求的泛化性和帕累托前沿的问题。
五、业务效果和在线实验
线上推全实验
我们在 2022 年 1 月底开始,与四个场景的线上基线(基于行为序列的 DIN+ESMM) 进行了两周的在线 A/B。效果显著优于其他所有场景,并进行了推全。
以下是在各个场景各自的提升(其中在主搜热门基金和主搜基金产品观察到 darwin 实验的置信提升):
以下是所有场景汇总后,实验桶相比基准桶整体的提升:
线上消融实验
尽管我们做了扎实的离线消融实验。但与强 baseline,如双层 PLE 等方法进行线上 AB 对比,则更能反映算法和系统的真实性能。
为验证 AESM 模型有效性, 我们在主搜、垂搜的热门基金和基金产品四个场景分别设计如下四组实验:
通过实验我们发现,对基金搜索所有的曝光点击行为数据来看,AESM 分桶在 UVCTR, CTCVR 和 UV_CTCVR 三个指标上相比其他基线有显著提升。其中关键指标 CTCVR,相比统一训练 + 单层 PLE 提升 4.7%。
以 CTCVR 为 KPI,拆解到不同场景的的效果对比。垂搜基金产品作为主力场景,其他场景为其带来的优势微乎其微,但是它可以较强地为其他稀疏场景提供迁移效果,具体见下图:
我们将以上数据绘制到下图中,可更明确地体现 AESM 的优势:
图 10:通过线上消融实验,与其他方法的效果对比
六、总结和后续改进
目前 AESM 已经在数金搜索的基金主场景进行了全流量部署。这可能是第一个在统一框架内,同时解决 MSL 和 MTL 问题的方法,并具有以下优点:
- 大大降低复杂场景间的负迁移现象,以实现最优的信息共享。实际业务中,很多场景可以组织为层次结构,对其进行层叠式的建模,可进一步提高性能,并显著降低计算成本。
- 通过噪音探索,稀疏化专家选择和集中性约束的机制,实现了自动提取场景 / 任务 specific 和 share 样本级专家选择算 法。具体的,基于 multi-gate 混合专家的稀疏化结构,实现自适应结构学习,并设计了辅助损失函数来指导训练过程。
值得指出,AESM 后续有一些值得继续探索的方向。
- AESM 通过噪音提升探索空间,但噪音强度作为超参难以选择,应探索和实验更稳健和鲁棒的专家探索方式。
- 当需要增加场景 / 任务时,之前模型需要重新设计和训练。如何优化 AESM,使得其能够进一步适应动态和异构的场景任务结构,并更好的解决冷启动问题,将会是一个有挑战的问题。
- 我们在横向专家层面做了自动专家选择,但在纵向(深度)上也存在自动专家选择的可能性必要性:自动残差网络,将会是一个令人兴奋的方向。
AESM 和谷歌最新的 MOE 架构 Pathways 有一些相似性,能帮助我们实现更多异构任务的统一训练和优化。后续我们会积极地探索新的改进计划。欢迎业界同仁共同讨论。
七、参考文献
[1] Rich Caruana. 1997. Multitask learning. Machine learning 28, 1 (1997), 41–75.[2] Yuting Chen, Yanshi Wang, Yabo Ni, An-Xiang Zeng, and Lanfen Lin. 2020.Scenario-aware and Mutual-based approach for Multi-scenario Recommendationin E-Commerce. In Proceedings of the International Conference on Data Mining Workshops (ICDMW). IEEE, 127–135.[3] Yulong Gu, Wentian Bao, Dan Ou, Xiang Li, Baoliang Cui, Biyu Ma, Haikuan Huang, Qingwen Liu, and Xiaoyi Zeng. 2021. Self-Supervised Learning on Users’ Spontaneous Behaviors for Multi-Scenario Ranking in E-commerce. In Proceedings of the 30th ACM International Conference on Information & Knowledge Management. 3828–3837.[4] Sepp Hochreiter and Jürgen Schmidhuber. 1997. Long short-term memory. Neural computation 9, 8 (1997), 1735–1780.[5] Robert A Jacobs, Michael I Jordan, Steven J Nowlan, and Geoffrey E Hinton. 1991.Adaptive mixtures of local experts. Neural computation 3, 1 (1991), 79–87.[6] Diederik P Kingma and Jimmy Ba. 2014. Adam: A method for stochastic optimization.arXiv preprint arXiv:1412.6980 (2014).[7] Wouter Kool, Chris J Maddison, and Andriy Mnih. 2021. Unbiased Gradient Estimation with Balanced Assignments for Mixtures of Experts. arXiv preprint arXiv:2109.11817 (2021).[8] Pengcheng Li, Runze Li, Qing Da, An-Xiang Zeng, and Lijun Zhang. 2020. Improving Multi-Scenario Learning to Rank in E-commerce by Exploiting Task Relationships in the Label Space. In Proceedings of the 29th ACM International Conference on Information & Knowledge Management. 2605–2612.[9] Ting Liang, Guanxiong Zeng, Qiwei Zhong, Jianfeng Chi, Jinghua Feng, Xiang Ao, and Jiayu Tang. 2021. Credit Risk and Limits Forecasting in E-Commerce Consumer Lending Service via Multi-view-aware Mixture-of-experts Nets. In Proceedings of the 14th ACM International Conference on Web Search and Data Mining. 229–237.[10] Jiaqi Ma, Zhe Zhao, Jilin Chen, Ang Li, Lichan Hong, and Ed H Chi. 2019. Snr: Sub-network routing for flexible parameter sharing in multi-task learning. In Proceedings of the AAAI Conference on Artificial Intelligence, Vol. 33. 216–223.[11] Jiaqi Ma, Zhe Zhao, Xinyang Yi, Jilin Chen, Lichan Hong, and Ed H Chi. 2018.Modeling task relationships in multi-task learning with multi-gate mixture-ofexperts.In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 1930–1939.[12] Xiao Ma, Liqin Zhao, Guan Huang, ZhiWang, Zelin Hu, Xiaoqiang Zhu, and Kun Gai. 2018. Entire space multi-task model: An effective approach for estimating post-click conversion rate. In Proceedings of the 41st International ACM SIGIR Conference on Research & Development in Information Retrieval. 1137–1140.[13] Yuyan Wang, Zhe Zhao, Bo Dai, Christopher Fifty, Dong Lin, Lichan Hong, Ed H. Chi. Small Towers Make Big Differences