广告深度学习计算:召回算法和工程协同优化的若干经验(二)

简介: 广告深度学习计算:召回算法和工程协同优化的若干经验(二)

▐ 路径二:索引扁平化模型


1. 模型结构介绍



此模型将原本 TDM 模型中十余层的二叉树索引压缩到了三四层,第一层展开为数千节点,之后每一层按照十几的度展开。我们从第二层开始进行 beam search ,总共经过若干轮模型打分以及 TopK 的筛选,每次模型打分的数量在数万,如图所示。


08798b42545a5e20d655f50fd6aa68d0.png


相比于 TDM 模型,打分轮数减少了23倍,而每轮打分的广告数扩充了46倍。为了拿到更精准的打分结果,算法上在原来 TDM 的打分模型 DNN 的基础上引入了用户的序列特征与广告特征交叉进行 multi-head attention 的计算。这种结构在广告系统上用的相当广泛,如精排的 DIEN 模型中就有应用[3]。这里的挑战主要有两个,一是如何在TF里用表示树型索引的结构并在这种表示上高效的进行beam search所需的操作;二是高达数万的广告候选集的大小会在乘法效应的作用下影响所有的算子,如何管控它带来的计算资源(尤其是访存)的膨胀。


2. 树索引的设计



排他索引


由于广告的索引是一棵完全树的结构,同时从在线推理的角度看,它并不会变化,因此是一个 const。因此,我们设计了一个高效的完全数树(complete tree)结构的表示,节省空间的同时还能实现高效的子节点的查找。将一棵树的节点按层序遍历编号,然后从0号节点开始,在一个数组中依次记录下每个节点的子节点编号中最小的那个,直到叶子节点为止,最后再在数组末尾加上整棵树的节点个数。这样一来,对于一棵树的表示 {a0, a1, a2, a3 …},整数区间[ai,ai+1) 就表示编号为i的节点的子节点编号。在这种表示下,查找一个节点的子节点的时间复杂度为O(1)。例子:下图中的树就能表示成:{1, 5, 8, 10, 11, 13},节点1的子节点就是区间 [5, 8)={5, 6, 7}。


12545451f6f7739e2078fb8ba5c58d30.png


非排他索引:ragged tensor


上述数据结构只能表达树的结构,也就是排他的索引:每两个聚类之间不能存在交集。如果算法上放宽这条限制,索引结构就会变成图,上述的数据结构就无能为力了。这种情况下,我们可以使用TF原生的 ragged tensor 来表示这个索引,即第i行表示第i个节点的子节点序号。在这种表示下,对子节点的查找可以通过 gather+flat+unique 来进行。这样做的效率会低于上一节中的数据结构,但由于索引计算的占比不大,性能差异尚可以接受。


3. 访存优化



在优化的过程中,我们发现主要瓶颈都集中在显存带宽上。此模型对显存带宽的占用达到90%以上,触及天花板。为了减少访存带宽,我们运用了下面三种图优化的手段,通过数学上的等价变换,尽可能减少中间结果大小。


交换 broadcast 与 transpose


a5feb202282c279f7c964cdd8e01c37b.png


这样 elementwise multiply + transpose 的结构出现在 attention 中,这里的 elementwise multiply 包含一个隐式的 broadcast,使得之后的 transpose 所要移动的内存量增加了L倍。这里我们可以交换这两个op的位置,先做 transpose,这样可以避免隐式 broadcast 带来的内存膨胀的问题。


核函数近似与交换矩阵乘顺序


31571d4262544974b9363046f41a7093.png


一般来说,对于 linear 或者 elementwise 的op,我们会比较容易做数学上的变换从而进行各方面优化。注意到 attention 中存在 softmax(AB) 的结构,它是一个核函数,可以表示成内积形式。因此我们将原本的 softmax(AB)*C 近似替换成了f(A)*f(B)C[4]。由于这里A矩阵较大的,而B和C矩阵较小,我们可以根据矩阵乘的结合律按照 f(A)(f(B)*C) 的顺序计算,从而保证中间结果也维持在了较小的规模。


拆分 tile+concat+matmul


5b64820e77437117bf4dceeeb85827e2.png


DNN 第一层的 matmul 是整个模型中最大的op,它是输入是由两个两部 concat 而来的。第一部分的 batchsize 是1,而第二部分的 batchsize 高达数万,而在 concat 前会将前者复制多份(tile操作),从而使其 batchsize 与后者保持一致。观察到 tile,concat,matmul 都是线性操作,因此可以将这个过程进行线性变换,将两个部分分开计算后再合并,这样就避免了第一部分的复制操作,节省了大量的计算和内存资源。


4. Beam Search 宽度的调节



由于访存的消耗都与打分量成正比,最直接有效进行优化的方式就是控制打分量,也就是 beam search 的宽度。最终选出的广告只有数百个,而目前 beam search 的宽度在数万的级别,相当于只选出了前几十分之一。考虑到缩小打分量可能会影响召回的效果,所以我们考察了召回率随之变化的情况,如下表。可见即使将宽度缩小一半(表上从15W缩减到7.5W),召回率也不会相差太多。


5dae630e2df2e67d16844f66d7b097c.png


在我们的架构设计中,beam search 宽度可以由上游请求中的参数决定(作为模型输入传进来),这样业务可以实时对效果和水位进行调整 tradeoff。这相当于提供了无需替换模型就进行降级的能力。


▐ 总结



本文详细介绍了我们是如何解决召回新模型上线过程中的工程问题的。这离不开与算法同学的通力合作。其中很多问题都需要工程和算法的协同优化:比如 TopK 的筛选对区分度的需求需要量化算法来保证;再比如索引扁平化模型中 att 结构的选择和需要从效果和计算资源两方面进行考量的。


我们认为相比于解决上述问题的具体方法,如何得到这些方法的思路更为重要。还是拿TopK和索引扁平化模型来举例子,TopK 的优化中通过预筛选来降低问题规模的思路,和全库模型中通过数学上的等价变换来进行计算优化的思路,在许多优化问题上都能应用。希望本文的读者能从这些思路中有所收获。


引用



[1] Zhu, Han, et al. “Learning tree-based deep model for recommender systems.” Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018.


[2] Johnson, Jeff, Matthijs Douze, and Hervé Jégou. “Billion-scale similarity search with gpus.” IEEE Transactions on Big Data (2019).


[3] Zhou, Guorui, et al. “Deep interest network for click-through rate prediction.” Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018.


[4] Choromanski, Krzysztof, et al. “Rethinking attention with performers.” arXiv preprint arXiv:2009.14794 (2020).


相关文章
|
4天前
|
机器学习/深度学习 存储 算法
近端策略优化(PPO)算法的理论基础与PyTorch代码详解
近端策略优化(PPO)是深度强化学习中高效的策略优化方法,广泛应用于大语言模型的RLHF训练。PPO通过引入策略更新约束机制,平衡了更新幅度,提升了训练稳定性。其核心思想是在优势演员-评论家方法的基础上,采用裁剪和非裁剪项组成的替代目标函数,限制策略比率在[1-ϵ, 1+ϵ]区间内,防止过大的策略更新。本文详细探讨了PPO的基本原理、损失函数设计及PyTorch实现流程,提供了完整的代码示例。
106 10
近端策略优化(PPO)算法的理论基础与PyTorch代码详解
|
1月前
|
算法 数据可视化 安全
基于DWA优化算法的机器人路径规划matlab仿真
本项目基于DWA优化算法实现机器人路径规划的MATLAB仿真,适用于动态环境下的自主导航。使用MATLAB2022A版本运行,展示路径规划和预测结果。核心代码通过散点图和轨迹图可视化路径点及预测路径。DWA算法通过定义速度空间、采样候选动作并评估其优劣(目标方向性、障碍物距离、速度一致性),实时调整机器人运动参数,确保安全避障并接近目标。
147 68
|
3天前
|
传感器 算法 物联网
基于粒子群算法的网络最优节点部署优化matlab仿真
本项目基于粒子群优化(PSO)算法,实现WSN网络节点的最优部署,以最大化节点覆盖范围。使用MATLAB2022A进行开发与测试,展示了优化后的节点分布及其覆盖范围。核心代码通过定义目标函数和约束条件,利用PSO算法迭代搜索最佳节点位置,并绘制优化结果图。PSO算法灵感源于鸟群觅食行为,适用于连续和离散空间的优化问题,在通信网络、物联网等领域有广泛应用。该算法通过模拟粒子群体智慧,高效逼近最优解,提升网络性能。
|
3天前
|
机器学习/深度学习 数据采集 算法
基于GWO灰狼优化的CNN-GRU-SAM网络时间序列回归预测算法matlab仿真
本项目基于MATLAB2022a,展示了时间序列预测算法的运行效果(无水印)。核心程序包含详细中文注释和操作视频。算法采用CNN-GRU-SAM网络,结合灰狼优化(GWO),通过卷积层提取局部特征、GRU处理长期依赖、自注意力机制捕捉全局特征,最终实现复杂非线性时间序列的高效预测。
|
1天前
|
算法
基于SOA海鸥优化算法的三维曲面最高点搜索matlab仿真
本程序基于海鸥优化算法(SOA)进行三维曲面最高点搜索的MATLAB仿真,输出收敛曲线和搜索结果。使用MATLAB2022A版本运行,核心代码实现种群初始化、适应度计算、交叉变异等操作。SOA模拟海鸥觅食行为,通过搜索飞行、跟随飞行和掠食飞行三种策略高效探索解空间,找到全局最优解。
|
26天前
|
机器学习/深度学习 运维 安全
深度学习在安全事件检测中的应用:守护数字世界的利器
深度学习在安全事件检测中的应用:守护数字世界的利器
72 22
|
2月前
|
机器学习/深度学习 传感器 数据采集
深度学习在故障检测中的应用:从理论到实践
深度学习在故障检测中的应用:从理论到实践
204 6
|
5天前
|
机器学习/深度学习 人工智能 运维
深度学习在流量监控中的革命性应用
深度学习在流量监控中的革命性应用
67 40
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习的原理与应用:开启智能时代的大门
深度学习的原理与应用:开启智能时代的大门
202 16
|
2月前
|
机器学习/深度学习 网络架构 计算机视觉
深度学习在图像识别中的应用与挑战
【10月更文挑战第21天】 本文探讨了深度学习技术在图像识别领域的应用,并分析了当前面临的主要挑战。通过研究卷积神经网络(CNN)的结构和原理,本文展示了深度学习如何提高图像识别的准确性和效率。同时,本文也讨论了数据不平衡、过拟合、计算资源限制等问题,并提出了相应的解决策略。
109 19