广告深度学习计算:召回算法和工程协同优化的若干经验(一)

简介: 广告深度学习计算:召回算法和工程协同优化的若干经验(一)

▐ 背景



阿里妈妈展示广告召回大多采用 Tree-based Deep Model(以下简称TDM)模型,它通过对候选广告的聚类,构造了深达十余层的二叉树索引,并使用 beam search 在此索引上进行检索[1]。由于线上服务的 latency 约束及当时的硬件算力限制使我们不能直接对整个候选集(百万甚至千万量级)进行模型打分。


随着近几年硬件(GPU & ASIC)的发展,我们在模型上的计算能力有了很大提升。于是,算法同学从扩大打分量和提升模型复杂度的两个方向对目前的模型进行了升级。第一个方向是进行全库打分,即抛弃索引结构,用相对简单的双塔模型一次性给所有广告打分;第二个方向诞生了索引扁平化项目,保留树结构索引的同时将其扁平化,减少 beam search 的深度并增加宽度,同时引入 attention 计算,增加了打分模型的复杂度。


这些给工程优化提出了很高的要求,也带来很大挑战。首先,模型大小和计算量的暴增,使得打分的广告数成倍增长,模型的复杂度也大大增加,例如索引扁平化模型中,单次打分消耗的浮点计算次数(FLOPs)就要比原 TDM 模型增长约十余倍。其次,模型中引入了一些非典型的非数值计算(比如TopK和beam search),这些计算如果只使用TensorFlow原生算子会带来性能热点,使 latency 过长(数十上百毫秒)无法满足线上服务的要求。


本文主要分享我们是如何通过系统和算法的协同设计,逐一解决这两个模型在上线过程中的工程难点,为广告召回业务迭代打开新的空间。


▐ 路径一: 全库模型


1. 模型结构介绍



由于每一次用户 page view 模型计算需要处理所有的广告,对于在线系统来说打分量过于巨大(百万至千万量级),只能采用相对简单的模型结构,这里我们选用了经典的双塔模型结构:用户特征和广告特征分别经过DNN得到特征向量,用这两个向量的内积表示匹配程度,并由TopK从中选出最大的那部分。由于广告特征都是固定的,所以广告所在那一路的 DNN 可以在离线提前算完,线上模型直接拿到所有广告的向量作为常量模型参数。如下图所示。


45f4fd82340df091fdc808103cb933c8.png


此模型最大的性能挑战来自于 TopK。由于规模达到了数百万,如使用 TF 原生 TopK 算子,其实现并不适合我们的数据特点,latency 将高达数十 ms,不满足线上服务的要求。第二个挑战来自于内积,它是全模型计算量和访存量最大的部分,对于它的处理也相当重要。


2. 对于 TopK 的优化



总体思路


首先,我们调研了 TF 的原生 TopK 算子(即tf.math.topk())的 GPU 实现。它是由若干 RadixSort 组成,其时间复杂度也的确与输入规模n成线性,如下表所示。


d35e307f6759f5893529480d4c905ea.png


观察到在我们问题中 k(500or1000) 是远远小于 n(100W-1000W) 的,可以设定一个阈值,并通过筛选的方式过滤掉大部分数据来减少计算量。例如,我们可以选取千分之一的分位数过滤,这样就相当于将问题规模缩减了1000倍。此筛选操作主要是一个 elementwise 比较加很小规模数据的搬运,在GPU上并行会非常快(在1000W的规模上也不会超过1ms),而这个分位数可以通过采样+排序来进行粗略的估计。虽然这一过程会带来一定的 overhead,但相比于其带来的收益,此 overhead 可以说微乎其微。


筛选算法


对于数据采样的数量,既不能太多,也不能太少。太多会给排序带来很大的 overhead;太少则分位数粒度太粗且不准。通常,我们选取的采样数会在满足分位精度条件的基础上尽可能小,同时要求采样数大于等于k,原因如下:


我们选作阈值的分位数是估计出来的,并不是准确值,所以可能存在经过此阈值筛选出的个数实际上小于k,从而导致后续 TopK 出错。当这种 badcase 出现时,我们的做法是不断选取下一个分位数(即经排序的样本的下一个)再进行筛选,直到筛选出的个数大于等于k。为保证此循环能够正确的结束,我们需要保证样本个数s大于等于k。这样,只要当阈值取到第k个之后,就能保证一定有足够的数被筛选出来(即前k个样本)。


同样,为了降低这一 badcase 出现的概率,我们可以适当放宽此阈值。在实践中,我们的做法是将阈值的分位数放宽到了 k/n 的两倍,即选取第 2_ceil(k/n_s)+1 大的样本作为阈值。根据 order statistics,第k个的样本的概率分布满足如下公式:


17e7e95c79ed8818092338a453259973.png


下图显示了均匀分布上的1000个样本,1倍分位阈值(第二大样本)和2倍分位阈值(第三大样本)筛选出来的个数的分布情况。左图为概率密度函数 PDF,右图为累积分布函数 CDF。横坐标是筛出的比例,即筛选出的个数除以n。可计算出在 k=1000,n=1000W 的情况下,即横坐标为 k/n=0.0001 时,此方法能将badcase发生概率降低30倍。


24cfd29aa5b6531e8c79f173c4f2a2e8.png


与原生TopK性能对比


我们通过TF原生op搭建了一个子图,它不依赖任何 custom op 的实现,并且能在 GPU 上高效的运行。为了匹配 TF 原生的 TopK 算子的语义,我们通过 tf.while() 实现了对高维输入的支持。


下图显示了 batchsize=8 的不同尺寸下,原生 TF 实现和我们的优化算法的性能对比。我们的优化算法相比原生算计性能有了成倍的提升,且在越大的尺寸上优势越明显。


85addc35d22fd5619ef98670bd8b8409.png


相较于现在常规使用的向量检索框架(例如 Faiss),这种基于 TF 的做法相对灵活,在百万千万的数量级上也有不错的性能。在一千万的规模上,我们的 TopK 算法能达到显存带宽理论上限的10%左右,并且随着问题规模的扩大这一指标能继续提升(Faiss中的 WarpSelection 算法能做到16%,但k的大小受到GPU寄存器数量的限制[2])。当然,对于 GPU 上类似 WarpSelection 的 state-of-art 的 TopK 算法,我们也能很容易的迁移进TF里来。


3. 对于内积的优化



Batching


当 batchsize 大于1的时候,这里的内积表现为矩阵乘。TF (v1.15)原本用的 cublasSgemmEx 接口并不能在 fp16 类型的 GEMM 上启用 TensorCore,修改成 cublasGemmEx 可以解决这一问题。在 m=8 时,获得约 20%~40% 不等的性能提升,实测 latency 见下表。


ed73083fd5d3bf759a9ea5560b19505.png


观察到在 TensorCore 的加持下,当 batch 从1到8增大时,latency 几乎没怎么变,也就是增大 batchsize 可以显著提升内积这部分的计算效率。不过考虑到线上 latency 的约束,batchsize 还是需要控制在合理范围之内,实践中,我们就将其控制在8以下。


我们测试了 batching 带来的收益。对于一百万左右规模的模型,在线上可以容许的 latency 范围内,按 batchsize=8 做 batching 可以将有效服务容量提升约3倍。


关于 INT8 量化


内积部分的访存在整个模型计算中的占比达到60%以上,不做 batching 时,更是高达90%。为进一步减少访存,我们尝试将这个 GEMM 用 INT8 量化。这里有一个问题需要注意,在 cublasLt 接口中,INT8 GEMM 的输入矩阵需要遵循特殊的内存排列格式,A矩阵和C矩阵遵循 CUBLASLT_ORDER_COL32 格式而B矩阵需要遵循 CUBLASLT_ORDER_COL4_4R2_8C 格式,因此需要再计算前后进行 transform 操作。


幸运的是,B矩阵(即广告向量的矩阵),是一个常量,它的 transform 过程可以被 constant fold,从而避免很多访存开销。对与C矩阵,可以将它的 transform 与一个定制的近似 TopK 的算子进行融合,降低 transform 的开销。而A矩阵的 transform 是无法避免的。


需要注意的时,上文中所描述的利用分位数筛选的 TopK 算法对数据的区分度是有要求的。如果数据的区分度不够大,这个筛选算法就不能有效地约减问题规模,会拖慢后面寻找真实 TopK 的过程的效率。而内积部分使用 INT8 量化的话有可能会导致这个问题,需要对量化算法进行调整和校准。


关于 cache 的利用


另一个节省访存的做法就是充分利用 cache。在内积计算的过程中,大部分的访存都集中在对广告向量的读取上,如果我们能让这个 constant 常驻高速缓存的话,就可以大幅减少内存访问。


GPU 的缓存太小,不太适合进行缓存常驻,而目前涌现的众多人工智能ASIC就拥有相对来说大得多的缓存,例如平头哥的含光800芯片,更适合这样的优化。同时这些芯片在矩阵乘等密集计算上的算力相比 GPU 也毫不逊色。但由于这些芯片支持的算子可能不那么全面,某些定制的量化算法和 TopK 之类的计算就需要被 offload 到 CPU 端进行,此过程中会造成 PCIE 传输的 overhead。


相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
20天前
|
机器学习/深度学习 人工智能 算法
深入解析图神经网络:Graph Transformer的算法基础与工程实践
Graph Transformer是一种结合了Transformer自注意力机制与图神经网络(GNNs)特点的神经网络模型,专为处理图结构数据而设计。它通过改进的数据表示方法、自注意力机制、拉普拉斯位置编码、消息传递与聚合机制等核心技术,实现了对图中节点间关系信息的高效处理及长程依赖关系的捕捉,显著提升了图相关任务的性能。本文详细解析了Graph Transformer的技术原理、实现细节及应用场景,并通过图书推荐系统的实例,展示了其在实际问题解决中的强大能力。
115 30
|
1月前
|
机器学习/深度学习 数据采集 运维
使用 Python 实现深度学习模型:智能食品生产线优化
使用 Python 实现深度学习模型:智能食品生产线优化
55 13
|
29天前
|
机器学习/深度学习 自然语言处理 语音技术
Python在深度学习领域的应用,重点讲解了神经网络的基础概念、基本结构、训练过程及优化技巧
本文介绍了Python在深度学习领域的应用,重点讲解了神经网络的基础概念、基本结构、训练过程及优化技巧,并通过TensorFlow和PyTorch等库展示了实现神经网络的具体示例,涵盖图像识别、语音识别等多个应用场景。
52 8
|
1月前
|
机器学习/深度学习 数据采集 供应链
使用Python实现智能食品供应链优化的深度学习模型
使用Python实现智能食品供应链优化的深度学习模型
44 8
|
1月前
|
机器学习/深度学习 数据采集 算法
深度学习中的模型优化策略
在深度学习的海洋中,模型优化是提升航船速度的关键。本文将探讨如何通过调整学习率、应用正则化技术以及利用先进的优化算法来提高深度学习模型的性能。我们将从简单的线性回归模型入手,逐步深入到复杂的卷积神经网络,展示如何在实践中应用这些优化策略,以期达到更好的泛化能力和计算效率。
|
1月前
|
机器学习/深度学习 算法 数据可视化
使用Python实现深度学习模型:智能食品配送优化
使用Python实现深度学习模型:智能食品配送优化
72 2
|
1月前
|
机器学习/深度学习 算法
深度学习中的模型优化策略
【10月更文挑战第35天】在深度学习的海洋中,模型优化是那把能够引领我们抵达知识彼岸的桨。本文将从梯度下降法出发,逐步深入到动量、自适应学习率等高级技巧,最后通过一个实际代码案例,展示如何应用这些策略以提升模型性能。
|
29天前
|
机器学习/深度学习 数据采集 人工智能
探索人工智能中的深度学习模型优化策略
探索人工智能中的深度学习模型优化策略
|
1月前
|
机器学习/深度学习 人工智能 TensorFlow
基于TensorFlow的深度学习模型训练与优化实战
基于TensorFlow的深度学习模型训练与优化实战
93 0
|
1月前
|
机器学习/深度学习 数据采集 算法
利用深度学习优化图像识别系统的性能
利用深度学习优化图像识别系统的性能
43 0