带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(5)

简介: 带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(5)

带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(4) https://developer.aliyun.com/article/1246960?groupCode=taobaotech



初步探索


遵循常见的FineTune范式,我们尝试过将预训练的向量直接输入到双塔MLP,结合大规模负采样和Sampled Softmax来训练多模态向量召回模型。不过,与通常的小规模下游任务相反,向量召回任务的训练样本量巨大,在数十亿量级。我们观察到MLP的参数量无法支撑模型的训练,很快就会达到自身的收敛状态,但效果并不好。同时,预训练向量在向量召回模型中作为输入而不是参数,无法随着训练的进行得到更新。这样一来,在相对小规模数据上进行的预训练,与大规模数据上的下游任务有一定的冲突。


解决的思路有几种,一种方法是将预训练模型融合到向量召回模型中,但预训练模型的参数量过大,再加上向量召回模型的样本量,无法在有限的资源约束下,以合理的时间进行常态化训练。另一种方法是在向量召回模型中构造参数矩阵,将预训练向量载入到矩阵中,随着训练的进行更新矩阵的参数。经过调研,这种方式在工程实现上成本比较高。基于此,我们提出了简单可行地建模预训练向量更新的模型结构。


模型结构


image.png


我们先将预训练向量通过FC降维,之所以在这里而不是在预训练中降维,是因为目前的高维向量对于负样本采样来说还在可接受的性能范围内,这种情况下,在向量召回任务中降维是与训练目标更一致的。同时,我们引入Query和Item的ID Embedding矩阵,Embedding维度与降维后的预训练向量的维度保持一致,再将ID与预训练向量融合在一起。这个设计的出发点是:引入足以支撑大规模训练数据的参数量,同时使预训练向量随着训练的进行得到适应性地更新。


在只用ID和预训练向量融合的情况下,模型的效果不仅超过了只用预训练向量的双塔MLP的效果,也超过了包含更多特征的Baseline模型MGDSPR。更进一步,在这个基础上引入更多的特征,可以继续提升效果。



带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(6) https://developer.aliyun.com/article/1246958?groupCode=taobaotech

相关文章
带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(1)
带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(1)
|
计算机视觉
带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(3)
带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(3)
111 0
带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(6)
带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(6)
|
搜索推荐
带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(9)
带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(9)
|
计算机视觉 异构计算 SEO
带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(2)
带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(2)
100 0
|
数据挖掘
带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(4)
带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(4)
带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(7)
带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(7)
118 0
带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(8)
带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(8)
|
缓存 TensorFlow 算法框架/工具
带你读《2022技术人的百宝黑皮书》——淘宝逛逛ODL模型优化总结(2)
带你读《2022技术人的百宝黑皮书》——淘宝逛逛ODL模型优化总结(2)
|
并行计算 数据可视化 TensorFlow
带你读《2022技术人的百宝黑皮书》——淘宝逛逛ODL模型优化总结(4)
带你读《2022技术人的百宝黑皮书》——淘宝逛逛ODL模型优化总结(4)