带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(3)

简介: 带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(3)

带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(2) https://developer.aliyun.com/article/1246962?groupCode=taobaotech



初步探索


我们提取图像特征的方式是:将图像划分为Patch序列,使用ResNet提取每个Patch的图像特征。在模型结构上,尝试过单流结构,也就是将Query、标题、图像拼接在一起输入Encoder。经过多组实验,我们发现在这种结构下,很难提取出纯粹的Query向量和Item向量作为下游双塔向量召回任务的输入。如果提取某一向量时,Mask掉不需要的模态,会使得预测与训练不一致。这个问题类似于,在一个交互型的模型里直接提取出双塔模型,根据我们的经验,这种模型的效果不如经过训练的双塔模型。基于此,我们提出了一种新的模型构。


模型结构


image.png


类似双流结构,模型下方由双塔构成,上方通过跨模态Encoder融合双塔。与双流结构不同的是,双塔不是分别由单一模态构成,其中的Item塔中包含了Title和Image图文双模态,Title和Image拼接在一起输入Encoder,这部分

类似单流模型。为了建模Query与Title之间存在的语义联系与Gap,我们将Query和Item双塔的Encoder共享,再分别学习语言模型。


对于预训练来说,设计合适的任务也是比较关键的。我们尝试过常用的Title和Image的图文匹配任务,虽然能达到比较高的匹配度,但对于下游向量召回任务带来的增益很少,这是因为用Query去召回Item时,Item的Title和Image是否匹配不是关键因素。所以,我们在设计任务时,更多地考虑了Query与Item之间的关系。目前,一共采用5种预训练任务。


预训练任务


1.Masked Language Modeling (MLM):在文本Token中,随机Mask掉15%,用剩下的文本和图像预测出被Mask的文本Token。对于Query和Title,有各自的MLM任务。MLM最小化交叉熵Loss:


image.png

其中image.png 表示剩下的文本token


2.Masked Patch Modeling (MPM):在图像的Patch Token中,随机Mask掉25%,用剩下的图像和文本预测出被Mask的图像Token。MPM最小化KL散度Loss:

image.png

其中 image.png表示剩下的图像token



带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(4) https://developer.aliyun.com/article/1246960?groupCode=taobaotech

相关文章
带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(1)
带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(1)
130 0
带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(7)
带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(7)
155 0
带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(5)
带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(5)
113 0
|
计算机视觉 异构计算 SEO
带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(2)
带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(2)
120 0
带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(6)
带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(6)
110 0
|
数据挖掘
带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(4)
带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(4)
122 0
|
搜索推荐
带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(9)
带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(9)
115 0
带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(8)
带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(8)
120 0
|
缓存 并行计算 算法
带你读《2022技术人的百宝黑皮书》——淘宝逛逛ODL模型优化总结(6)
带你读《2022技术人的百宝黑皮书》——淘宝逛逛ODL模型优化总结(6)
100 0
|
缓存 异构计算
带你读《2022技术人的百宝黑皮书》——淘宝逛逛ODL模型优化总结(3)
带你读《2022技术人的百宝黑皮书》——淘宝逛逛ODL模型优化总结(3)