带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(3)-阿里云开发者社区

带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(3)

2023-06-12 163 发布于辽宁

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(3)

带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(2) https://developer.aliyun.com/article/1246962?groupCode=taobaotech

初步探索

我们提取图像特征的方式是：将图像划分为Patch序列，使用ResNet提取每个Patch的图像特征。在模型结构上，尝试过单流结构，也就是将Query、标题、图像拼接在一起输入Encoder。经过多组实验，我们发现在这种结构下，很难提取出纯粹的Query向量和Item向量作为下游双塔向量召回任务的输入。如果提取某一向量时，Mask掉不需要的模态，会使得预测与训练不一致。这个问题类似于，在一个交互型的模型里直接提取出双塔模型，根据我们的经验，这种模型的效果不如经过训练的双塔模型。基于此，我们提出了一种新的模型构。

模型结构

类似双流结构，模型下方由双塔构成，上方通过跨模态Encoder融合双塔。与双流结构不同的是，双塔不是分别由单一模态构成，其中的Item塔中包含了Title和Image图文双模态，Title和Image拼接在一起输入Encoder，这部分

类似单流模型。为了建模Query与Title之间存在的语义联系与Gap，我们将Query和Item双塔的Encoder共享，再分别学习语言模型。

对于预训练来说，设计合适的任务也是比较关键的。我们尝试过常用的Title和Image的图文匹配任务，虽然能达到比较高的匹配度，但对于下游向量召回任务带来的增益很少，这是因为用Query去召回Item时，Item的Title和Image是否匹配不是关键因素。所以，我们在设计任务时，更多地考虑了Query与Item之间的关系。目前，一共采用5种预训练任务。

预训练任务

1.Masked Language Modeling (MLM)：在文本Token中，随机Mask掉15%，用剩下的文本和图像预测出被Mask的文本Token。对于Query和Title，有各自的MLM任务。MLM最小化交叉熵Loss：

其中表示剩下的文本token

2.Masked Patch Modeling (MPM)：在图像的Patch Token中，随机Mask掉25%，用剩下的图像和文本预测出被Mask的图像Token。MPM最小化KL散度Loss：

其中表示剩下的图像token

带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(4) https://developer.aliyun.com/article/1246960?groupCode=taobaotech

带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(3)

大淘宝技术

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(3)

大淘宝技术

热门文章

最新文章

相关课程

相关电子书

相关实验场景