带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(8) https://developer.aliyun.com/article/1246956?groupCode=taobaotech
query: 痞帅西装
query: 女掐收腰小衫
总结和展望
针对主搜场景的应用需求,我们提出了文本-图文预训练模型,采用了Query和Item双塔输入跨模态Encoder的结构,其中Item塔是包含图文多模态的单流模型。通过Query-Item和Query-Image匹配任务,以及Query和Item双塔内积方式建模的Query-Item多分类任务,使预训练更接近下游的向量召回任务。同时,在向量召回中建模了预训练向量的更新。在资源有限的情况下,使用相对少量数据的预训练,对使用海量数据的下游任务仍然带来了效果的提升。
在主搜的其他场景中,如商品理解、相关性、排序,也存在应用多模态技术的需求。我们也参与到了这些场景的探索中,相信多模态技术在未来会给越来越多的场景带来增益。
团队介绍
淘宝主搜召回团队:团队负责主搜链路中的召回、粗排环节,目前的主要技术方向为基于全空间样本的多目标个性化向量召回、基于大规模预训练的多模态召回、基于对比学习的相似Query语义改写以及粗排模型等。