带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(6) https://developer.aliyun.com/article/1246958?groupCode=taobaotech
预训练实验
我们选取部分类目下1亿量级的商品池,构造了预训练数据集。
我们的Baseline模型是经过优化的FashionBert,加入了QIM和QIM2任务,提取Query和Item向量时采用只对非Padding Token做Mean Pooling的方式。以下实验探索了以双塔方式建模,相对于单塔带来的增益,并通过消融实验给出关键部分的作用。
从这些实验中,我们能得出如下结论:
1.实验8 vs 实验3:经过调优后的双塔模型,在Recall@1000上显著高于单塔Baseline。
2.实验3vs实验1/2:对单塔模型来说,如何提取Query和Item向量是重要的。我们尝试过Query和Item都用[CLS] token,得到比较差的结果。实验1对Query和Item分别用对应的Token做Mean Pooling,效果要好一些,但进一步去掉PaddingToken再做Mean Pooling,会带来更大的提升。实验2验证了显式建模Query-Image匹配来突出图像信息的作用,会带来提升。
3.实验6 vs 实验4/5:实验4将Item塔的MLM/MPM任务上移到跨模态Encoder,效果会差一些,因为将这两个任务放在Item塔能够增强Item表示的学习;另外,在Item塔做基于Title和Image的跨模态恢复会有更强的对应关系。实验5验证了对Query和Item向量在训练和预测时增加L2 Norm,会带来提升。
4.实验6/7/8:改变QIC任务的Loss会带来提升,Softmax相比于Sigmoid更接近下游的向量召回任务,AM-Softmax则更进一步推开了正样本与负样本之间的距离。
带你读《2022技术人的百宝黑皮书》——多模态技术在淘宝主搜召回场景的探索(8) https://developer.aliyun.com/article/1246956?groupCode=taobaotech