内容推荐场景中自监督学习的应用

简介: 内容推荐场景中自监督学习的应用


1.gif

本系列文章包含每平每屋过去一年在召回、排序和冷启动等模块中的一些探索和实践经验,本文为该专题的第七篇。

第一篇指路:冷启动系统优化与内容潜力预估实践

第二篇指路:GNN在轻应用内容推荐中的召回实践

第三篇指路:基于特征全埋点的精排ODL实践总结

第四篇指路:Gradient Normalization在多任务学习中的优化实践

第五篇指路:生成式重排在内容推荐中的应用实践

第六篇指路无尽流场景优化总结


背景介绍


在机器学习学界,无监督学习 (或者自监督学习) 一直被认为是最有价值的领域之一。在ISSCC 2019上,著名的人工智能研究者,图灵奖获得者Yann LeCun给出了他的“蛋糕图”2.0版本,并再次强调了自监督学习的地位,认为自监督学习是通向未来通用人工智能的可能道路。


image.gif图片.png


其实,自监督学习并不是一个新概念,在NLP领域,已经有非常多相关的应用。自监督学习的本质,是通过数据本身来构造训练目标,从而达到不需要人工标注的目的。例如,word2vec,使用skip-gram的训练方式,是通过单词来预测上下文;之后Google提出的Bert,则是通过Masked LM和Next sentence prediction来实现pre-training。本质上都是利用了原有数据来构造训练目标。


自监督的学习方式,与我们的实际场景契合度很高。在现实世界中,海量数据并不存在所谓的标签体系,例如在内容维度,作者们创作的图像、文字,既无法套入一个标准的标签体系,也不可能存在一个标注团队可以处理每天百万级的数据。通过自监督学习的方式来获取这部分信息成为了一条必由之路。


每平每屋轻应用是是淘系大家装垂类中的主要流量入口,以内容导购的形式满足用户在家居领域的购买需求。在去年Visual4Rec的工作(详见https://mp.weixin.qq.com/s/LmON8pQ8TvPTfN2spblzDQ)中,我们主要通过预训练好的图像embedding,对精排、召回以及EE三个环节做了优化取得了不错的线上结果。在去年工作基础之上,我们希望进一步探究自监督学习得到的embedding质量推荐、分类、搜索的影响。我们尝试了2020年以来部分图像自监督学习模型在图像embedding抽取、达摩院M6预训练模型在多模态embedding抽取中的效果,并在线下线上不同环节做了详实的验证。本文为琢切在每平每屋算法团队实习期间的工作总结。


image.gif图片.png


理论基础


 图像自监督学习


自2020年以来,图像自监督算法在学术界取得了巨大进展,基于图像随机变换 + infoNCE loss 的设计范式,一步步刷新SOTA,基于自监督算法训练得到的无监督图像embedding,在下游使用线性分类器,其分类准确率开始逐步接近甚至超越使用CNN训练的分类准确率。在实际场景中,我们主要使用了EVTorch团队提供的Moco v2 [1] 模型、SwAV [2] 模型做为测试验证。在此简单介绍SwAV的模型原理。Fig1 展示了SwAV和一般的自监督对比学习的核心差异。

图片.png

image.gifFig1 SwAV与一般自监督对比学习的差异

一般的自监督对比学习,主要通过图像的随机transform(例如随机加入少量噪点、颜色轻微变化、随机裁剪等),如下所示。我们认为,这样的轻微变化,对于图像本身的语义表达是没有影响的。

图片.png

image.gifFig2 图像随机Transform举例


同一张图的不同transform做为正样本,不同图的不同transform做为负样本,在embedding层面进行对比训练,如下所示


图片.pngimage.gif

图片.png


图片.png

图片.png

image.gif


聚类均匀限制,即同一batch中,不同图像对应的cluster会被均匀选择到


图片.pngimage.gif

SwAV算法,通过将embedding之间的对比学习简化成聚类之间的对比学习,大幅降低了计算开销,同时在在线聚类时引入了均匀限制,使得模型不会陷入到平凡解,从而获得了高质量的图像自监督embedding。


 M6多模态预训练

M6(Multi-Modality to Multi- Modality Multitask Mega-transformer)是阿里集团达摩院研发的基于稀疏MoE的多模态预训练模型。在万亿级别参数的预训练模型基础上,使用淘系商品数据进行对比学习,获得我们最终使用的模型。稀疏MoE可以在增加参数量的情况下,保持较低的计算开销,在Whale框架的支持下,可以获得较好的计算效率。稀疏MoE定义如下


图片.png

图片.png


在分布式训练场景下,我们可以进一步将不同的experts置于不同的worker,在具体工程实现中需要考虑load balance以保证稀疏设置的合理性。具体实现和算法实现可以参考 [4]


场景实践


 场景、风格KNN召回一致率

在每平每屋轻应用场景,使用轻应用内容封面图训练了Moco v2、SwAV两版自监督图像模型,并分别对图像提取embedding;此外使用M6 预训练模型对轻应用内容的封面标题提取多模态embedding;我们对比的baseline为当前线上使用的预训练图像embedding。对比方式为使用种子内容(seed),基于不同embedding的KNN召回的结果,对比召回内容的场景、风格标签和种子内容的场景、风格标签的一致率,指标越高,表明一致性越好。计算方式为欧式距离。这一对比,主要可以体现出内容embedding在场景、风格方面的语义表达能力,一定程度上可以反映embedding的语义表达能力。+w 代表对embedding做白化处理后的结果。对embedding进行白化操作后再执行KNN召回,主要是参考文献[5]。在Bert模型的输出embedding基础上进行白化处理,可以大幅提升召回的相关性。Table1 为记录的结果


特征

召回内容风格一致率 召回内容场景一致率
Online 0.63551 0.62783
Online + w 0.63704 0.63452
Moco-v2 0.61398 0.68160
Moco-v2 + w 0.61538 0.68738
SwAV 0.64229 0.71147
SwAV + w 0.64566 0.71604
M6 (32 dim) 0.70252 0.70288
M6 + w (32 dim) 0.71607 0.70221

Table1 不同embedding在风格、场景召回一致率表现


  • 结果分析


  1. Moco v2在风格一致率上略低于基线,而在场景一致率上优于基线,总体来看,优势并不明显。M6与SwAV输出的embedding在风格、场景的召回一致率上都显著优于Moco v2以及线上使用的embedding基线。
  2. M6的风格召回一致率上显著优于其他embedding,我们在进一步调查后发现这主要来自于标题提供的信息,在标题中会有大量关于风格的描述性语句
  3. 白化操作在各个embedding基础上都会带来额外提升,这主要是由于我们使用欧式距离的计算,是基于欧式空间的假设,白化操作可以在embedding原有几何空间基础选择合适的标准正交基,可以拟合欧式空间假设,这也符合文献[5]中提到的假设。


  • 可视化


image.gif图片.png


从可视化结果中也可以发现,线上使用的embedding以及Moco v2产出的embedding,在KNN召回后还是存在一些bad case,而SwAV和M6召回结果则直观得看起来更好一些。此外,我们可视化主要使用了封面主图,SwAV做为纯图像的embedding,在视觉一致性上要优于M6的结果,后者使用了封面图以及内容的标题。


 M6&SwAV内容封面特征加入排序


在KNN召回的实验中,我们初步验证了SwAV、M6产出的embedding在某些语义表达维度具有优势,下面我们进一步验证在线上精排模型中加入M6&SwAV的embedding之后的auc指标变化情况(粗体为最优指标,下划线为次优),如下所示。在全部特征中,我们仅对封面图的embedding特征进行增添或者替换。对比基准为不使用内容封面图embedding特征的特征集合,3个实验分别为:1. 只添加了内容封面图预训练embedding特征,2. 只添加了内容封面图SwAV自监督学习获得的图像embedding特征,3. 只添加内容标题 + 封面图的M6预训练embedding特征。其中SwAV和M6的embedding都经过了白化处理。


image.gif图片.png


在内容点击、详情页点击、商详页点击三个任务预测的auc值,其中全量数据测试,我们选取了两个时间段训练测试。此外为了进一步验证效果,我们针对近7天新发布的内容也做了测试。所有实验均3次运行后取平均值以及方差值,具体结果如下所示


特征

ctr_auc

ctcvr_auc

商详页行为_auc

No Image Feature

0.65426 ± 0.00125

0.67302 ± 0.00506

0.68214 ± 0.00970

Online

0.65545 ± 0.00035

0.67250 ± 0.00408

0.67486 ± 0.00812

M6 + w

0.65570 ± 0.00127

0.67673 ± 0.00411

0.68759 ± 0.00655

SwAV + w

0.65568 ± 0.00144

0.67572 ± 0.00651

0.68547 ± 0.01055

Table2 0611~0617训练0618测试

特征

ctr_auc

ctcvr_auc

商详页行为_auc

No Image Feature

0.66242±0.00096

0.68005±0.00273

0.68821±0.00550

online

0.66649±0.00051

0.68404±0.00351

0.68670±0.00514

M6 + w

0.66509±0.00151

0.68450±0.00513

0.69332±0.01052

SwAV + w

0.66402±0.00095

0.68324±0.00076

0.69033±0.00173

Table3 0701~0707测试0708测试

模型

ctr_auc

ctcvr_auc

商详页行为_auc

No Image Feature

0.71587±0.00454

0.73770±0.00419

0.70397±0.00985

online

0.71907±0.00588

0.74005±0.00521

0.71821±0.01793

M6 + w

0.72516±0.00113

0.74885±0.00574

0.71666±0.00317

Table4 最近7天新发布内容auc情况对比


  • 结果分析


  1. 新增内容的图像embedding特征或者多模态embedding特征,在三个任务的离线auc指标上,对比没有使用这样特征的基线都有一定提升提升,提升相对稳定。
  2. 使用不同时期的训练测试数据,加入M6 embedding都对比使用线上embedding略有提升或基本持平。此外我们进一步在近7天发布的新内容测试中发现,M6 embedding的提升会更为明显一些,这表明对于缺乏统计类特征的新发布内容,M6多模态特征会扮演更重要的角色,对离线auc指标的提升也更为明显。


线上我们对加入M6 embedding的模型进行了线上ab,7天观察pctcvr +2.6%,avg_ipv +1.51%


 其他场景


  • 图像分类


大量图像自监督学习的论文都实验验证了,基于预训练的自监督模型在下游任务(分类/检测等)上Finetune的效果要优于end2end的训练方式。这里,我们基于预训练的SwAV模型,在躺平好货场景的图像上进行叶子类目的分类模型实验,总共3519个类目,使用SwAV预训练的模型作为Backbone,效果优于直接使用ResNet50模型的分类器效果。


image.gif图片.png


Type top1-accuracy top-5 accuracy
ResNet50 73.72% 92.85%
SwAV 74.67% 93.22%

Table5 SwAV预训练对下游分类任务的提升


  • 度量学习


在躺平好货的图搜场景,我们主要使用度量学习的方式来优化图像特征,主要评估指标为召回的商品的Identity Recall@N,即召回的Top-N商品中含有与query图属于相同商品的query数占总query数的比例。由于我们的测试集为目标检测 + 商品锚点信息自动合成的数据集,具有一定的噪声,同时每个query图仅对应一个真实的相同商品(实际上一个query可以对应多个商品),因此得到的指标会偏低。结论是使用预训练的自监督模型作为Backbone,效果会更好。


image.gif图片.png


Identity Recall R@1 R@5 R@10 R@15 R@20
no-pretrain 11.56% 18.55% 21.47% 22.62% 24.26%
pretrained 14.23% 21.85% 25.28% 26.68% 28.97%

Table6 SwAV预训练对下游度量学习任务的提升


结果分析:使用预训练的自监督模型对下游任务进行Finetune能够带来较为明显的提升。


总结


利用海量无标签数据进行自监督训练,可以极大程度上利用业务中的实际数据,同时解耦了对大规模预训练的标签依赖(例如使用ImageNet的预训练),也更贴近实际业务场景。通过SwAV、M6等方法进行预训练得到的embedding具有良好的语义表达特性,不仅在推荐效果上有所提升,SwAV自监督获取的embedding对实际业务场景的图像分类、图像搜索模型也有稳定的提升。


参考文献


[1] Chen, Xinlei, et al. "Improved baselines with momentum contrastive learning." arXiv preprint arXiv:2003.04297 (2020).

[2] Caron, Mathilde, et al. "Unsupervised learning of visual features by contrasting cluster assignments." arXiv preprint arXiv:2006.09882 (2020).

[3] Lin, Junyang, et al. "M6: Multi-Modality-to-Multi-Modality Multitask Mega-transformer for Unified Pretraining." (2021).

[4] Wang, An, et al. "Exploring Sparse Expert Models and Beyond." (2021).

[5] Sun, Jianlin, et al. "Whitening Sentence Representations for Better Semantics and Faster Retrieval." (2021).


团队介绍


大淘宝技术-淘宝智能团队

淘宝智能团队是一支数据和算法一体的团队,服务于淘宝、天猫、聚划算、闲鱼和每平每屋等业务线的二十余个业务场景,提供线上零售、内容社区、3D智能设计和端上智能等数据和算法服务。我们通过机器学习、强化学习、数据挖掘、机器视觉、NLP、运筹学、3D算法、搜索和推荐算法,为千万商家寻找商机,为平台运营提供智能化方案,为用户提高使用体验,为设计师提供自动搭配和布局,从而促进平台和生态的供给繁荣和用户增长,不断拓展商业边界。

这是一支快速成长中的学习型团队。在创造业务价值的同时,我们不断输出学术成果,在KDD、ICCV、Management Science等国际会议和杂志上发表数篇学术论文。团队学习氛围浓厚,每年组织上百场技术分享交流,互相学习和启发。真诚邀请海内外相关方向的优秀人才加入我们,在这里成长并贡献才智。

如果您有兴趣可将简历发至weichen.swc@alibaba-inc.com,期待您的加入!

相关文章
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
大模型开发:解释强化学习以及它与监督学习的不同之处。
强化学习(RL)是机器学习的一种,通过智能体与环境交互学习最优策略,以获取最大回报,常用于动态环境如游戏和机器人。与之不同,监督学习(SL)使用有标签的训练数据来预测新数据,适用于如图像分类等稳定问题。两者关键区别在于学习方式和应用场景:RL侧重环境交互和策略优化,适合未知动态环境;SL依赖已知标签数据,适合标签明确的任务。在大模型开发中,两者各有优势,并不断融合创新,推动人工智能发展。
223 2
|
机器学习/深度学习 人工智能 自然语言处理
基于非英语数据集的图形机器学习和集成学习方法增强文本分类和文本情感分析
基于非英语数据集的图形机器学习和集成学习方法增强文本分类和文本情感分析 摘要 近年来,机器学习方法,特别是图学习方法,在自然语言处理领域,特别是文本分类任务中取得了巨大的成果。然而,许多这样的模型在不同语言的数据集上显示出有限的泛化能力。在本研究中,我们在非英语数据集(如波斯语Digikala数据集)上研究并阐述了图形机器学习方法,该方法由用户对文本分类任务的意见组成。更具体地说,我们研究了(Pars)BERT与各种图神经网络(GNN)架构(如GCN、GAT和GIN)的不同组合,并使用集成学习方法来处理某些知名的非英语数据集上的文本分类任务。我们的分析和结果表明,应用GNN模型可以更好地捕捉文
112 0
|
2月前
|
机器学习/深度学习 运维 监控
深度学习之视频内容理解
基于深度学习的视频内容理解(Video Content Understanding, VCU)是一项关键技术,旨在通过神经网络模型自动分析、解读和提取视频中的语义信息。
101 10
|
2月前
|
机器学习/深度学习 人工智能 编解码
[大语言模型-论文精读] 词性对抗性攻击:文本到图像生成的实证研究
[大语言模型-论文精读] 词性对抗性攻击:文本到图像生成的实证研究
34 0
|
4月前
|
机器学习/深度学习 自然语言处理 IDE
模型遇见知识图谱问题之ARTIST模型进行微调和预测的问题如何解决
模型遇见知识图谱问题之ARTIST模型进行微调和预测的问题如何解决
|
7月前
|
机器学习/深度学习 人工智能 运维
|
6月前
|
机器学习/深度学习 算法 PyTorch
【从零开始学习深度学习】45. Pytorch迁移学习微调方法实战:使用微调技术进行2分类图片热狗识别模型训练【含源码与数据集】
【从零开始学习深度学习】45. Pytorch迁移学习微调方法实战:使用微调技术进行2分类图片热狗识别模型训练【含源码与数据集】
|
数据挖掘
InsTag:大语言模型监督微调数据标签标注工具
魔搭社区发布了一个名为“InsTagger”的工具,用于分析LLM(大语言模型)中符合人类偏好的监督微调(SFT)数据。InsTagger 是基于 InsTag 方法训练的本地指令标签标注器,用于为符合人类偏好的监督微调数据集中的指令标注描述其意图和语义的标签,从而指导指令的分流或监督微调数据集的分析。
|
7月前
|
机器学习/深度学习 自然语言处理 数据挖掘
预训练语言模型中Transfomer模型、自监督学习、BERT模型概述(图文解释)
预训练语言模型中Transfomer模型、自监督学习、BERT模型概述(图文解释)
191 0
|
机器学习/深度学习 自然语言处理
【文本分类】《基于提示学习的小样本文本分类方法》
使用P-turning提示学习,进行小样本文本分类。本文值得学习。
200 0
下一篇
无影云桌面