SIGIR 2023 | 推荐系统何去何从,经典ID范式要被颠覆?(2)

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
简介: SIGIR 2023 | 推荐系统何去何从,经典ID范式要被颠覆?

实验探究

问题 1:MoRec 和 IDRec 性能对比,尤其是在常规场景和热 item 场景。


论文在常规推荐、冷启动推荐、热门物品推荐三个场景下,对 MoRec 和 IDRec 的效果做了周全的对比,结果如下:


首先在常规推荐下,无论是 IDRec 还是 MoRec,DSSM 的性能总是大大低于 SASRec。这与之前的很多研究是一致的:使用用户的交互的 item 序列来代表用户,往往比把它们作为单独的用户 ID 来处理更有效 [1, 2]。同时,MoRec 与 IDRec 的对比在 DSSM 和 SASRec 之间也存在巨大的性能差异,论文发现在 DSSM 架构下,MoRec 在所有三个数据集中的表现都比 IDRec 差很多。这种差距会让人对 MoRec 完全丧失信心,例如在 HM 和 Bili 数据集上,IDRec 比 MoRec 高出一倍以上。相比之下,在 SASRec 架构下,MoRec 在文本推荐数据集 MIND 上使用三个文本编码器中的任何一个都能取得比 IDRec 更好的结果,在图像数据集 Bili 和 HM 上也基本做到了可比较的效果,例如,当使用 Swin Transformer (Base) 版本,MoRec 甚至能比 IDRec 略好一些,当使用 ResNet 时候,MoRec 仍然略逊于 IDRec。这种比较结果意味着 MoRec 需要一个强大的推荐骨干(SASRec 优于 DSSM)和训练方法(seq2seq 优于 <u,i> pair)才能激发基于模态的项目编码器的优势,而 DSSM 范式似乎很难很好的激发模态编码器的潜力。鉴于 MoRec 在 DSSM 的结果太不理想,论文后续主要关注 SASRec 的架构。


MoRec 很自然地适用于冷物品推荐,因为它们的模态编码器是专门为物品的原始模式特征建模而开发的,无论它们的流行度如何都可以进行物品表征。MoRec 在所有三个数据集上对文本和视觉推荐的冷启动场景都有大幅度超过 IDRec,该现象符合社区的广泛认知,因此论文把相应的结果只放在附录。


在热门商品推荐方面,打败 IDRec 无疑是非常困难的,论文展示了相应的结果。通过选择不同热度的 item 进行验证可以发现在热门程度一般的 warm-20 数据集中,MoRec 还可以比 IDRec 略好,而在热门程度剧烈的 warm-200 中(数据集所有物品均出现 200 次以上),MoRec 在文本和视觉推荐上效果都略差于 IDRec。这是因为 IDRec 在对流行项目进行建模方面非常有优势 [3, 4, 5]。但即使在这些热启动设置中,MoRec 仍然可以与 IDRec 效果相当。

结论 1:对于时序推荐架构 SASRec,在常规场景(既有热 item 也有一部分冷 item),MoRec 在文本上明显优于 IDRec,而在图片上则和 IDRec 效果相当。在冷启动场景,MoRec 大幅优于 IDRec,在热门商品推荐场景,MoRec 和 IDRec 效果相当。这些积极的特性很吸引人,因为这些特性表明,推荐系统很有可能采用 MoRec 替代 IDRec, 另外,考虑到 MoRec 在迁移学习或跨域推荐中具有天然的优势,一旦推荐系统由 IDRec 转向 MoRec,那么大型 MoRec 模型很有可能成为一个像 BERT 和 ChatGPT 一样的基础推荐模型 [6, 7],从而实现 "一个模型适用于所有推荐场景" 的宏伟目标 [6, 8]。

问题 2:NLP、CV 领域的技术进展能否同步推动 MoRec 的发展?
论文进行了大量实验,分别从更大参数量和更优的编码器两方面调查了 NLP、CV 中预训练模型的进展是否能同步提高 MoRec 推荐的准确性。


如图所示,一个较大的视觉项目编码器一般总是能实现更好的视觉推荐准确率。在文本方面基本结论也基本一致,唯一区别是基于 BERTbase 的 MoRec 并不优于基于 BERT small 的 MoRec,尽管后者参数量小很多。论文的结论是,一般来说来自 NLP 和 CV 的更大和更强大的模态编码器往往会提高推荐的准确性,但这可能并不严格适用于所有的情况。

同时,论文探究了更优的编码器网络。例如,人们认识到 RoBERTa 优于 BERT,而 BERT 在大多数 NLP 理解(但不是生成)任务,在相似的模型规模下,可能优于 GPT。Swin Transformer 在许多 CV 任务中常常优于 ResNet。此外,这些现代预训练文本大模型很容易超过大约十年前开发的著名的轻量级模型 TexTCNN 和 GloVe,如图所示,在更优的模型架构上,MoRec 的性能改变与 NLP 和 CV 的研究结果基本保持一致。


第三,论文研究了有预训练参数的模态编码器是否比在推荐场景下从头训练(即随机初始化)的模态编码器有更高的推荐精度。在较大规模的数据集,和较小规模的图片数据集上,经过预训练的 MoRec 获得了明显更好的最终结果,这也与 NLP 和 CV 领域的发现一致。

结论 2:MoRec 为推荐系统和 NLP、CV 等多模态社区建立了联系,而且一般来说,可以很好的继承 NLP 和 CV 领域的最新进展。这意味着一旦未来在相应的研究领域有新的突破,MoRec 有更多的机会和更大的改进空间。

问题 3:对于推荐场景,NLP、CV 的预训练模型产生的表征有足够的通用能力吗?我们应该怎样使用预训练模型生成的表征?

NLP 和 CV 预训练大模型其中一个目标是实现通用的文本或者视觉表征,可以直接在 zero-shot 设置下用于下游任务。然而,这些预训练编码器只在一些传统 NLP 和 CV 任务中被评估,如图像和文本分类。论文认为,在推荐系统场景下预测主观的用户偏好比 NLP、CV 本身的下游任务更具挑战性。

论文探究了两种训练 MoRec 的方式:1. Two-stage:预先用模态编码器提取离线模态特征,然后将其加入到推荐模型中。由于实际业务中推荐系统通常有数百万乃至千万的商品,Two-stage 在工业界特别受欢迎。2. 采用 End2end 的方式同时优化用户和物品编码器(上述所有实验均汇报的是 End2end 的结果),这种方式会将预训练物品编码器在推荐数据集上进行重新适应。


如表所示,与 IDRec 和基于 End2end 的 MoRec 相比,基于 Two-stage 的 MoRec 显示出糟糕的结果,其效果比前两者差很多,特别是对于视觉推荐能达到 50% 以上的差距。结果表明,由 NLP 和 CV 的预训练任务学习的模态表征对于推荐问题来说仍然不够通用,与在新数据上 End2end 重新训练相比推荐结果差距较大。

结论 3:工业界流行的 Two-stage 离线特征提取推荐方式会导致 MoRec 性能显著下降(特别是对于视觉推荐),这在实践中不应该被忽视。同时,尽管多模态领域的预训练模型在近年来取得了革命性的成功,但其表征还没有做到通用性和泛化性,至少对于推荐系统是这样。

主要挑战

推荐系统社区基于 End2end 的 MoRec 研究比较少,特别是对于视觉推荐。论文提出了几个关键的挑战和一些社区可能不知道的发现。

训练成本


具有较大模态编码器的 MoRec 往往表现更好,然而,训练的计算量、时间和 GPU 内存消耗也会增加,特别是对于具有很长交互序列的基于 seq2seq 的架构。MoRec(用 SASRec 作为用户编码器,Swin-Base 作为商品编码器)比 IDRec 需要 100 倍以上的计算和训练时间。这可能是之前没有论文将 seq2seq 用户编码器和 End2end 训练的模态编码器结合起来用于 MoRec 的原因,特别是用于视觉推荐。

额外的预训练


论文探究了使用下游数据集对模态编码器进行第二轮预训练的效果,这种技术经常被应用于 NLP 和 CV 领域。二次预训练将采用和预训练相同的训练策略,如 MLM。论文发现对于文本数据集来说,二次预训练对 Two-stage 和 End2end 两种 MoRec 都有提升。但在视觉数据集上,则只提升了 HM 数据集中的 Two-stage,对于 HM 的 End2end 和 Bili 的 MoRec 都没有提升。论文给出的结论是二次预训练的有效性取决于个别数据集。

结合 ID 和模态特征


鉴于 IDRec 和基于 E2E 的 MoRec 都运作良好,一个自然的想法是在一个模型中结合这两个特征(即 ID 和模态)。论文采用 2 种融合方法:add 和 concate 对此进行了评估。

令人惊讶的是,论文发现通过添加 ID 特征,基于 End2end 的 MoRec 表现甚至比纯 IDRec 和纯 MoRec 更差。这里的结果与一些已发表的论文有些不一致。原因之一可能是在常规设置中,基于 End2end 的 MoRec 和 IDRec 都是从用户 - 项目交互数据中学习用户偏好,所以它们不能相互补充;而对于基于 Two-stage 的 MoRec,由于 ID 嵌入比冻结的模态特征好太多,它们的组合也不能改善结果。第二个原因可能是在结合 ID 和模态特征时需要更先进的技术。

事实上,从另一个角度看,带有 ID 特征的 MoRec 将失去 MoRec 的许多优势。例如,使用 ID 特征的 MoRec 不适合建立基础推荐模型,因为由于隐私和不同平台间用户、商品难以重叠的问题,ID 不容易迁移。

模型崩溃


论文发现在没有适当的超参数(主要是学习率)的情况下训练 MoRec,很容易导致模型崩溃,有时需要为模态编码器和其他模块设置不同的学习率。可能原因是已经预训练好的编码器的学习步调需要与其他随机初始化开始训练的网络保持不同。

总结

论文调查了一个富有潜力但未被充分探索的问题,即 MoRec 是否有机会结束 IDRec 在推荐系统领域的主导地位。显然,这个问题不可能在一篇论文中得到完全的回答,它需要 Recsys 甚至 NLP 和 CV 社区的更多研究和努力。然而,这里的一个主要发现是,在 End2end 训练的 SOTA 模态编码器的加持下,现代 MoRec 已经可以在典型的推荐架构(即 Transformer 骨干)下表现得与 IDRec 相当或更好,即便是在非冷启动和热 item 推荐的设置中。此外,MoRec 在很大程度上可以从 NLP 和 CV 领域的技术进步中获益,这意味着它在未来有更大的性能提升空间。

论文期待激发社区中更多关于 MoRec 的研究,例如,开发更强大的推荐架构,更有表现力和通用的模态编码器,更好的物品表征和用户表征的融合策略,以及更有效的优化策略以减少计算和时间成本。论文抛出一个设想:从长远来看,当商品的模态信息可用时,推荐系统的主流范式可能有机会从 IDRec 转向 MoRec,从而与 NLP、CV 紧密结合,互相促进发展。

论文还提到了自身的局限性:(1)只考虑了文本和视觉的推荐场景,而 MoRec 在语音和视频下的效果仍然是未知的;(2) 只考虑了单模态场景,多模态场景的效果是未知的;(3) 论文所用的数据集属于中等规模,扩展到 100 倍或 1000 倍的训练数据后(如在真实的工业系统中)论文关键的发现是否成立,仍是未知的。

引用

[1] Balázs Hidasi, Alexandros Karatzoglou, Linas Baltrunas, and Domonkos Tikk. 2015. Session-based recommendations with recurrent neural networks. arXiv preprint arXiv:1511.06939 (2015).[2] Wang-Cheng Kang and Julian McAuley. 2018. Self-attentive sequential recom- mendation. In 2018 IEEE international conference on data mining (ICDM). IEEE, 197–206.[3] JiaweiChen,HandeDong,YangQiu,XiangnanHe,XinXin,LiangChen,Guli Lin, and Keping Yang. 2021. Autodebias: Learning to debias for recommendation. In Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval. 21–30.[4] XinyangYi,JiYang,LichanHong,DerekZhiyuanCheng,LukaszHeldt,Aditee Kumthekar, Zhe Zhao, Li Wei, and Ed Chi. 2019. Sampling-bias-corrected neural modeling for large corpus item recommendations. In Proceedings of the 13th ACM Conference on Recommender Systems. 269–277.[5] Fajie Yuan, Guibing Guo, Joemon M Jose, Long Chen, Haitao Yu, and Weinan Zhang. 2016. Lambdafm: learning optimal ranking with factorization machines using lambda surrogates. In Proceedings of the 25th ACM international on confer- ence on information and knowledge management. 227–236.[6] Kyuyong Shin, Hanock Kwak, Kyung-Min Kim, Minkyu Kim, Young-Jin Park, Jisu Jeong, and Seungjae Jung. 2021. One4all user representation for recommender systems in e-commerce. arXiv preprint arXiv:2106.00573 (2021).[7] KyuyongShin,HanockKwak,Kyung-MinKim,SuYoungKim,andMaxNihlen Ramstrom. 2021. Scaling law for recommendation models: Towards general- purpose user representations. arXiv preprint arXiv:2111.11294 (2021).[8] JieWang,FajieYuan,MingyueCheng,JoemonMJose,ChenyunYu,BeibeiKong, Zhijin Wang, Bo Hu, and Zang Li. 2022. TransRec: Learning Transferable Recom- mendation from Mixture-of-Modality Feedback. arXiv preprint arXiv:2206.06190 (2022).

相关文章
|
机器学习/深度学习 自然语言处理 搜索推荐
SIGIR 2022 | 推荐系统相关论文分类整理(三)
SIGIR 2022 | 推荐系统相关论文分类整理(三)
1639 0
|
自然语言处理 搜索推荐 算法
SIGIR 2023 | 推荐系统何去何从,经典ID范式要被颠覆?(1)
SIGIR 2023 | 推荐系统何去何从,经典ID范式要被颠覆?
292 0
|
机器学习/深度学习 存储 人工智能
SIGIR 2022 | 推荐系统相关论文分类整理(一)
SIGIR 2022 | 推荐系统相关论文分类整理(一)
1841 0
SIGIR 2022 | 推荐系统相关论文分类整理(一)
|
机器学习/深度学习 搜索推荐 算法
SIGIR 2022 | 推荐系统相关论文分类整理(二)
SIGIR 2022 | 推荐系统相关论文分类整理(二)
964 0
|
1月前
|
搜索推荐 前端开发 数据可视化
【优秀python web毕设案例】基于协同过滤算法的酒店推荐系统,django框架+bootstrap前端+echarts可视化,有后台有爬虫
本文介绍了一个基于Django框架、协同过滤算法、ECharts数据可视化以及Bootstrap前端技术的酒店推荐系统,该系统通过用户行为分析和推荐算法优化,提供个性化的酒店推荐和直观的数据展示,以提升用户体验。
|
3月前
|
搜索推荐 算法 小程序
基于Java协同过滤算法的电影推荐系统设计和实现(源码+LW+调试文档+讲解等)
基于Java协同过滤算法的电影推荐系统设计和实现(源码+LW+调试文档+讲解等)
|
3月前
|
搜索推荐 算法 小程序
基于Java协同过滤算法的图书推荐系统设计和实现(源码+LW+调试文档+讲解等)
基于Java协同过滤算法的图书推荐系统设计和实现(源码+LW+调试文档+讲解等)
|
1月前
|
搜索推荐 前端开发 数据可视化
基于Python协同过滤的旅游景点推荐系统,采用Django框架,MySQL数据存储,Bootstrap前端,echarts可视化实现
本文介绍了一个基于Python协同过滤算法的旅游景点推荐系统,该系统采用Django框架、MySQL数据库、Bootstrap前端和echarts数据可视化技术,旨在为用户提供个性化的旅游推荐服务,提升用户体验和旅游市场增长。
115 9
基于Python协同过滤的旅游景点推荐系统,采用Django框架,MySQL数据存储,Bootstrap前端,echarts可视化实现
|
1月前
|
搜索推荐 前端开发 算法
基于用户画像及协同过滤算法的音乐推荐系统,采用Django框架、bootstrap前端,MySQL数据库
本文介绍了一个基于用户画像和协同过滤算法的音乐推荐系统,使用Django框架、Bootstrap前端和MySQL数据库构建,旨在为用户提供个性化的音乐推荐服务,提高推荐准确性和用户满意度。
102 7
基于用户画像及协同过滤算法的音乐推荐系统,采用Django框架、bootstrap前端,MySQL数据库
|
3月前
|
机器学习/深度学习 搜索推荐 算法
基于深度学习神经网络协同过滤模型(NCF)的图书推荐系统
登录注册 热门图书 图书分类 图书推荐 借阅图书 购物图书 个人中心 可视化大屏 后台管理
13096 2
基于深度学习神经网络协同过滤模型(NCF)的图书推荐系统