本文调查了一个富有潜力的问题,即多模态推荐系统MoRec 是否有望终结 IDRec 在推荐系统领域长达10年的主导地位,基于此,论文进行了深入研究。相关成果已被 SIGIR 2023 接收。
研究背景 [纯 ID 推荐系统 vs 纯模态推荐系统]
自矩阵分解问世以来,使用 ID embedding 来建模物品的协同过滤算法已经成为推荐系统最主流的范式,主导了整个推荐系统社区长达 15 年。经典的双塔架构、CTR 模型、会话和序列推荐、Graph 网络无不采用 ID embedding 来对物品进行建模,整个推荐系统现有的 SOTA 体系也几乎都是采用基于 ID 特征的建模手段。
然而,近年来 NLP、CV 和多模态预训练大模型技术蓬勃发展,取得了一系列革命性成果,预训练大模型(又称为基础模型)对多模态(文本和图像)建模能力越来越强,知名的基础模型包括 BERT,GPT, Vision Transformer,CLIP 等。随着基础模型对物品的模态特征的建模和理解能力的增强,一个自然的问题出现了:使用最先进的模态编码器表征物品是否能取代经典的 itemID embedding 范式?论文称此类模型为 MoRec,MoRec 是否能和经典的纯 ID 范式(IDRec)硬刚,超过或者取代 IDRec?
实际上这一问题在 10 年前就被广泛调查过,然而,当时受制于 NLP 和 CV 技术不足,IDRec 在效率和效果上都可以轻松碾压 MoRec。但是该结论在十年后的今天是否仍然成立?论文认为需要重新思考这一问题。其中一个重要原因是,论文认为基于 ID 的经典范式是与当近大模型技术严重背离的。因为 ID 在不同的推荐业务无法共享,这一特性导致推荐系统模型难以在不同的业务进行有效迁移,更无法实现 NLP 和 CV 领域的 one model for all(one4all)范式。
值得注意的是,虽然近几年有不少文献尝试将 NLP、CV 预训练模型引入推荐系统的领域,但这些文献往往关注于冷启动和新物品场景,而这种场景下 IDRec 的效果自然是不理想的,这也是普遍接受的。但是对于常规场景,也就是非冷启动,甚至是热 item 场景,IDRec 仍是非常强的基线,在这种场景下 MoRec 与 IDRec 哪个更好仍然是未知的。论文特别指出,现有的很多 MoRec 文献虽然声称取得了 SOTA 结果,但是并没有显式地比较 IDRec 与 MoRec。这里作者认为要做到公平比较是指:IDRec 与 MoRec 至少应该采用相同的骨架推荐模型和实验设置(例如,采样和损失函数保持一致)。也就是除了 item 的表示方式,其他部分都应该保持一致或者公平。
论文认为 MoRec 与 IDRec 的公平比较是非常重要的,如果在热场景下 MoRec 也能打败 IDRec,那么推荐系统将有望迎来经典范式的变革。这一观点来自于 MoRec 完全基于物品的模态信息,此类内容信息天生具有迁移能力,这证明了 MoRec 有潜力实现通用大模型。因此,只要 MoRec 在各种场景下都能打败 IDRec,或者只需要做到跟 IDRec 具有相当的推荐效果,那么 IDRec 就有望被推翻。换言之,one4all 推荐模型一旦实现,未来的推荐系统只需要在一个或者几个通用大模型上进行微调,甚至做零样本迁移即可。如果实现这一理想,那么推荐系统领域无疑会发生近 10 年最大的变革,无数的推荐系统工程师重复性的劳动都有望被释放。
除此以外,文章还验证了 2 个重要的问题:(1)对于 MoRec,现有的 NLP 和 CV 领域取得的进展,也就是更强大的(多)模态编码器能否能够直接带来推荐系统效果的直接提升;如果这个问题得到肯定答案,那么 MoRec 范式无疑是更加有潜力的,随着更强的 NLP 和 CV 表征模型的产生,MoRec 也将越强;(2)NLP 和 CV 预训练大模型,如 BERT 和 Vision Transformer,产生的物品表征应该如何使用?工业界最常用的手段是直接将这些表征当做离线特征来加入推荐或 CTR 模型,这种方法是不是最优的;换言之,这种大模型产生的物品表征是否具有一定的通用性,是否必须要在推荐系统数据集上进行重新适应?最后论文提供 MoRec 发展的四个挑战,这些问题大多在现有的文献没有被明确提出。
论文也指出,想要彻调查清楚这一问题,甚至是颠覆 IDRec,紧靠一篇文章是远远不够的,将需要整个推荐系统社区一同努力。
实验设置
网络架构
该文章为了验证设想,对推荐系统社区两种最具有代表性的推荐架构进行了评估,分别是最经典的双塔 DSSM 模型(代表 CTR 范式)和 SASRec 模型(代表时序或者会话推荐)。SASRec 采用最为流行的 Transformer 架构。
为了保证公平比较,MoRec 和 IDRec 唯一的不同之处是使用预训练的模态编码器来替代 IDRec 中的 ID embedding 向量。考虑到相同推荐网络架构下的 MoRec 需要比 IDRec 多出一个参数量巨大的预训练模态编码器网络,在调参过程中很难极限地对 MoRec 进行超参数搜索。为此,本文只对 IDRec 进行较大范围的网格参数搜索,定位 IDRec 的最优参数后直接应用到 MoRec,然后在对应的较小调参空间做简单搜索。这样的调参方式可以保证 IDRec 达到最优,但 MoRec 可能没有达到性能上限。考虑到搜参的困难,作者认为仅仅 MoRec 的调参就可以作为一个非常重要的研究方向,下文 MoRec 面临的几个挑战也再次印证了超参数对于 MoRec 非常重要。
数据集
论文使用了 3 个数据集,用户规模在 40-60 万,商品规模在 8-12 万,分别是文本信息主导的新闻推荐数据集 MIND,商品图片信息主导的 HM 和视频推荐数据集 Bili。这些数据集均含有商品的原始模态信息。MIND 和 HM 都是公开数据集,作者已将实验所用数据集公布在 Github(链接见上),Bili 数据集来自于未发表的论文,可通过邮件获取,详情可见 Github。
可以看出,Bili 和 HM 数据集中的图片和 CV 领域用于预训练的数据集(ImageNet)存在一定差异,在 ImageNet 上预训练得到的图片编码器在推荐系统是否具有足够的泛化能力仍然是一个未知的问题。对于该问题,论文在后面进行了实验探究。