高效利用多级用户意图,港科大、北大等提出会话推荐新模型Atten-Mixer

简介: 高效利用多级用户意图,港科大、北大等提出会话推荐新模型Atten-Mixer

作者:罗昊京

Atten-Mixer 模型的研究论文获得了 WSDM2023 最佳论文荣誉提名。


推荐系统作为一种智能化的信息过滤技术,已在实际场景中得到广泛的应用。然而,推荐系统的成功往往建立在大量的用户数据之上,而这些数据可能涉及用户的私密和敏感信息。在用户信息受到隐私保护限制或无法获取的场景下,传统的推荐系统往往难以发挥良好的效果。因此,如何在保证隐私安全性的前提下,构建可信赖的推荐系统,是一个亟待解决的问题。


近年来,随着用户对自身隐私的重视程度不断提高,越来越多的用户倾向于在使用在线平台时不进行登录操作,这也使得匿名的基于会话的推荐成为一个重要的研究方向。近日,来自香港科技大学、北京大学、微软亚研等机构的研究者提出了一种高效利用多级用户意图的新模型 Atten-Mixer。研究论文获得 WSDM2023 最佳论文荣誉提名。



论文链接:https://dl.acm.org/doi/abs/10.1145/3539597.3570445


研究背景


基于会话的推荐 (Session-based recommendation, SBR) 是一种基于用户在短暂、动态的会话(即用户的行为序列)进行推荐的方法。


与传统的基于用户或物品的推荐系统相比,SBR 更侧重于捕捉用户在当前会话中的即时需求,能够更有效地适应用户兴趣的快速演化和长尾效应的挑战。


在 SBR 模型的演进过程中,从基于循环神经网络 (Recurrent Neural Network, RNN) 的模型,到基于卷积神经网络 (Convolutional Neural Network, CNN) 的模型,再到近期的 SBR 研究中广泛采用基于图神经网络 (Graph Neural Network, GNN) 的模型来更好地挖掘物品之间复杂的转移关系。



然而,这些模型在基准数据集上的性能提升与其模型复杂度的指数级增长相比显得十分有限。面对这种现象,本文提出了如下问题:这些基于 GNN 的模型是不是对于 SBR 来说过于简单或者过于复杂了?


初步分析


为了回答这个问题,作者试图解构现有的基于 GNN 的 SBR 模型,并分析它们在 SBR 任务上的作用。


一般来说,典型的基于 GNN 的 SBR 模型可以分解为两个部分:


(1)GNN 模块。参数可以分为图卷积的传播权重和将原始嵌入和图卷积输出融合的 GRU 权重。

(2)Readout 模块。参数包括用于生成长期表示的注意力池化权重和用于生成会话表示以进行预测的转换权重。



接下来,作者分别在这两个部分上采用 Sparse Variational Dropout(SparseVD),一种常用的神经网络稀疏化技术,并在训练模型时计算参数的密度比 (density ratio)。


参数的 density ratio 指的是参数的权重中大于某个阈值的元素数与总元素数的比例,其数值可用于衡量参数的重要性。



GNN 模块。 


由于 GNN 有很多参数,随着随机初始化,在一开始会有许多要更新的知识。因此我们可以看到图卷积传播权重的 density ratio 在一开始的几个 batch 数据上会有波动。随着训练趋于稳定,该 density ratio 会趋于 0。 


Readout 模块。


我们可以发现,随着训练的进行,注意力池化权重的 density ratio 可以保持在一个较高水平。在其他数据集和其他 GNN-based SBR 模型上,我们也可以观测到相同的趋势。


因此,作者发现 GNN 模块的许多参数在训练过程中都是冗余的。 基于此,作者提出了以下用于 SBR 的更简单而更有效的模型设计准则:


(1) 不过分追求复杂的 GNN 设计,作者倾向于删除 GNN 传播部分,仅保留初始嵌入层

(2) 模型设计者应该更加关注基于注意力的 Readout 模块


由于注意力池化权重参数保持了较高的密度比,作者推测在基于注意力的 readout 方法上进行更先进的架构设计将会更有利。


由于本文放弃了对 GNN 传播部分的依赖,Readout 模块应该承担更多模型推理上的责任。


考虑到现有的基于实例视图 (instance-view) 的 Readout 模块的推理能力有限,本文需要设计具有更强的推理能力的 Readout 模块。


如何设计具有更强推理能力的 Readout 模块


根据精神病理学的研究,人类推理本质上是一种多层次信息处理的过程。


例如,通过综合考虑 Alice 交互的底层商品,人类可以获得一些更高层次的概念,比如 Alice 是否打算筹备婚礼或者装饰新房子。在确定 Alice 很可能是在筹备婚礼后,人类接着会考虑与花束相关的婚礼用品,如婚礼气球,而不是与花束相关的装饰用品,如壁画。


在推荐系统中采用这种多层次推理策略可以帮助剪枝大量的搜索空间,避免局部最优解,通过考虑用户的整体行为趋势,收敛到更令人满意的解决方案。


因此,本文希望在 Readout 模块设计中引入这种多层推理的机制



然而,获得这些高层概念不是一件容易事,因为单纯地枚举这些高层概念并不现实,并且很可能引入无关的概念并干扰模型的性能。


为了应对这个挑战,本文采用两个 SBR 相关的归纳偏置 (inductive biases): 即局部不变性 (local invariance) 和固有优先级 (inherent priority),来缩减搜索空间


  • 固有优先级指的是 session 中后几个 item 更能反映用户的当前兴趣;
  • 局部不变性指的是 session 中后几个 item 的相对顺序并不影响用户的兴趣,因此在实践中可以通过不同数目的尾部 item 形成 group,通过这些 group 来构建相关的高层概念。


在这里尾部 item 对应固有优先级,group 对应局部不变性,而不同数目则代表本文考虑多层的高层概念。



提出模型


因此,本文提出了一个名为 Atten-Mixer 的模型。该模型可以与各种编码器集成。对于输入 session,模型从 embedding 层中获取每个 item 的 embedding。然后,模型对生成的 group representation 应用 linear transformation,以生成多级用户意图查询(multi-level user intent queries)。



其中 Q1 是 instance-view attention query,而其他的则是更高级别的 attention query,具有不同的感受野和局部不变信息。接下来,模型使用生成的 attention queries 来 attend 该 session 中每个 item 的 hidden state,并获得最终的 session representation。


实验及结果


在离线实验中,本文采用了三个不同领域的数据集:Diginetica 是电子商务交易的数据集,Gowalla 是社交网络的数据集,Last.fm 是音乐推荐的数据集。



离线实验结果


(1) 整体对比


作者将 Atten-Mixer 与基于 CNN、基于 RNN、基于 GNN 和基于 readout 的四种基准方法进行了对比。


实验结果表明,Atten-Mixer 在三个数据集上都在准确性和效率方面超越了基准方法。



(2) 性能提升分析


此外,作者还将 Atten-Mixer 模块嵌入到 SR-GNN 和 SGNN-HN 中,以验证该方法对原始模型的性能提升作用。


离线实验结果显示,Atten-Mixer 在所有数据集上都显著提升了模型性能,尤其是在评价指标中的 K 值较小时,说明 Atten-Mixer 能够帮助原始模型生成更精确和用户友好的推荐。



在线实验结果


作者还于 2021 年 4 月将 Atten-Mixer 部署到了大规模电商在线服务中,线上实验显示多级注意力混合网络 (Atten-Mixer) 在各种线上业务指标上都取得了显著提升。




实验结论


总结一下,Atten-Mixer 具备多级推理能力,在准确性和效率方面展现了优异的在线和离线性能。以下是一些主要贡献:


  • 复杂的模型架构并不是 SBR 的必要条件,而基于注意力的 readout 方法的创新架构设计则是一种有效的解决方案。
  • 多级概念相关性有助于捕捉用户的兴趣,利用归纳偏差是发现信息丰富的高阶概念的有效途径。


研究过程


最后,值得一提的是,这篇文章在获得 WSDM2023 最佳论文荣誉提名的背后还有一段曲折的开发经历,如文章作者之一来自 UIUC 的 Haohan Wang 介绍的那样,这篇文章其实先后因为太过简单而在投稿过程中拒绝过多次,值得庆幸的是,文章的作者并没有为了中文章而去迎合审稿人的口味,而是坚持了自己简单的方法,并最终让这篇文章获得了荣誉。


相关文章
|
16天前
|
人工智能 JSON 供应链
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
LucianaiB分享零成本畅用JVS Claw教程(学生认证享7个月使用权),并开源GeoMind项目——将JVS改造为科研与产业地理情报可视化AI助手,支持飞书文档解析、地理编码与腾讯地图可视化,助力产业关系图谱构建。
23517 12
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
|
3天前
|
Shell API 开发工具
Claude Code 快速上手指南(新手友好版)
AI编程工具卷疯啦!Claude Code凭借任务驱动+终端原生的特性,成了开发者的效率搭子。本文从安装、登录、切换国产模型到常用命令,手把手带新手快速上手,全程避坑,30分钟独立用起来。
1142 7
|
4天前
|
人工智能 BI 持续交付
Claude Code 深度适配 DeepSeek V4-Pro 实测:全场景通关与真实体验报告
在 AI 编程工具日趋主流的今天,Claude Code 凭借强大的任务执行、工具调用与工程化能力,成为开发者与自动化运维的核心效率工具。但随着原生模型账号稳定性问题频发,寻找一套兼容、稳定、能力在线的替代方案变得尤为重要。DeepSeek V4-Pro 作为新一代高性能大模型,提供了完整兼容 Claude 协议的 API 接口,只需简单配置即可无缝驱动 Claude Code,且在任务执行、工具调用、复杂流程处理上表现极为稳定。
1348 3
|
9天前
|
人工智能 缓存 Shell
Claude Code 全攻略:命令大全 + 实战工作流(完整版)
Claude Code 是一款运行在终端环境下的 AI 编码助手,能够直接在项目目录中理解代码结构、编辑文件、执行命令、执行开发计划,并支持持久化记忆、上下文压缩、后台任务、多模型切换等专业能力。对于日常开发、项目维护、快速重构、代码审查等场景,它可以大幅减少手动操作、提升编码效率。本文从常用命令、界面模式、核心指令、记忆机制、图片处理、进阶工作流等维度完整说明,帮助开发者快速上手并稳定使用。
2483 4
|
3天前
|
人工智能 JSON BI
DeepSeek V4-Pro 接入 Claude Code 完全实战:体验、测试与关键避坑指南
Claude Code 作为当前主流的 AI 编程辅助工具,凭借强大的代码理解、工程执行与自动化能力深受开发者喜爱,但原生模型的使用成本相对较高。为了在保持能力的同时进一步降低开销,不少开发者开始寻找兼容度高、价格更友好的替代模型。DeepSeek V4 系列的发布带来了新的选择,该系列包含 V4-Pro 与 V4-Flash 两款模型,并提供了与 Anthropic 完全兼容的 API 接口,理论上只需简单修改配置,即可让 Claude Code 无缝切换为 DeepSeek 引擎。
889 0
|
19天前
|
人工智能 缓存 BI
Claude Code + DeepSeek V4-Pro 真实评测:除了贵,没别的毛病
JeecgBoot AI专题研究 把 Claude Code 接入 DeepSeek V4Pro,跑完 Skills —— OA 审批、大屏、报表、部署 5 大实战场景后的真实体验 ![](https://oscimg.oschina.net/oscnet/up608d34aeb6bafc47f
6007 22
Claude Code + DeepSeek V4-Pro 真实评测:除了贵,没别的毛病
|
21天前
|
人工智能 JSON BI
DeepSeek V4 来了!超越 Claude Sonnet 4.5,赶紧对接 Claude Code 体验一把
JeecgBoot AI专题研究 把 Claude Code 接入 DeepSeek V4Pro 的真实体验与避坑记录 本文记录我将 Claude Code 对接 DeepSeek 最新模型(V4Pro)后的真实体验,测试了 Skills 自动化查询和积木报表 AI 建表两个场景——有惊喜,也踩
7236 18