覆盖四种场景、包含正负向反馈,腾讯、西湖大学等发布推荐系统公开数据集Tenrec(2)

简介: 覆盖四种场景、包含正负向反馈,腾讯、西湖大学等发布推荐系统公开数据集Tenrec

6、Cold-start Recommendation


冷启动是推荐任务中一个悬而未决的挑战。Tenrec 的一个主要优点是有用户重叠和 items 重叠的信息,因此可用于解决冷启动的问题。


数据预处理:该任务中 QK-video 作为源数据集,QK-article 作为目标数据集。为了更加贴合实际场景,研究者设置了几个不同的冷用户场景,例如全冷用户和冷热用户混合场景。同样的,这里设置 8:1:1 的数据划分策略。


Baseline 模型:在该任务中,研究者使用如下模型:PeterRec 和 BERT4Rec。



实验结果:表 7 显示了 Cold-start Recommendation 的结果。首先,我们发现 PeterRec 和 BERT4Rec 通过预训练都有明显的效果提升。


7、Lifelong User Representation Learning


当把一个模型从一个领域迁移到另一个领域时,在原始任务训练的参数往往会被修改来适应新的任务。因此,模型将不再适用于原始任务,这就是灾难性遗忘。Conure 提出了一个 "一个模型适用所有任务" 的学习框架,其目的是建立一个适用所有场景的用户表征(User Representation:UR)模型。在本节中,研究者通过在四个场景中迁移用户的偏好来研究终身学习(Lifelong Learning LL),即从 QK-video 到 QK-article 到 QB-video 到 QB-article。


数据预处理:研究者从 QK-video-1M 随机抽取百分之五十的用户用于 LL 的任务 1。然后使用 QK-article、QB-video 和 QB-article 与作为其他任务的数据集。其中,QK-article 保留最多三个交互,由于 QB-video 和 QB-article 的用户量和点击行为较少,因此保留这两个数据集的用户的所有交互。


Baseline 模型:在该任务中,研究者将 Conure 的方法应用在 NextItNet 和 SASRec 上。



实验结果:表 8 显示了用持续学习的用户表征进行推荐的结果。可以清楚地看到,因为在任务 1 的预训练,Conure 在任务 2、3 和 4 上提供了性能改进。


8、Model Compression


模型压缩可以将大型神经模型部署到容量有限的设备中,如 GPU 和 TPU(张量处理单元)。对于推荐系统模型来说,嵌入层的参数数量很容易达到数亿到数十亿的级别。


数据预处理:研究者对 Session-based Recommendation 任务中的模型进行参数压缩,并使用与 Session-based Recommendation 任务相同的数据集。


Baseline 模型:该任务中将 CpRec 框架应用在 NextItNet 和 SASRec 上。


实验结果:表 9 显示 CpRec 将 NextItNet 和 SASRec 压缩到其原始大小的三分之二。


9、Model Training Speedup


这项任务的目的是加速层数非常多的模型的训练过程。与浅层的 CTR 模型不同,SBR 模型层数可以更深。为了加速训练过程,他们提出了 StackRec,它首先学习一个浅层模型,然后将这些浅层复制为深层模型。同样地,研究者通过使用 NextItNet 和 SASRec 作为骨架来评估 StackRec 框架。


数据预处理:数据集使用和预处理方式与 Session-Based Recommendation 任务相同。


Baseline 模型:该任务中将 StackRec 框架应用在 NextItNet 和 SASRec 上。


实验结果:表 10 显示了训练加速的结果。可以得出几个观察结果:(1) StackRec 明显减少了 NextItNet 和 SASRec 的训练时间;(2) 训练加速并没有导致推荐精度的下降。


10、Model Inference Speedup


随着模型层数地增加,会出现一个问题:推理成本也大大增加。导致在线推理的高延迟。然而实际场景中,推荐系统中的用户可以分为困难用户和容易用户,向容易用户推荐物品不需要通过整个网络。因此,可应用 SkipRec 框架。在模型推理阶段,它可以自适应地决定哪个用户需要哪个层。


数据预处理:数据集使用 QB-video,预处理方式与 Session-Based Recommendation 任务相同。


Baseline 模型:该任务中将 SkipRec 框架应用在 NextItNet 和 SASRec 上。


实验结果:表 11 显示了 SkipRec 对 QB-video 的影响。我们看到 SkipRec 中的跳过策略可以大大加快 SBR 模型的推理时间,例如 NextItNet 约加速 23%,SASRec 约 32%。且 32 层的 SkipRec-NextItNet 依然要比 16 层的 NextItNet 的推理速度要快。


11、Top-N Recommendation


Top-N 推荐是推荐系统较为经典的任务。研究者在 QB-video 数据集上验证 Top-N Recommendation。


数据预处理:过滤掉序列长度小于 10 的用户,并且按照 8:1:1 的分割比例划分训练集、验证集和测试集。另外,采用随机采样和频率采样作为负采样方法。


Baseline 模型:在该任务中使用 MF,NCF,NGCF 和 Light GCN 模型。


实验结果:实验结果表明,一个更好的负采样器有助于提高准确率,例如频率采样。

结论


本文向读者介绍了 Tenrec,目的是推动推荐系统社区的发展。它是目前最大和最通用的推荐数据集之一,涵盖多个具有各种类型用户反馈的真实场景,用户反馈行为包括点击,点赞,分享,关注和真实负反馈等。并且研究者呈现了十一个热门推荐系统任务的经典算法在 Tenrec 上的实验结果,Tenrec 可用于 CTR 预测、序列推荐、多任务学习、迁移学习、用户画像预测、冷启动推荐、终身学习、模型压缩、模型训练加速、模型推理加速和 Top-N 推荐等相关任务研究。除了上述任务以外,Tenrec 还可以应用于交叉领域推荐,用户不同反馈的迁移和不同负采样的 items 推荐等任务。Tenrec 经过数据脱敏处理,用户的个人信息隐私问题得到了很好的保护。

相关文章
|
机器学习/深度学习 数据采集 资源调度
【推荐系统】推荐场景为什么不可以使用SVD分解共现矩阵
【推荐系统】推荐场景为什么不可以使用SVD分解共现矩阵
170 0
【推荐系统】推荐场景为什么不可以使用SVD分解共现矩阵
|
机器学习/深度学习 存储 人工智能
深度学习应用篇-推荐系统[11]:推荐系统的组成、场景转化指标(pv点击率,uv点击率,曝光点击率)、用户数据指标等评价指标详解
深度学习应用篇-推荐系统[11]:推荐系统的组成、场景转化指标(pv点击率,uv点击率,曝光点击率)、用户数据指标等评价指标详解
深度学习应用篇-推荐系统[11]:推荐系统的组成、场景转化指标(pv点击率,uv点击率,曝光点击率)、用户数据指标等评价指标详解
|
人工智能 搜索推荐 算法
秒懂算法 | 推荐系统常用数据集和验证方法
推荐系统常用数据集和验证方法
2227 1
秒懂算法  | 推荐系统常用数据集和验证方法
|
机器学习/深度学习 数据采集 移动开发
覆盖四种场景、包含正负向反馈,腾讯、西湖大学等发布推荐系统公开数据集Tenrec(1)
覆盖四种场景、包含正负向反馈,腾讯、西湖大学等发布推荐系统公开数据集Tenrec
306 0
|
机器学习/深度学习 自然语言处理 监控
7 Papers & Radios | MIT研究登Science;腾讯深度学习推荐系统首次入选OSDI顶会
7 Papers & Radios | MIT研究登Science;腾讯深度学习推荐系统首次入选OSDI顶会
202 0
|
机器学习/深度学习 存储 缓存
每秒10亿次更新、实现秒级同步延迟,腾讯深度学习推荐系统首次入选OSDI顶会(2)
每秒10亿次更新、实现秒级同步延迟,腾讯深度学习推荐系统首次入选OSDI顶会
184 0
|
机器学习/深度学习 存储 缓存
每秒10亿次更新、实现秒级同步延迟,腾讯深度学习推荐系统首次入选OSDI顶会(1)
每秒10亿次更新、实现秒级同步延迟,腾讯深度学习推荐系统首次入选OSDI顶会
137 0
|
机器学习/深度学习 搜索推荐 算法
【推荐系统】美团外卖推荐场景的深度位置交互网络DPIN的突破与畅想
美团基础研发机器学习平台训练引擎团队,联合到家搜推技术部算法效能团队、NVIDIA DevTech团队,成立了联合项目组。目前在美团外卖推荐场景中进行了部署,多代模型全面对齐算法的离线效果,对比之前,优化后的CPU任务,性价比提升了2~4倍。
512 0
【推荐系统】美团外卖推荐场景的深度位置交互网络DPIN的突破与畅想
|
存储 分布式计算 搜索推荐
推荐系统常用数据集
推荐系统常用数据集
1558 0
推荐系统常用数据集
|
人工智能 搜索推荐 定位技术
《中国人工智能学会通讯》——11.7 场景化个性化的地理位置推荐系统
本节书摘来自CCAI《中国人工智能学会通讯》一书中的第11章,第11.7节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。
1494 0