零、基础知识
0.1 召回粗排
召回的目的是根据用户部分特征,从海量物品库快速找到小部分用户感兴趣的物品交给精排,重点是强调快。
主要有两大类召回方式,一类是策略规则,一类是监督模型+embedding。其中策略规则,往往和业务场景是强相关,不同的场景会有不同的召回方式,对于这种"特异性"较强的知识,会放到后期讲。目前打算先讲解普适的方法,就是模型+embedding。
目前给用户和物品打embedding的主流方法, 比如FM系列(FM,FFM等), 用户行为序列,基于图和知识图谱系列,经典双塔系列等。这些方法看似很多很复杂,其实本质上还是给用户和物品打embedding而已,只不过考虑的角度方式不同。
在解读的过程中,对于一些重要模型,会进行代码复现,并应用到一些真实的实践任务中。至于粗排,有时候召回环节返回的物品数量还是太多,怕精排速度跟不上,所以可以在召回和精排之间加一个粗排环节,通过少量用户和物品特征,简单模型,来对召回的结果进行个粗略的排序,在保证一定精准的前提下,进一步减少往后传送的物品数量,粗排往往是可选的。因此粗排用到的很多技术与召回重合,所以先暂且归并到召回里,等后面把整体的基础知识都补充完毕了,再看情况要不要展开这块。
0.2 精排
精排阶段使用你能想到的任何特征,可以上你能承受速度极限的复杂模型,尽可能精准地对物品进行个性化排序,强调准确性。这一块关键技术主要分为三大块:
CTR预估:LR、FM家族、自动特征交叉的DNN家族。
多任务学习(Multi-Task Learning,也称为多目标学习)。多任务是很常见的,比如视频推荐中,用户喜欢、收藏、评论。而不同的任务可能会互相冲突,互相影响,造成模型学习起来十分困难。所以这一块是重难点,也是很多大公司的研究重点,更是未来的一大发展趋势。但好在这里每个模型或者技术有对应paper,所以和召回一样,这里依然可以利用解读paper的方式,把这些模型和技术娓娓道来。
排序打分公式融合。
0.3 重排
暂无。
0.4 冷启动
冷启动问题是指对于新用户和新商品,他们没有历史交互数据,无法分析历史喜好,这个时候我们应该如何做推荐。冷启动技术会穿插到召回或者重排中,有时也会和上面推荐系统做成并行的两路,专门应对冷启动场景。
整理和分类了Recsys 2021的Research Papers和Reproducibility papers。
按照推荐系统的研究方向和使用的推荐技术来分类,方便大家快速检索自己感兴趣的文章。个人认为Recsys这个会议重点不在于"技术味多浓"或者"技术多先进",而在于经常会涌现很多新的观点以及有意思的研究点,涵盖推荐系统的各个方面,例如,Recsys 2021涵盖的一些很有意思的研究点包括:
推荐系统的信息茧房和回音室问题的探讨,有4篇文章探讨了社交媒体推荐、音乐推荐和视频推荐中的信息茧房和回音室效应。很少见到在学术会议上专门讨论这样深刻的问题,值得一读。
推荐系统评估体系的探讨,对推荐系统整个评估体系的梳理,多个指标间如何做权衡等。
推荐系统的交互设计探讨,探讨了美食推荐场景下用户交互设计。关于用户界面/交互设计的推荐系统文章还是很新奇的。
推荐系统中的探索与利用探讨,例如Google关于用户探索的工作Values of User Exploration in Recommender Systems值得一读。
对已有工作的探讨和挑战,传统矩阵分解推荐系统和深度学习推荐系统的对比。例如:何向南老师的NCF工作和MF的对比,继Recsys20被进行对比后, 在Recsys21上又再次被摆上了台面进行对比。
Recsys20, Rendle S, Krichene W, Zhang L, et al. Neural collaborative filtering vs. matrix factorization revisited[C]//Fourteenth ACM Conference on Recommender Systems. 2020: 240-248.
Recsys21, Anelli V W, Bellogín A, Di Noia T, et al. Reenvisioning the comparison between Neural Collaborative Filtering and Matrix Factorization[C]//Fifteenth ACM Conference on Recommender Systems. 2021: 521-529.
还有些研究点也是值得一读的,比如推荐系统中的冷启动,偏差与纠偏,序列推荐,可解释性,隐私保护等,这些研究很有意思和启发性,有助于开拓大家的研究思路。
下面主要根据自己读题目或者摘要时的一些判断做的归类,按照推荐系统研究方向分类、推荐技术分类以及专门实验性质的可复现型文章分类。
一、按照推荐系统研究方向分类
1.1 信息茧房和回音室
信息茧房/回音室(echo chamber)/过滤气泡(filter bubble),这3个概念类似,在国内外有不同的说法。大致是指使用社交媒体以及带有算法推荐功能的资讯类APP,可能会导致我们只看得到自己感兴趣的、认同的内容,进而让大家都活在自己的小世界里,彼此之间难以认同和沟通。关于这部分的概念可参见知乎文章:https://zhuanlan.zhihu.com/p/71844281。有四篇文章探讨了这样的问题。
The Dual Echo Chamber: Modeling Social Media Polarization for Interventional Recommending
Tim Donkers and Jürgen Ziegler
I want to break free! Recommending friends from outside the echo chamber
Antonela Tommasel, Juan Manuel Rodriguez, and Daniela Godoy
Follow the guides: disentangling human and algorithmic curation in online music consumption
Quentin Villermet, Jérémie Poiroux, Manuel Moussallam, Thomas Louail, and Camille Roth
An Audit of Misinformation Filter Bubbles on YouTube: Bubble Bursting and Recent Behavior Changes
Matus Tomlein, Branislav Pecher, Jakub Simko, Ivan Srba, Robert Moro, Elena Stefancova, Michal Kompan, Andrea Hrckova, Juraj Podrouzek, and Maria Bielikova
1.2 探索与利用
此次大会在探索与利用上也有很多探讨,例如多臂老虎机、谷歌的新工作,即:用户侧的探索等。
Burst-induced Multi-Armed Bandit for Learning Recommendation
Rodrigo Alves, Antoine Ledent, and Marius Kloft
Values of User Exploration in Recommender Systems
Google, Minmin Chen, Yuyan Wang, Can Xu, Ya Le, mohit sharma, Lee Richardson, and Ed Chi
Designing Online Advertisements via Bandit and Reinforcement Learning
Yusuke Narita, Shota Yasui, and Kohei Yata
The role of preference consistency, defaults and musical expertise in users’ exploration behavior in a genre exploration recommender
Yu Liang and Martijn C. Willemsen
Top-K Contextual Bandits with Equity of Exposure
Olivier Jeunen and Bart Goethals
1.3 偏差与纠偏
涉及排序学习的纠偏、用户的偏差探索等。
Debiased Explainable Pairwise Ranking from Implicit Feedback
Khalil Damak, Sami Khenissi, and Olfa Nasraoui
Mitigating Confounding Bias in Recommendation via Information Bottleneck
Dugang Liu, Pengxiang Cheng, Hong Zhu, Zhenhua Dong, Xiuqiang He, Weike Pan, and Zhong Ming
User Bias in Beyond-Accuracy Measurement of Recommendation Algorithms
Ningxia Wang, and Li Chen
1.4 冷启动
利用图学习、表征学习等做冷启动。
Cold Start Similar Artists Ranking with Gravity-Inspired Graph Autoencoders
Guillaume Salha-Galvan, Romain Hennequin, Benjamin Chapus, Viet-Anh Tran, and Michalis Vazirgiannis
Shared Neural Item Representations for Completely Cold Start Problem
Ramin Raziperchikolaei, Guannan Liang, and Young-joo Chung
1.5 评估体系
涉及离线或在线评估方法,准确性和多样性等统一指标的设计等。
Evaluating Off-Policy Evaluation: Sensitivity and Robustness
Yuta Saito, Takuma Udagawa, Haruka Kiyohara, Kazuki Mogi, Yusuke Narita, and Kei Tateno
Fast Multi-Step Critiquing for VAE-based Recommender Systems
Diego Antognini and Boi Faltings
Online Evaluation Methods for the Causal Effect of Recommendations
Masahiro Sato
Towards Unified Metrics for Accuracy and Diversity for Recommender Systems
Javier Parapar and Filip Radlinski
1.6 会话/序列推荐
涉及session维度的短序列推荐;使用NLP中常用的Transformers做序列推荐的鸿沟探讨和解决,这个工作本人还挺感兴趣的,后续会精读下!
Next-item Recommendations in Short Sessions
Wenzhuo Song, Shoujin Wang, Yan Wang, and SHENGSHENG WANG
Transformers4Rec: Bridging the Gap between NLP and Sequential / Session-Based Recommendation
Gabriel de Souza Pereira Moreira, Sara Rabhi, Jeong Min Lee, Ronay Ak, and Even Oldridge
Denoising User-aware Memory Network for Recommendation
Zhi Bian, Shaojun Zhou, Hao Fu, Qihong Yang, Zhenqi Sun, Junjie Tang, Guiquan Liu, kaikui liu, and Xiaolong Li
Large-Scale Modeling of Mobile User Click Behaviors Using Deep Learning
Xin Zhou and Yang Li
1.7 隐私保护
结合联邦学习做隐私保护等。
Privacy Preserving Collaborative Filtering by Distributed Mediation
Alon Ben Horin, and Tamir Tassa
Stronger Privacy for Federated Collaborative Filtering With Implicit Feedback
Lorenzo Minto, Moritz Haller, Ben Livshits, and Hamed Haddadi
1.8 对抗与攻击
Black-Box Attacks on Sequential Recommenders via Data-Free Model Extraction
Zhenrui Yue, Zhankui He, Huimin Zeng, and Julian McAuley
1.9 对话推荐系统
Large-scale Interactive Conversational Recommendation System
Ali Montazeralghaem, James Allan, and Philip S. Thomas
1.10 可解释性推荐
EX3: Explainable Attribute-aware Item-set Recommendations
Yikun Xian, Tong Zhao, Jin Li, Jim Chan, Andrey Kan, Jun Ma, Xin Luna Dong, Christos Faloutsos, George Karypis, S. Muthukrishnan, and Yongfeng Zhang
1.11 跨域推荐
Towards Source-Aligned Variational Models for Cross-Domain Recommendation
Aghiles Salah, Thanh Binh Tran, and Hady Lauw
1.12 基于视觉的推荐
利用视觉信息做推荐。
Semi-Supervised Visual Representation Learning for Fashion Compatibility
Ambareesh Revanur, Vijay Kumar, and Deepthi Sharma
Tops, Bottoms, and Shoes: Building Capsule Wardrobes via Cross-Attention Tensor Network
Huiyuan Chen, Yusan Lin, Fei Wang, and Hao Yang
1.13 组推荐/用户物品分层推荐
Local Factor Models for Large-Scale Inductive Recommendation
Longqi Yang, Tobias Schnabel, Paul N. Bennett, and Susan Dumais
Learning to Represent Human Motives for Goal-directed Web Browsing
Jyun-Yu Jiang, Chia-Jung Lee, Longqi Yang, Bahareh Sarrafzadeh, Brent Hecht, Jaime Teevan
1.14 推荐系统交互设计
探讨了美食场景下,多用户意图的推荐系统的交互设计。
“Serving Each User”: Supporting Different Eating Goals Through a Multi-List Recommender Interface
Alain Starke, Edis Asotic, and Christoph Trattner
二、按照推荐技术分类
涉及传统协同过滤、度量学习的迭代;新兴的图学习技术、联邦学习技术、强化学习技术等的探索。
2.1 协同过滤
探索了传统的协同过滤工作,其中第一篇工作把CF和LDA联系在了一起,挺有意思。
Matrix Factorization for Collaborative Filtering Is Just Solving an Adjoint Latent Dirichlet Allocation Model After All
Florian Wilhelm
Negative Interactions for Improved Collaborative-Filtering: Don’t go Deeper, go Higher
Harald Steck and Dawen Liang
ProtoCF: Prototypical Collaborative Filtering for Few-shot Item Recommendation
Aravind Sankar, Junting Wang, Adit Krishnan, and Hari Sundaram
2.2 图学习
知识图谱的应用以及图嵌入技术和上下文感知的表征技术的融合,这两个工作个人都挺感兴趣。
Sparse Feature Factorization for Recommender Systems with Knowledge Graphs
Antonio Ferrara, Vito Walter Anelli, Tommaso Di Noia, and Alberto Carlo Maria Mancino
Together is Better: Hybrid Recommendations Combining Graph Embeddings and Contextualized Word Representations
Marco Polignano, Cataldo Musto, Marco de Gemmis, Pasquale Lops, and Giovanni Semeraro
2.3 强化学习
强化学习在推荐系统中的应用,和对话系统结合在一起;奖励函数的设计等。
Partially Observable Reinforcement Learning for Dialog-based Interactive Recommendation
Yaxiong Wu, Craig Macdonald, and Iadh Ounis,
Pessimistic Reward Models for Off-Policy Learning in Recommendation
Olivier Jeunen and Bart Goethals
2.4 度量学习
协同过滤和度量学习的结合,即:CML。
Hierarchical Latent Relation Modeling for Collaborative Metric Learning
Viet-Anh Tran, Guillaume Salha-Galvan, Romain Hennequin, and Manuel Moussallam
2.5 联邦学习
联邦学习的优化以及在隐私保护中的应用。
A Payload Optimization Method for Federated Recommender Systems
Farwa K. Khan, Adrian Flanagan, Kuan Eeik Tan, Zareen Alamgir, and Muhammad Ammad-ud-din
Stronger Privacy for Federated Collaborative Filtering With Implicit Feedback
Lorenzo Minto, Moritz Haller, Ben Livshits, and Hamed Haddadi
2.6 架构/训练/优化
涉及训练、优化、检索、实时流等。
cDLRM: Look Ahead Caching for Scalable Training of Recommendation Models
Keshav Balasubramanian, Abdulla Alshabanah, Joshua D Choe, and Murali Annavaram
Reverse Maximum Inner Product Search: How to efficiently find users who would like to buy my item?
Daichi Amagata and Takahiro Hara
Page-level Optimization of e-Commerce Item RecommendationsChieh Lo,
Hongliang Yu, Xin Yin, Krutika Shetty, Changchen He, Kathy Hu, Justin M Platz, Adam Ilardi, and Sriganesh Madhvanath
Accordion: A Trainable Simulator for Long-Term Interactive Systems
James McInerney, Ehtsham Elahi, Justin Basilico, Yves Raimond, and Tony Jebara
Information Interactions in Outcome Prediction: Quantification and Interpretation using Stochastic Block Models
Gaël Poux-Médard, Julien Velcin, and Sabine Loudcher
Learning An Adaptive Meta Model-Generator for Incrementally Updating Recommender Systems
Danni Peng, Sinno Jialin Pan, Jie Zhang, and Anxiang Zeng
Recommendation on Live-Streaming Platforms: Dynamic Availability and Repeat Consumption
Jeremie Rappaz, Julian McAuley, and Karl Aberer
三、实验性质的文章
Reproducibility papers可复现实验性质的文章,共3篇。分别探索了:序列推荐中的采样评估策略;对话推荐系统中生成式和检索式的方法对比;神经网络推荐系统和矩阵分解推荐系统的对比。
A Case Study on Sampling Strategies for Evaluating Neural Sequential Item Recommendation Models
by Alexander Dallmann, Daniel Zoller, Andreas Hotho (Data Science Chair, University of Würzburg, Würzburg, Germany)
Generation-based vs. Retrieval-based Conversational Recommendation: A User-Centric Comparison
by Ahtsham Manzoor and Dietmar Jannach (University of Klagenfurt, Klagenfurt, Austria)
Reenvisioning the comparison between Neural Collaborative Filtering and Matrix Factorization
by Vito Walter Anelli (Polytechnic University of Bari, Bari, Italy), Alejandro Bellogin (Information Retrieval Group, Universidad Autonoma de Madrid, Madrid, Spain), Tommaso Di Noia Polytechnic (University of Bari, Bari, Italy), and Claudio Pomo (Polytechnic University of Bari, Bari, Italy)
总结
通过此次的论文的整理和分类,笔者也发现了一些自己感兴趣的研究点,比如:推荐系统的回音室效应探讨文章;Transformers在序列推荐和NLP序列表征中的鸿沟和解决文章:Transformers4Rec;图嵌入表征和上下文感知表征的融合文章;NCF和MF的实验对比文章;谷歌的用户探索文章等。
NLP和推荐算法的联系
提问:
最近在关注招聘信息,发现NLP岗位很少并且范围很窄。
找工作可能还是选搜广推,搜索最最相关,感觉和jd要求的技术栈也比较匹配,竞争力相对强,但是感觉和nlp绑定较大,担心以后发展受限。
推荐和广告很热岗位也很多,但是感觉经历不太match,jd提及的推荐广告基础等也不太熟悉,传统ml也不太在行,很担心竞争力不够。
所以是all in 竞争力强的搜索,还是推荐广告全都投?
知乎用户bytecoder回答:
作为一名NLP方向搬砖工,这三个方向都搞过,按照自己的理解,分别来说一下NLP在这三个大方向分别能做啥,然后题主按照兴趣可以对号入座:
1. 搜索
:query理解(纠错、改写、分词、重要性、紧密度)、doc理解(赋权、文本摘要、关键词抽取)、文本相关性(语义匹配模型)、倒流(搜索词生成)、知识图谱、精准问答、摘要飘红(阅读理解)。
2.广告
:ocpx时代,广告主能操作的就只有创意和定向了,定向(行为兴趣定向,主要是通过理解内容来做可解释强的用户定向【讲内容标签通过牛顿冷却定理等打到用户身上】,据传大的广告平台,定向消耗一天能占1个亿),创意(标题生成、内容理解、程序化创意),内容审核(低俗广告不准投放),电销商机识别。
3. 推荐:
内容生态规整,通过NLP技术帮助对内容生态做规整(黄反识别、低俗识别、文本消重、标题党识别等),针对内容生态做治理,帮助建立更好的内容壁垒。某国内一线推荐大厂自诩能够机器写文章,可见文本生成在整个推荐领域也是有很强的应用背景的。
如果从NLP对于整个系统的重要程度来看,NLP在搜索中是雪中送炭,而NLP针对广告和推荐叫做锦上添花。所以如果有NLP背景,从事搜索系统,那么就相当于是众望所归的一个选择。
非推广搜的场景下,NLP还能做啥:
1. 智能客服
(阿里小蜜、京小智、店小蜜、晓多等)是NLP领域非常重要的一个应用场景,涵盖意图理解、FAQ、slot filling、多轮对话、KBQA、阅读理解(抽取QA对)、帮助人提效,缓解客服压力。
2. 机器翻译
,记得15年之前,机器翻译还是偏SMT一些,采用的trick多于模型,seq2seq的出现,正式将机器翻译从可用变成了好用,帮助我们能够更好的进行语言交流。
3. 排序
另外懂NLP模型的同学,其实也可以去做排序工作,只不过需要加一些业务的理解(广告业务、推荐业务、搜索业务),现在的模型基本上百花齐放,但是工业界真正经典的也就是几个而已(LR、GBDT、FM、FFM、Wide & Deep),关键是需要放下模型党的清高,能够扎深业务,做一个解决问题的人。
4. NLP经常是灵感
另外再补充一个彩蛋:推荐系统中借鉴NLP的例子还有很多,比如当把召回建模成一个类别有几十万、上百万类的多分类问题时,softmax每次计算分母的代价太高,因此YoutubeNet借鉴了Language Model中的sampled softmax来近似求解。阿里的Deep Interest Network开启了在推荐系统中引入Attention的先河,而Attention最早是在Neural Machine Translation中被发明的。所以,当你在推荐搜索领域遇到某个问题,NLP或许是一个非常好的灵感来源。
上交大佬的科研分享演讲
10篇顶会paper,入选微软学者,上海交大吴齐天的科研思考!
原创 吴齐天 Datawhale 今天
作者吴齐天,上海交通大学,导师严骏驰
首先和大家介绍一下我的经历,我现在是交大计算机系的博士生,研究方向是机器学习和数据挖掘,主要是关注复杂结构数据的学习问题,应用场景有推荐系统、在线广告、社交网络以及知识图谱等。目前发表了14篇论文,包括10篇独立一作,其中有6篇论文发表在NeurIPS/ICML/KDD三大顶会上。