3.5 CIKM’20 京东 | Deep Multifaceted Transformers for Multi-objective Ranking in Large-Scale E-commerce Recommender Systems [2]
- 问题背景:已有工作缺少对用户多种行为的利用,缺少对多任务的建模,缺少对场景Bias的建模。
- 业务场景:商品搜索排序阶段
- 特征方面:使用了点击,加购,成交3个Item Sequence,分别表征短期,中期和长期兴趣;对连续型数值特征使用了Z-score归一化;Bias Deep Neural Network中使用了Neighbor Feature,即商品展示时周围的商品信息,他们会影响用户对商品的点击。
- 模型方面
DMT
- 序列建模部分使用Self Attention+Target Attention,位置编码通过sin-cos或可学习的方式生成。
- 多任务建模部分使用MMOE,相比较简单共享底层Embedding,MMOE相当于学习了一组“基”Embedding(划分多个Expert),然后通过Gate机制为每个任务针对性的加权组合“基”Embedding。
- Bias建模部分使用Bias特征+MLP,输出的Logits与主网络Logits相加。
3.6 AAAI’20 阿里 | Deep Match to Rank Model for Personalized Click-Through Rate Prediction [17]
- 问题背景:已有工作更关注对User Embedding的表达,而没有关注到User和Item的相关性,该相关性可以更直接地反映User对Item的偏好。个人理解是,DIN等模型将学习到的Sequence Embedding(用户兴趣向量)与User Profile,待排序物品特征等Concat后送入最上层的MLP进行特征交叉最终输出一个CTR预估分数,作者认为在Concat特征送入MLP进行交叉前就计算一个User和Item相关性可以降低模型的学习难度。
- 业务场景:商品推荐排序阶段
- Feature Representation:将召回得分也作为了排序时的特征。
DMR
- User-to-Item Network
- 是位置特征, 是Item特征,这里用序列中Item自身特征学习其重要性总感觉有点奇怪,不过换个角度将随机初始化的z作为一个与任务相关的Query,最终重要性则取决于与该Query的相关性。
- 对行为序列加权求和后得到User Embedding u,再将该Embedding与待排序的Item v计算点积r作为相关性特征。不过在一个上千维的Concat特征中多一个一维的相关性特征真的有效吗?
- Auxiliary match network
Auxiliary match network
- 这里是用行为序列中前T-1个Item表征用户,然后用该表征去召回第T个Item(类似于DIEN的Auxiliary Loss的特殊形式)。
- 这里其实相当于一个召回过程。召回和排序是工程上的折中,召回阶段模型简单但打分域大,模型见识过的数据多,排序阶段模型复杂但打分域小,模型见识过的数据少。将召回过程引入排序阶段,扩大了模型的打分域(体现在负采样),让模型见过了更多样本从而表达能力更强,但是线上部署恐怕是个问题。
- Item-to-Item Network
Item-to-Item Network
- 加性模型计算Attention,用到了待排序的Item特征,属于Target Attention。
- Target Item的Embedding和Sequence Item的Embedding不是共享的。
- 将未经softmax归一化的Attention之和作为另一个User和Item的相关性分特征。
3.7 AAAI’21 腾讯 | U-BERT: Pre-training User Representations for Improved Recommendation [4]
[外链图片转存中…(img-PKHOQRkc-1635863814266)]
U-BERT
这篇论文主要是用BERT对Review(评论)数据进行预训练,加入了领域相关的特征,加入了特征互交叉的操作,在数据集比较小的目标领域上取得了不错的效果,但是对于像手淘搜索这样的大流量场景,预训练的方式想要取得效果可能不太容易。
3.8 IJCAI’19 阿里 | Deep Session Interest Network for Click-Through Rate Prediction [6]
- 问题背景:序列可以被划分为多个Session(一个时间窗口),Session内的Item是同构的,Session间的Item是异构的。例如,用户在一个Session内购买了衣服,裤子,鞋等,在另一个Session内购买了switch,便携屏,投影仪等。直接对整个行为序列用RNN或Attention模型建模会存在问题。
[外链图片转存中…(img-5VZxIz3p-1635863814267)]
Session
- 业务场景:商品推荐排序阶段
- Session Division Layer:将行为序列按照30分钟的时间窗口划分为多个Session。
/