带你读《2022技术人的百宝黑皮书》——SIGIR2022 | 流行度偏差如何利用? 探索解耦域适应无偏召回模型(7) https://developer.aliyun.com/article/1246997?groupCode=taobaotech
流行度偏移权重分析
图6 流行度偏移权重 ,柱状图代表C-Ratio,折线代表Hitrate@300
我们考量了流行度便宜权重对于离线指标的影响, 表示有偏召回模型, 表示无偏召回模型,中间的取值为两者的加权求和,可以发现随着 的增大,召回结果的集中度逐渐下降,长尾商品的Hitrate逐渐提高,这证明通过对 的调整,可以让模型有方向的去拟合用户的从众性和真实兴趣。
总结
虽然分发侧总是存在着流行度偏差,但不可否认的是该偏差体现了用户的反馈,一味的去抑制流行度偏差使得整体模型是无偏的并不能带来最好的收益。因此,我们认为模型应该去利用流行度偏差,但不能毫无扩张的去放大它。正如本文所说,用户的反馈是从众性和真实兴趣的体现,但是在此工作中只在商品测进行探索,并没有去建模用户侧每个用户从众性和真实兴趣的个性化倾向,在后期工作中,我们将会去探索如何分开去建模用户的这两种倾向。
致谢
感谢怀风、从之、徐往、斯陌、孑行、晨良等团队成员的帮助,感谢横云、明逸、文通等各位老师的支持。
参考文献
【1】A re-visit of the popularity baseline in recommender systems.
【2】Model-agnostic counterfactual reasoning for eliminating popularity bias in recommender system.
团队介绍
有好货算法团队:有好货做为淘宝中的内容导购场景,旨在帮助消费者发现新颖好货。团队主要负责整体推荐链路的技术探索,目前主要致力于无偏学习,全链路建模、连续迁移范式、不确定性量化、长短期兴趣挖掘等方面的探索,以提高优势商品挖掘能力和频道导购能力。在创造业务的同时,我们同样在进行技术沉淀,在SIGIR等国际会议上发表数篇论文,主要成果有PDN,UMI等。