Keeping Dataset Biases out of the Simulation : A Debiased Simulator for Reinforcement Learning based Recommender Systems. (RecSys 2020)
作者为了解决历史数据中的用户与项目之间存在的两种交互偏差:选择偏差和流行度偏差,提出在构造“用户-项目”评级矩阵之前执行去偏差的步骤。由于选择偏差和流行度偏差,导致历史记录中用户对项目的评级是有选择性的,所以依照历史数据构造的评级矩阵的稀疏性不是随机存在的,作者在模拟选择偏差时,对用户更可能喜欢的项目进行声明,使它有更高概率被用户评级,在模拟流行度偏差时,对流行度高的项目进行声明,使它有更高概率被用户评级。然后根据模拟数据拟合出用户选择某一物品的概率,再利用IPS方法对项目评级进行重要性加权以实现去偏。
Popularity-Opportunity Bias in Collaborative Filtering (WSDM 2021)
作者从两个角度看待流行度偏差产生的影响:对用户的影响以及对推荐项的影响。其中对用户的影响是推荐系统会优先推荐高流行度的项目,同样可能被用户所喜欢的低流行度项目被推荐的机会更少;对推荐项的影响是低流行度的推荐项会越来越不受重视,最终偏差累计会使得推荐系统被流行的项目主导。作者提出了后处理方法和内处理方法来缓解流行度偏差。后处理方法是对低流行度的项目施加补偿,给它更高的得分从而获得与高流行度项目相似的排名。内处理方法是将流行度与项目推荐解耦,利用皮尔逊相关系数的平方作为正则化项,然后通过最小化正则化项和推荐误差来降低偏差。
Analyzing Item Popularity Bias of Music Recommender Systems: Are Different Genders Equally Affected? (RecSys 2021)
作者为了量化研究流行度偏差的特征,提出了七种指标来度量流行度偏差:平均值、中位数、方差、偏斜度、峰态系数、KL散度、肯德尔系数。其中。平均值、中位数用于表现推荐项流行度与实际流行度的总体趋势;方差用于表示历史记录与推荐列表之间多样性的变化;偏斜度、峰态系数用于表示推荐项目与实际选择项目两种分布之间的形状差异;KL散度、肯德尔系数在量化了推荐项目与实际选择项目两种分布之间的相似程度。同时作者研究了音乐推荐系统中流行度偏差与用户特征之间的关系,结论是不同性别的用户受到流行度偏差的影响是不同的,女性用户更容易受到流行度偏差的影响。
Diverse User Preference Elicitation with Multi-Armed Bandits. (WSDM 2021)
作者流行度偏差会影响到推荐的多样性,因此提出了一种基于Multi-armed Bandit的方法同时提高项目多样性和主题多样性。该方法对每个用户独立运行一个Bandit,然后对可能存在的主题各用一个Arm控制,每次迭代时选择值最高的一个Arm所控制的主题,将该主题内包含的所有项根据与当前用户偏好的多样性进行降序排序,再从排序后的项目列表中选择推荐项,作者称为引出项。由于引出项本身可能同时属于多个主题,所以该方法同时保证了主题多样性和项目多样性。