A Reinforcement Learning Framework for Explainable Recommendation. IEEE 2018
现在很多推荐模型的机制是复杂且难以解释的,此时需要在对推荐结果进行事后解释,即把推荐模型与解释模型分离开,用单独的模型推荐结果作出解释。本文使用强化学习方法对推荐结果生成解释。在这个可解释框架中,被解释的推荐模型作为环境的一部分,对强化学习方法生成的句子解释进行奖励。框架中有两个智能体与环境交互,第一个智能体根据当前状态生成句子解释,第二个智能体根据第一个智能体生成的句子解释来预测用户对所有物品的评分。如果此评分与被解释的推荐模型的预测评分相似则得到奖励。同时如果智能体给出的句子解释满足可读性、连贯性高、解释精炼等条件,智能体也会得到奖励。通过这两个奖励条件更新两个智能体的策略,不仅可以使其习得解释能力,而且也保证了事后解释的质量。
Reinforcement Knowledge Graph Reasoning for Explainable Recommendation. SIGIR 2019
本文提出了一种基于知识图谱与强化学习推理的可解释性推荐方法。知识图谱中包含丰富的用户、项目信息,可以对推荐的解释性问题提供直观有力的信息支持。然而要把知识图谱中的用户-项目节点对之间的所有路径都枚举出以进行相似性计算,这难以实现。因此他们通过训练用于搜索路径的智能体,把强化学习方法用于解释性推荐中。以知识图谱为环境,智能体在训练阶段要学习的策略是从用户导航到潜在的感兴趣项。如果达到正确的项目,智能体会得到环境给予的较高奖励。因此,在策略训练收敛后,智能体可直接遍历正确的推荐项目,而不必枚举用户-项目对之间的所有路径,路径为项目推荐提供解释。
Explore, Exploit, and Explain Personalizing Explainable Recommendations with Bandits. RecSys 2018
本文为可解释性推荐开发了一个MAB的方法。他们认为不同的用户对解释信息的反映各不相同并且是随着用户当前所处的不同情况而动态变化的。因此,他们提出的基于多臂老虎机的探索-开发平衡方法,旨在是为每个用户找到最佳的解释序列。此方法不仅可以学习到每个用户对于哪些解释信息做出了何种反应,并且也可以学习到对于每个用户来说哪些项目是推荐的最佳项目,以及如何在探索与开发之间取得平衡,以应对不确定性。实验表明,解释信息会影响用户对推荐内容的反应。这项工作表明,多臂老虎机方法中的探索-开发方法不仅有利于推荐任务,也提高了推荐的可解释性。