基于强化学习的可解释性推荐 文献三篇

简介: 基于强化学习的可解释性推荐 文献三篇

A Reinforcement Learning Framework for Explainable Recommendation. IEEE 2018


现在很多推荐模型的机制是复杂且难以解释的,此时需要在对推荐结果进行事后解释,即把推荐模型与解释模型分离开,用单独的模型推荐结果作出解释。本文使用强化学习方法对推荐结果生成解释。在这个可解释框架中,被解释的推荐模型作为环境的一部分,对强化学习方法生成的句子解释进行奖励。框架中有两个智能体与环境交互,第一个智能体根据当前状态生成句子解释,第二个智能体根据第一个智能体生成的句子解释来预测用户对所有物品的评分。如果此评分与被解释的推荐模型的预测评分相似则得到奖励。同时如果智能体给出的句子解释满足可读性、连贯性高、解释精炼等条件,智能体也会得到奖励。通过这两个奖励条件更新两个智能体的策略,不仅可以使其习得解释能力,而且也保证了事后解释的质量。


Reinforcement Knowledge Graph Reasoning for Explainable Recommendation. SIGIR 2019


本文提出了一种基于知识图谱与强化学习推理的可解释性推荐方法。知识图谱中包含丰富的用户、项目信息,可以对推荐的解释性问题提供直观有力的信息支持。然而要把知识图谱中的用户-项目节点对之间的所有路径都枚举出以进行相似性计算,这难以实现。因此他们通过训练用于搜索路径的智能体,把强化学习方法用于解释性推荐中。以知识图谱为环境,智能体在训练阶段要学习的策略是从用户导航到潜在的感兴趣项。如果达到正确的项目,智能体会得到环境给予的较高奖励。因此,在策略训练收敛后,智能体可直接遍历正确的推荐项目,而不必枚举用户-项目对之间的所有路径,路径为项目推荐提供解释。


Explore, Exploit, and Explain Personalizing Explainable Recommendations with Bandits. RecSys 2018


本文为可解释性推荐开发了一个MAB的方法。他们认为不同的用户对解释信息的反映各不相同并且是随着用户当前所处的不同情况而动态变化的。因此,他们提出的基于多臂老虎机的探索-开发平衡方法,旨在是为每个用户找到最佳的解释序列。此方法不仅可以学习到每个用户对于哪些解释信息做出了何种反应,并且也可以学习到对于每个用户来说哪些项目是推荐的最佳项目,以及如何在探索与开发之间取得平衡,以应对不确定性。实验表明,解释信息会影响用户对推荐内容的反应。这项工作表明,多臂老虎机方法中的探索-开发方法不仅有利于推荐任务,也提高了推荐的可解释性。


相关文章
|
算法 固态存储
学习:常见图像匹配综述
学习:常见图像匹配综述
261 0
学习:常见图像匹配综述
|
8月前
|
机器学习/深度学习 算法
如何通俗易懂地理解基于模型的强化学习?
如何通俗易懂地理解基于模型的强化学习?
|
10月前
|
机器学习/深度学习 存储 人工智能
自监督学习技术综述
自监督学习技术综述
273 0
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
「强化学习可解释性」最新2022综述
「强化学习可解释性」最新2022综述
101 0
|
机器学习/深度学习 算法 BI
机器学习:李航-统计学习方法笔记(一)监督学习概论
机器学习:李航-统计学习方法笔记(一)监督学习概论
138 0
机器学习:李航-统计学习方法笔记(一)监督学习概论
|
机器学习/深度学习 算法 Python
|
算法 数据挖掘 计算机视觉
论文阅读笔记 | 目标检测算法——FSAF算法
论文阅读笔记 | 目标检测算法——FSAF算法
206 0
论文阅读笔记 | 目标检测算法——FSAF算法
|
算法 计算机视觉 网络架构
论文阅读笔记 | 目标检测算法——SAPD算法
论文阅读笔记 | 目标检测算法——SAPD算法
278 0
论文阅读笔记 | 目标检测算法——SAPD算法
|
机器学习/深度学习 自然语言处理
【机器学习】李宏毅——自监督式学习
【机器学习】李宏毅——自监督式学习
155 0
【机器学习】李宏毅——自监督式学习
|
数据处理 vr&ar
学习:时间序列模型综述
学习:时间序列模型综述
491 0