基于强化学习的可解释性推荐 文献三篇

简介: 基于强化学习的可解释性推荐 文献三篇

A Reinforcement Learning Framework for Explainable Recommendation. IEEE 2018


现在很多推荐模型的机制是复杂且难以解释的,此时需要在对推荐结果进行事后解释,即把推荐模型与解释模型分离开,用单独的模型推荐结果作出解释。本文使用强化学习方法对推荐结果生成解释。在这个可解释框架中,被解释的推荐模型作为环境的一部分,对强化学习方法生成的句子解释进行奖励。框架中有两个智能体与环境交互,第一个智能体根据当前状态生成句子解释,第二个智能体根据第一个智能体生成的句子解释来预测用户对所有物品的评分。如果此评分与被解释的推荐模型的预测评分相似则得到奖励。同时如果智能体给出的句子解释满足可读性、连贯性高、解释精炼等条件,智能体也会得到奖励。通过这两个奖励条件更新两个智能体的策略,不仅可以使其习得解释能力,而且也保证了事后解释的质量。


Reinforcement Knowledge Graph Reasoning for Explainable Recommendation. SIGIR 2019


本文提出了一种基于知识图谱与强化学习推理的可解释性推荐方法。知识图谱中包含丰富的用户、项目信息,可以对推荐的解释性问题提供直观有力的信息支持。然而要把知识图谱中的用户-项目节点对之间的所有路径都枚举出以进行相似性计算,这难以实现。因此他们通过训练用于搜索路径的智能体,把强化学习方法用于解释性推荐中。以知识图谱为环境,智能体在训练阶段要学习的策略是从用户导航到潜在的感兴趣项。如果达到正确的项目,智能体会得到环境给予的较高奖励。因此,在策略训练收敛后,智能体可直接遍历正确的推荐项目,而不必枚举用户-项目对之间的所有路径,路径为项目推荐提供解释。


Explore, Exploit, and Explain Personalizing Explainable Recommendations with Bandits. RecSys 2018


本文为可解释性推荐开发了一个MAB的方法。他们认为不同的用户对解释信息的反映各不相同并且是随着用户当前所处的不同情况而动态变化的。因此,他们提出的基于多臂老虎机的探索-开发平衡方法,旨在是为每个用户找到最佳的解释序列。此方法不仅可以学习到每个用户对于哪些解释信息做出了何种反应,并且也可以学习到对于每个用户来说哪些项目是推荐的最佳项目,以及如何在探索与开发之间取得平衡,以应对不确定性。实验表明,解释信息会影响用户对推荐内容的反应。这项工作表明,多臂老虎机方法中的探索-开发方法不仅有利于推荐任务,也提高了推荐的可解释性。


相关文章
|
11月前
|
机器学习/深度学习 自然语言处理 API
RM-Gallery: 一站式奖励模型平台
近年来,大型语言模型(LLMs)发展迅速,比如 ChatGPT、Qwen、Claude、 Llama。这些模型最初的能力来自预训练规模的扩展(pre-training scaling),即通过 “next-token prediction” 的任务,在海量语料上训练,从而获得通用能力。但是面对具体场景,由于场景任务目标不一定和通用能力匹配(比如对齐场景),所以预训练模型表现会有一些不足。为了在预训练之后进一步优化大型语言模型,近年来的研究开始转向训练后和测试时的规模扩展,其中奖励模型起着关键作用。
511 2
|
11月前
|
存储 资源调度 并行计算
# Qwen3-8B 与 Qwen3-14B 的 TTFT 性能对比与底层原理详解
通义千问Qwen3系列是通义实验室2025年推出的最新大模型,包含多种参数版本,其中Qwen3-8B与Qwen3-14B均支持32K token上下文。Qwen3-8B参数量较小,响应更快,适合低延迟交互;Qwen3-14B参数更多,推理更强,适用于复杂任务。两者在TTFT、架构优化、量化技术及部署方案上各有侧重,满足多样应用场景需求。
5367 10
鸿蒙开发:实现Popup气泡提示
原生的bindPopup属性,不仅仅支持单一的文字提示,也支持自定义组件的形式,已经可以满足正常的需求开发,能用原生的就用原生,之所以dialog库中增加了一个popup气泡弹窗,是因为当时封装的时候,原生还不支持自定义组件形式,如今已经支持了,大家可以放心的使用原生即可。
349 4
鸿蒙开发:实现Popup气泡提示
史上最简单给大模型注入新知识的方法(一)
史上最简单给大模型注入新知识的方法(一)
629 0
|
机器学习/深度学习 人工智能 API
如何在 TensorRT-LLM 中支持 Qwen 模型
大型语言模型正以其惊人的新能力推动人工智能的发展,扩大其应用范围。然而,由于这类模型具有庞大的参数规模,部署和推理的难度和成本极高,这一挑战一直困扰着 AI 领域。此外,当前存在大量支持模型部署和推理的框架和工具,如  ModelScope 的 Model Pipelines API,和 HuggingFace 的 Text Generation Inference 等,各自都有其独特的特点和优势。然而,这些工具往往未能充分发挥  GPU 的性能。
72881 0
如何在 TensorRT-LLM 中支持 Qwen 模型
|
人工智能 自然语言处理 算法
开源更新|语音生成大模型CosyVoice升级2.0版本
开源更新|语音生成大模型CosyVoice升级2.0版本
|
传感器 自动驾驶 算法
【OpenAI】Python:基于 Gym-CarRacing 的自动驾驶项目(1) | 前置知识介绍 | 项目环境准备 | 手把手带你一步步实现
【OpenAI】Python:基于 Gym-CarRacing 的自动驾驶项目(1) | 前置知识介绍 | 项目环境准备 | 手把手带你一步步实现
1822 0
|
运维 监控 关系型数据库
CentOS7 离线安装 Zabbix5.0
各位运维的朋友们都有可能遇到过在公司内网环境下无法访问外网情况,无法访问外网yum源部署ZABBIX 对于rpm包依赖问题比较头疼。本文将会进行离线部署实战。同时大家也可以写成一份shell脚本直接离线安装一键部署就可以了。
2351 0
CentOS7 离线安装 Zabbix5.0
|
人工智能 自然语言处理 搜索推荐
声临其境!体验阿里云开源音频基座大模型——FunAudioLLM
阿里通义实验室开源了全新的音频基座大模型FunAudioLLM,包含SenseVoice与CosyVoice两大核心模型。SenseVoice专精于多语言语音识别、情感辨识与声音事件检测,支持50余种语言,中文及粤语识别准确率提升50%以上。CosyVoice则擅长语音合成,只需3-10秒原始音频即可克隆音色,并支持跨语言合成。FunAudioLLM的应用场景广泛,包括语音到语音翻译、情感语音对话、互动播客及有声读物等。CosyVoice的在线体验显示,其生成的语音自然流畅,支持定制化及高级情绪控制,超越竞品ChatTTS。SenseVoice在情感识别及长音频处理方面表现出色。
28912 28
|
人工智能 分布式计算 数据可视化
大模型私有化部署全攻略:硬件需求、数据隐私、可解释性与维护成本挑战及解决方案详解,附示例代码助你轻松实现企业内部AI应用
【10月更文挑战第23天】随着人工智能技术的发展,企业越来越关注大模型的私有化部署。本文详细探讨了硬件资源需求、数据隐私保护、模型可解释性、模型更新和维护等方面的挑战及解决方案,并提供了示例代码,帮助企业高效、安全地实现大模型的内部部署。
3439 2