【ICLR2020】通过强化学习和稀疏奖励进行模仿学习

简介: 【ICLR2020】通过强化学习和稀疏奖励进行模仿学习
  • 论文题目SQIL: Imitation Learning via Reinforcement Learning with Sparse Rewards

所解决的问题?

  从高维的状态动作空间中进行模仿学习是比较困难的,以往的行为克隆算法(behavioral cloning BC)算法容易产生分布漂移(distribution shift),而最近做得比较好的就是生成对抗模仿学习算法(generative adversarial imitation learning (GAIL)),是逆强化(Inverse RL)学习算法与生成对抗网络结合的一种模仿学习算法,这个算法使用adversarial training技术学reward function,而作者提出的算法不需要reward function。整篇文章是在证明constant rewardRL方法与学习复杂的reward function的强化学习算法一样有效。

  文章的主要贡献在于提出了一种简单易于实现版本的模仿学习算法,用于高维、连续、动态环境中。能够很好克服模仿学习中的distribution shift问题。

背景

  模仿学习的问题在于behavior shift,并且误差会累计。一旦trajectory偏离专家的trajectory,智能体并不知道如何回到expert的轨迹状态上来。最近做地比较好的就是GAILGAIL做模仿学习最大的好处就是 encourage long-horizon imitation。那为什么GAIL能够做到long-horizon imitation呢?模型学习一般分为两步,在某个state下采取某个action,一般的BC算法都这么做的,而GAIL除此之外还考虑了采取这个action之后还回到expert 轨迹的下一个状态上。而作者也采纳了GAIL的上述两点优势,但是并未使用GAIL算法中的adversarial training技术,而是使用一个constant reward。如果matching the demonstrated action in a demonstrated state,reward = +1;对于其他的情况 reward =0。也就是说你在给定状态下会采取给定动作,就能拿到奖励。因此整个问题就变成了一个奖励稀疏的强化学习问题。

所采用的方法?

  作者引入soft-q-learning算法,将expert demonstrations的奖励设置为1,而与环境互动得到的新的experiences奖励设置为0。由于soft Q-Learning算法是off-policy的算法,因此有data就可以训练了。整个算法作者命名为 soft Q imitation learning (SQIL)。

Soft Q Imitation Learning算法

  SQILsoft q learning算法上面做了三个小的修正:

  1. expert demonstration初始化填入agentexperience replay buffer,其reward设置为+1
  2. agent与环境互动得到新的data也加入到experience replay buffer里面,其reward设置为0
  3. 平衡demonstration experiencesnew experiences50 % 50\%50%。这个方法在GAILadversarial IRL算法上面也都有应用。

  SQIL算法如下所示:

  其中Q θ 表示的是soft q functionD d e m o demonstrationsδ 2 表示的是soft bellman errorEquation 1表示为:


image.png

其中奖励r rr只有01两个取值。上述公式的理解就是希望demonstrated action能够获得比较高的Q QQ值,而周围的nearby stateaction分布就不期望那么突出,期望均匀一点,这里就跟熵联系起来了。

取得的效果?

所出版信息?作者信息?

  作者是来自加利福尼亚伯克利大学的博士生Siddharth Reddy

参考链接

扩展阅读

  • Maximum entropy model of expert behavior

  Maximum entropy model of expert behaviorSQIL是基于最大熵expert behavior所得出来的算法。策略π \piπ服从Boltzmann distribution


image.png

Soft Q values可通过soft Bellman equation得到:


image.png


  • Behavioral cloning (BC)

  在behavior clone中是去拟合一个参数化的modelπ θ \pi_{\theta}πθ,最小化负的log-likelihood loss


image.png

 本文中作者采用的是soft q function,所以最大化的likelihood目标方程如下所示:

image.png

从这里可以看出作者的目标函数中相比较于行为克隆算法好处在于:后面那一项基于能量的式子是考虑了state transitions

  • Regularized Behavior Clone

  SQIL可以看作是 a sparsity(稀疏) prior on the implicitly-represented rewards的行为克隆算法。

  Sparsity regularization:当agent遇见了一个未见过的state的时候,Q θ Q_{\theta}Qθ也许会输出任意值。(Piot et al., 2014) 等人有通过引入a sparsity prior on the implied rewards 的正则化项。

  • Bilal Piot, Matthieu Geist, and Olivier Pietquin. Boosted and reward-regularized classification for apprenticeship learning. In Proceedings of the 2014 international conference on Autonomous agents and multi-agent systems, pp. 1249–1256. International Foundation for Autonomous Agents and Multiagent Systems, 2014.

  作者与上述这篇文章的不同点在于有将其应用于连续的状态空间,还有加了latest imitation policy进行rollouts采样。

  基于上文的soft Bellman equation

image.png

我们可以得到reward的表达式子:


image.png

从中也可以发现其会考虑下一个状态s ′,而不像BC那样只maximization action likelihood。最终的Regularized BC算法可表示为:


image.png

 其中λ \lambdaλ是超参数,δ 2 soft bellman error的平方。可以看出RBC算法与SQIL有异曲同工之妙。

  • Connection Between SQIL and Regularized Behavioral Clone


image.png

SQIL相比与RBC算法引入了+10reward,相当于是加强了奖励稀疏的先验知识

相关文章
|
8天前
|
机器学习/深度学习 存储 人工智能
深度强化学习实战:训练DQN模型玩超级马里奥兄弟
本文介绍了如何利用深度学习和强化学习技术构建一个能够自主学习并完成《超级马里奥兄弟》游戏的智能系统。通过使用深度Q网络(DQN)架构,智能体在虚拟环境中与游戏进行交互,逐步优化其行为策略。文中详细描述了环境构建、神经网络设计、智能体-环境交互机制等关键步骤,并展示了系统的训练过程和最终表现。该研究不仅展示了强化学习在游戏领域的应用潜力,也为未来的研究提供了宝贵的经验和技术参考。
130 81
深度强化学习实战:训练DQN模型玩超级马里奥兄弟
|
3月前
|
机器学习/深度学习 算法 安全
大模型进阶微调篇(二):基于人类反馈的强化学习RLHF原理、优点介绍,但需要警惕LLMs的拍马屁行为
本文探讨了基于人类反馈的强化学习(RLHF)方法的优缺点。作者指出,虽然RLHF能够使模型更好地满足用户需求,但也存在缺乏多样性、创新不足、偏好固化和难以适应动态变化等问题。文章通过具体实验和示例代码,详细解析了RLHF的工作原理,并强调了其在实际应用中的潜在风险。
402 6
|
3月前
|
机器学习/深度学习 人工智能 算法
【大语言模型-论文速读】GPT的不确定性判断
【大语言模型-论文速读】GPT的不确定性判断
54 0
|
6月前
|
机器学习/深度学习
大模型概念问题之什么是人类反馈信号强化学习(RLHF)
大模型概念问题之什么是人类反馈信号强化学习(RLHF)
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
论文介绍:自我对弈微调——将弱语言模型转化为强语言模型的新方法
【5月更文挑战第17天】论文《自我对弈微调》提出了一种新方法,名为SPIN,用于在无需额外人工标注数据的情况下增强大型语言模型(LLM)。SPIN利用自我对弈机制,让模型通过与自身历史版本交互生成自我训练数据,实现性能提升。该方法在多个基准数据集上表现出色,超越了传统监督微调和直接偏好优化。SPIN还为生成对抗网络研究提供了新思路,展示了自我对弈在强化学习和深度学习中的潜力。实验表明,SPIN有效提升了模型性能,为未来研究奠定了基础。[[arxiv](https://arxiv.org/abs/2401.01335v1)]
79 3
|
机器学习/深度学习 算法 自动驾驶
【强化学习】常用算法之一 “PPO”
强化学习是一种通过智能体与环境的互动来学习最优行为策略的机器学习方法。相较于监督学习和无监督学习,强化学习的特点在于具有延迟奖赏和试错机制。在强化学习中,智能体通过选择动作来影响环境,并且从环境中获得奖励作为反馈。强化学习的目标是通过与环境的交互,使得智能体能够学会最优的行为策略。PPO算法属于策略优化(Policy Optimization)算法家族,是由OpenAI在2017年提出的。与其他策略优化算法相比,PPO算法具有较高的样本利用率和较好的收敛性能。
1519 1
【强化学习】常用算法之一 “PPO”
|
机器学习/深度学习 人工智能 自然语言处理
【ICLR2020】基于模型的强化学习算法玩Atari【附代码】
【ICLR2020】基于模型的强化学习算法玩Atari【附代码】
215 0
|
机器学习/深度学习 算法 搜索推荐
手把手教你强化学习 (三)马尔可夫决策过程与贝尔曼方程
手把手教你强化学习 (三)马尔可夫决策过程与贝尔曼方程
720 0
|
机器学习/深度学习 人工智能 算法
神经网络的简单偏好(2)
神经网络的简单偏好
175 0
神经网络的简单偏好(2)
|
机器学习/深度学习 算法 TensorFlow
神经网络的简单偏好(1)
神经网络的简单偏好
神经网络的简单偏好(1)