NeurIPS 2019分享:清华大学孙富春组提出全新模仿学习理论

简介: 在 NeurIPS 2019正式召开以前,机器之心精心策划了 NeurIPS 2019 专题,包括线上分享、论文解读、现场报道等内容。11月14日,第一期分享已经圆满结束。本文介绍的是「全新智能体观测模仿学习」,这是清华计算机系类脑计算与认知团队最新提出的一种学习理论,也是学界首次将生成式对抗方法推广到观测模仿学习中。

在上周四的第一期线上分享中,清华计算机系博士后黄文炳为大家详细解读了大会接收的这篇 Spotlight 论文《Imitation Learning from Observations by Minimizing Inverse Dynamics Disagreement》


以下是本期视频回顾:

1638409271(1).png                                                                                                                                                            

点击查看原视频链接  


引言


 观测模仿学习(Imitation learning from observations)是示教学习(Learning from demonstrations,模仿学习)的前沿发展方向,目前的示教学习是在给出一定数量的专家(称为示教者)示教轨迹的前提下,通过监督学习、强化学习等机器学习方法训练智能体(称为学习者)控制策略,让智能体的行为尽可能与专家相似,进而使得智能体表现出专家行为的过程。


 模仿学习主要分为两类,一类是行为克隆(Behavioral Clone),另一类是逆强化学习(Inverse Reinforcement Learning), 标准的行为克隆方法是一类通过监督学习方法实现模仿学习的途径,是模仿学习中最简单最直观的方式,这类方法可以理解成智能体接受专家提供的示教样本并转换成状态-动作对形式,采用分类器(离散控制策略)或回归器(连续控制策略)拟合专家策略的过程。然而这类方法中智能体不进行环境交互与探索,训练的策略往往存在累积误差,而且性能受限于专家样本。


 因此有更多的研究人员关注到通过逆强化学习实现示教学习问题,通过示教样本学习奖惩函数(动作好坏的规则),进而利用强化学习方法让智能体在学到的奖惩函数下探索环境并利用探索样本学习控制策略,学习性能在大多场景下往往超过行为克隆方法。 


在逆强化学习实习的模仿学习中,GAIL[1] 算法首次将对抗训练机制引入模仿学习中,本文在 GAIL 的方法基础上,进一步探讨当专家示教不完备情况下如何完成模仿学习,特别是在实际机器人学习场景中最常见的【专家样本中不包含动作信息】情况,我们称这类模仿学习为观测模仿学习。本文理论上发现了观测模仿学习与常规的模仿学习之间的鸿沟差异,证明了该鸿沟差异存在优化上界,并提出了一种模型无关的优化方法。


 模仿学习,特别是观测模仿学习,高效地让机器人学会人所掌握的技能或处理任务的能力,是未来智能机器人得以广泛应用的保证。


微信图片_20211202094445.jpg



方法


基于逆强化学习的模仿学习代表性工作 Generative Adversarial Imitation Learning (GAIL),将对抗训练过程引入智能体模仿学习中,其中判别器用于区分智能体探索样本(Fake Sample)与专家样本(Real Sample),进而利用判别器描述的奖惩函数探索环境并通过强化学习训练智能体策略。提供专家样本为:微信图片_20211202094618.jpg其优化目标可以表示为:

微信图片_20211202094642.jpg

image.png

该优化目标直接将状态-动作占用率度量替换为状态转移占用率度量,在后面的证明中会说明这样的优化目标仅能适用于特定的动力学系统的情形,在更多的动力学系统情况下这样的优化方法将会失效。


具体步骤


首先,对于专家与智能体具有相同动力学系统的情形,可以证明观测模仿学习与常规的模仿学习之间存在一定的关联(证明过程请查看文章附录):定理1:如果智能体与专家之间共享相同的动力学系统模型,那么常规的模仿学习、朴素的观测模仿学习与逆动力学系统差异之间的关联可以表示成以下形式:


image.png


推论1:当动力学模型为单射变换时,朴素的观测模仿学习等效于常规的模仿学习


微信图片_20211202094902.jpg


然后,建立了观测模仿学习与常规模仿学习的关系后,可以看出对于模仿学习问题,除了优化朴素的观测模仿学习目标(公式(2))外,还需要进一步去优化 IDD 这一项,可以证明 IDD 的优化上界可以表示为:

image.png


微信图片_20211202095009.jpg


实验


在实验中,研究者先设计了一个 GridWorld 的导航任务,用于说明 IDD 在观测模仿学习中的存在性,如下图所示,网格中相邻位置之间的转移动作方式由 1 到 11 种变化,当只有 1 种动作转移方式的时候,也就是环境的动力学为单射变换的情况,GAIL,GAIfO 以及本研究的方法表现相当的性能,与推论 1 中的结论一致,随着相邻位置之间的转移动作方式逐渐增多时,GAIfO 的性能逐渐下降,但本项研究的方法仍能较好提升观测模仿学习效果。


微信图片_20211202095037.jpg

image.png

另外,研究者在 Gym 下的 Mujoco 实验中 6 个任务中进一步验证了本研究方法的模仿效果,相比于其他观测模仿学习方法(关于其他观测模仿学习方法的具体介绍,可以查看论文的 Related Work 部分),本研究方法均取得了最好效果。更多消融实验与参数敏感性分析实验可以查看论文及论文附录。


微信图片_20211202095130.jpg

image.png

微信图片_20211202095224.jpg图 2. 策略可视化运行结果图,左边为专家示教样本(通过强化学习训练得来),中间为朴素的观测模仿学习优化结果,右边是本研究方法的表现结果。

相关文章
|
8月前
|
机器学习/深度学习 自然语言处理 物联网
FlowMo: 模式搜索+扩散模型提升图像Token化性能
FlowMo是一种基于Transformer的扩散自编码器,无需卷积网络或对抗性损失,在图像Token化领域实现技术突破。它通过两阶段训练(模式匹配预训练与模式搜索后训练)和一维潜在表征,达到低高比特率下的领先性能。FlowMo摒弃传统方法限制,展现卓越重建质量,但推理计算开销较大。其创新为视觉生成系统提供了新方向。
192 4
FlowMo: 模式搜索+扩散模型提升图像Token化性能
|
11月前
|
机器学习/深度学习 自然语言处理 安全
Llama 3.3开源!70B媲美405B性能,支持128K上下文
近期,Meta开源了Llama 3.3 多语言大型语言模型(LLM),Llama 3.3 是一个预训练并经过指令调优的生成模型,参数量为70B(文本输入/文本输出)。
2230 5
Llama 3.3开源!70B媲美405B性能,支持128K上下文
|
机器学习/深度学习 算法 物联网
大模型进阶微调篇(一):以定制化3B模型为例,各种微调方法对比-选LoRA还是PPO,所需显存内存资源为多少?
本文介绍了两种大模型微调方法——LoRA(低秩适应)和PPO(近端策略优化)。LoRA通过引入低秩矩阵微调部分权重,适合资源受限环境,具有资源节省和训练速度快的优势,适用于监督学习和简单交互场景。PPO基于策略优化,适合需要用户交互反馈的场景,能够适应复杂反馈并动态调整策略,适用于强化学习和复杂用户交互。文章还对比了两者的资源消耗和适用数据规模,帮助读者根据具体需求选择最合适的微调策略。
3724 5
|
人工智能 开发框架 自然语言处理
基于 Qwen-Agent 与 OpenVINO™ 构建本地 AI 智能体
Qwen2 是阿里巴巴集团 Qwen 团队研发的大语言模型和大型多模态模型系列。Qwen2 具备自然语言理解、文本生成、视觉理解、音频理解、工具使用、角色扮演、作为 AI Agent 进行互动等多种能力。
|
机器学习/深度学习 传感器 自动驾驶
视觉BEV基本原理和方案解析
视觉BEV在高德高精地图地面要素识别、车道线拓扑构建、车端融合定位等业务场景中都扮演了重要角色。
|
机器学习/深度学习 算法 Go
【博士每天一篇文献-算法】Progressive Neural Networks
本文介绍了渐进式网络(Progressive Neural Networks),一种深度强化学习架构,通过在训练过程中学习预训练模型间的侧向连接实现跨任务知识迁移,有效利用迁移学习优势同时避免灾难性遗忘,并通过强化学习任务验证了架构性能。
568 1
|
搜索推荐 开发工具 决策智能
Agent调研--19类Agent框架对比(中)
Agent调研--19类Agent框架对比(中)
4003 0
|
人工智能 前端开发 开发工具
Agent调研--19类Agent框架对比(上)
Agent调研--19类Agent框架对比(上)
11967 1
|
机器学习/深度学习 传感器 人工智能
超全 | 基于纯视觉Multi-Camera的3D感知方法汇总!(上)
近两年,基于纯视觉BEV方案的3D目标检测备受关注,all in one方式,确实能将基于camera的3D检测算法性能提升一大截,甚至直逼激光雷达方案,这次整理了领域中一些备受关注的multi-camera bev纯视觉感知方案,包括DETR3D、BEVDet、ImVoxelNet、PETR、BEVFormer、BEVDepth、BEVDet4D、BEVerse等!
超全 | 基于纯视觉Multi-Camera的3D感知方法汇总!(上)
|
编解码 自动驾驶 数据可视化
超越BEV视角 | 新型紧凑占用Transformer助力自动驾驶3D占用预测
超越BEV视角 | 新型紧凑占用Transformer助力自动驾驶3D占用预测
480 0