备案控制台

开发者社区

开发者社区人工智能文章正文

【RLchina第六讲】Imitation Learning

2023-08-06 73

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【RLchina第六讲】Imitation Learning

本文与原视频部分内容有些出入，我觉得应该是老师讲错了。。。。不喜勿喷！

监督学习的优化目标可以写成如下形式：

监督学习中最基本的假设就是训练集和测试集的数据分布是一致的，也就是常说的数据满足独立同分布。无监督学习主要是从数据本身发现一些规律，像聚类，特征提取这些。从大的方面来说，无监督学习可以给有监督学习做预处理。比如像自监督学习，编码器可以将高维数据压缩到低维空间：f ( x ) = z f(x)=zf(x)=z，解码器可以将低维数据进行还原：g ( z ) = x

强化学习主要是处理高维的状态空间和高维的动作搜索空间的问题。

Imitation Learning

模仿学习中，专家提供一个轨迹样例(demonstrations)：

Behavior cloning

在最简单的行为克隆算法中，我们可以将专家的数据拆分为类似监督学习的数据集：

优化的目标就与监督学习无异了：

这里最大的问题在于，不同的策略收集到的轨迹数据是不一样的。如果我们用行为克隆算法学习到的策略去采样样本，这个样本的数据分布和一开始的数据分布是不一样的(因为有的时候我们会也会期望去用学习到的策略去采样样本)。

理论的分析

我们考虑一个T-step的强化学习问题，考虑T-step的平均奖励作为回报的优化目标，并且奖励回报的值在0-1之间：

如果BC算法所学得的策略得到的动嘴，与最优动作之间的误差小于ϵ 的话：

我们BC策略的回报边界为：

那这个边界是怎么证明出来的呢？我们假设有如下的T步，每一步是具有一个概率ϵ 走错，如果全部不走错，得到的奖励是T/T

更好的方式是通过专家数据学习得到一个策略，然后拿到这个策略与环境交互，再对交互得到的数据惊醒专家的打标签评估。循环迭代。这类算法叫做DataSet Aggregation。

Apprentice Learning

从专家的数据中学习奖励函数。回顾贝尔曼方程有：

对于任何一个策略有：

我们是无法穷举所有的策略的，通常的做法可以分为以下几步：

值函数的计算方式可表示为：

算法可以表示为：

上面的方法中，我们考虑的都是动作的分布，期望学习得到的策略与专家策略分布一致。如果我们把所有的状态和动作的轨迹看作一个数据，然后来计算两坨数据之间的分布的话，我们其实也能够得到求解上述问题的一个思路。

Generative Adversarial Imitation Learning

调用一个判别器来判断数据是来自专家，还是来自生成的。生成器用来生成策略，并且这个生成器是用的强化学习的算法，用来与环境进行交互采样。生成器的值用来表示奖励函数。

判别器的loss可以表示为：

奖励函数可以表示为：

生成对抗模仿学习，逆强化学习，和基于熵的强化学习之间的关系可以参考A Connection between Generative Adversarial Networks, Inverse Reinforcement Learning, and Energy-Based Models 和 Learning Robust Rewards with Adversarial Inverse Reinforcement Learning。

更高级的模仿学习的话，可能就是去学习一些无标注数据这样，比如像一个视频这样：更多的可以去参考伯克利，斯坦福，宾大联合发表：从观察和交互中学习预测模型。

文章标签：

机器学习/深度学习

数据挖掘

算法

小小何先生

目录

相关文章

笨笨胡小巴

|

4月前

|

存储 C语言 C++

C learning_3（上）

C learning_3

笨笨胡小巴

51 0 0

笨笨胡小巴

|

4月前

|

算法 C语言数据安全/隐私保护

C learning_6

笨笨胡小巴

21 1 1

笨笨胡小巴

|

4月前

|

存储安全程序员

C learning_5

笨笨胡小巴

18 0 0

笨笨胡小巴

|

4月前

|

存储 API 数据安全/隐私保护

C learning_7

笨笨胡小巴

28 0 0

笨笨胡小巴

|

4月前

|

C语言

C learning_3（下）

C learning_3

笨笨胡小巴

123 0 0

笨笨胡小巴

|

4月前

|

存储算法 Unix

C learning_8

笨笨胡小巴

20 0 0

笨笨胡小巴

|

4月前

|

编译器 C语言

C learning_1

笨笨胡小巴

37 1 1

笨笨胡小巴

|

4月前

|

存储缓存安全

C learning_4

笨笨胡小巴

23 0 0

笨笨胡小巴

|

4月前

|

存储编译器 C语言

C learning_2

笨笨胡小巴

20 2 2

Im黄军雷

|

7月前

|

机器学习/深度学习语音技术

“Zero-shot Learning”、“One-shot Learning”和“Few-shot Learning”

你知道吗？在机器学习的世界里，有一种名为“Zero-shot Learning”、“One-shot Learning”和“Few-shot Learning”的策略，它们主要是为了解决神经网络模型因为训练数据少，导致模型泛化能力差的问题。

Im黄军雷

62 1 1

热门文章

最新文章

哪种词向量模型更胜一筹？Word2Vec，WordRank or FastText?

解析Java中的MyBatis Plus注解 @FieldFill：优雅处理字段填充

Win8Metro(C#)数字图像处理--2.27图像加法运算

A N EAR -D UPLICATE D ETECTION A LGORITHM T O F ACILITATE D OCUMENT C LUSTERING——有时间看看里面的相关研究

面向服务体系架构的业务规划和建模方法系列之二－－基础概念辨析

Windows 8部署系列PART2：部署先决条件准备

string类的写时拷贝

新瓶旧酒ASP.NET AJAX(4) - 客户端脚本编程（JavaScript基本类型扩展）

Gartner：今年全球企业物联网使用率将达43%

C++第9周项目4参考——本月有几天？

【AI 初识】什么是卷积神经网络（CNN）？

【AI 初识】递归神经网络（RNN）概念

【AI 初识】什么是迁移学习，它在人工智能中有什么用？

【AI 初识】神经网络有哪些不同类型？

【AI 初识】AI 的挑战和局限性

【AI 初识】描述遗传算法概念

【AI 初识】人工智能中使用了哪些不同的搜索算法？

结构化伪类选择器

【AI 初识】机器学习中维度的诅咒是什么？

【AI 初识】监督学习、无监督学习和强化学习定义

相关电子书

更多

Deep Learning and the Artifici

Deep Reinforcement Learning fo

Deep Learning vs, Machine Lear

下一篇

2024年阿里云免费云服务器及学生云服务器申请教程参考