《从机器学习到深度学习》笔记(3)强化学习

简介: 强化学习是对英文Reinforced Learning的中文翻译,它的另一个中文名称是“增强学习”。相对于有监督学习和无监督学习,强化学习是一个相对独特的分支;前两者偏向于对数据的静态分析,后者倾向于在动态环境中寻找合理的行为决策。

强化学习是对英文Reinforced Learning的中文翻译,它的另一个中文名称是“增强学习”。相对于有监督学习和无监督学习,强化学习是一个相对独特的分支;前两者偏向于对数据的静态分析,后者倾向于在动态环境中寻找合理的行为决策。

强化学习的行为主体是一个在某种环境中独立运行的Agent(可以理解为“机器人”), 其可以通过训练获得在该环境中的最佳行为模式。强化学习被看成是最接近人工智能的一个机器学习领域。

思考:为什么说强化学习是最接近人工智能的一个机器学习领域?

1. 五个要素

强化学习的场景由两个对象构成,它们是:

  • 智能代理(Agent):是可以采取一系列行动以达到某种目标的控制器,可以形象的将其理解为机器人大脑。比如自动驾驶的控制器、打败李世石的AlphaGo。
  • 环境(Environment):是Agent所能感知和控制的世界模型。对自动驾驶来说,Environment就是Agent所能感知到的路况和车本身的形式- 能力,对AlphaGo来说,Environment包括棋盘上的每种状态和行棋规则。

这两个对象其实定义了机器人和其所能感知到的世界。而就像人类能在自己的世界中行走、享受阳光,机器人也可以通过三种方式与其所在的环境交互:

  • 状态(State):是任意一个静态时刻Agent能感知到的Environment情况,相当于某一时刻人类五官能感知到的一切。
  • 行为(Action):是Agent能在Environment中执行的行为,对应于人类四肢所能做的所有事。
  • 反馈(Reward):是Agent执行某个/某些Action后获得的结果。Reward可以是正向的或者是负向的,相当于人类感受到的酸甜苦辣。
    以上五种强化学习要素的关系如图1-12所示,它们在一起构建起了强化学习的应用场景。

1_12

图1-12  强化学习场景

另外,在强化学习中Reward有时是延时获得的。即Agent在做出某个Action后不会马上获得Reward,而需要在一系列Action之后才能获得。每个任务最终获的Reward被称为value。比如在围棋环境中,只有结果是胜是败才对之前的所有Action给出最终的value。

延迟获得value的本质分析的是一系列相关行为共同发生的作用,也是强化学习与有监督学习最主要的一个不同点。试想如果每一个Action都可以获得一个相应的Reward,那么Reward就退化成了有监督学习中的label(标签)。

2. 两种场景与算法

具备上述五个要素的强化学习可以用来解决两类问题:

  1. 状态预测问题:用马尔可夫过程估计在任一时刻各种状态发生的可能性,其中蒙特卡洛模拟(Monte Carlo Method)是一类重要方法。
  2. 控制问题:如何控制Agent以获得最大Reward。其算法可以分成两类:
  • 基于策略的学习(Policy-based):基于概率分布学习行为的可能性,根据可能性选择执行的动作,可学习连续值或离散值类型行为。典型算法是Policy Gradients。
  • 基于价值学习(Value-based):直接基于Reward学习行为结果,只能学习离散类型行为,包括算法Q-learning、Sarsa。
    另外,还有个别算法兼具Policy-Based和Value-Based特点,比如Actor-Critic。

不得不承认的是,虽然强化学习是更智能的机器学习分支,但目前产品级应用还比较少,多集中在游戏娱乐和简单工业控制。本书将在第6章介绍隐马尔可夫模型,第7章介绍以马尔可夫收敛定理为基础的蒙特卡洛推理,在第10章详细学习各类强化学习控制问题。

从机器学习,到深度学习

从深度学习,到强化学习

从强化学习,到深度强化学习

从优化模型,到模型的迁移学习

一本书搞定!
d01b2e3c1893d577

相关文章
|
7天前
|
机器学习/深度学习 人工智能 自然语言处理
探索机器学习:从线性回归到深度学习
【9月更文挑战第4天】在这篇文章中,我们将深入探讨机器学习的世界,从基础的线性回归模型开始,逐步深入到复杂的深度学习网络。我们将通过实际的代码示例,揭示这些模型背后的数学原理,以及如何在现实世界的问题中应用它们。无论你是初学者还是有经验的数据科学家,这篇文章都将为你提供新的视角和深入的理解。
|
8天前
|
机器学习/深度学习 算法 搜索推荐
机器学习方法之强化学习
强化学习是一种机器学习方法,旨在通过与环境的交互来学习如何做出决策,以最大化累积的奖励。
15 4
|
16天前
|
机器学习/深度学习 人工智能 算法
探索AI的魔法:机器学习与深度学习的奥秘
【8月更文挑战第27天】在这篇文章中,我们将深入探讨人工智能的两个重要分支:机器学习和深度学习。我们将首先理解它们的基本概念,然后通过Python代码示例,展示如何应用这些技术解决实际问题。无论你是AI新手,还是有经验的开发者,这篇文章都将为你提供新的知识和启示。让我们一起开启这场AI的魔法之旅吧!
|
16天前
|
机器学习/深度学习 并行计算 PyTorch
PyTorch与CUDA:加速深度学习模型训练的最佳实践
【8月更文第27天】随着深度学习应用的广泛普及,高效利用GPU硬件成为提升模型训练速度的关键。PyTorch 是一个强大的深度学习框架,它支持动态计算图,易于使用且高度灵活。CUDA (Compute Unified Device Architecture) 则是 NVIDIA 开发的一种并行计算平台和编程模型,允许开发者直接访问 GPU 的并行计算能力。本文将详细介绍如何利用 PyTorch 与 CUDA 的集成来加速深度学习模型的训练过程,并提供具体的代码示例。
33 1
|
3天前
|
机器学习/深度学习 人工智能 自动驾驶
探索人工智能的未来:机器学习和深度学习的融合之旅
本文将带你进入人工智能的奇妙世界,一起探索机器学习和深度学习的融合如何引领我们走向更加智能化的未来。我们将从基础概念出发,逐步深入到技术细节和应用实例,揭示这一技术革新如何改变我们的生活和工作方式。通过深入浅出的解释和生动的例子,本文旨在为读者提供一次内容丰富、启发思考的技术之旅。
|
25天前
|
机器学习/深度学习 人工智能 自然语言处理
【机器学习】机器学习、深度学习、强化学习和迁移学习简介、相互对比、区别与联系。
机器学习、深度学习、强化学习和迁移学习都是人工智能领域的子领域,它们之间有一定的联系和区别。下面分别对这四个概念进行解析,并给出相互对比、区别与联系以及应用场景案例分析。
22 1
|
29天前
|
机器学习/深度学习 人工智能 自然语言处理
探索人工智能的未来:从机器学习到深度学习
本文将探讨人工智能的发展历程,特别是机器学习和深度学习的兴起。我们将深入了解这些技术如何改变我们的生活,并讨论未来的发展趋势。
25 1
|
30天前
|
机器学习/深度学习 算法 数据挖掘
深度学习之量子计算加速的机器学习
深度学习的量子计算加速机器学习是一种新兴的跨领域研究方向,旨在利用量子计算的独特特性来加速和优化传统机器学习模型,特别是深度学习模型。量子计算具有在处理特定类型问题时指数级加速的潜力,结合深度学习可以带来性能和效率的显著提升
32 1
|
17天前
|
机器学习/深度学习 人工智能 自然语言处理
探索机器学习的奥秘:从线性回归到深度学习
【8月更文挑战第26天】本文将带领读者走进机器学习的世界,从基础的线性回归模型开始,逐步深入到复杂的深度学习网络。我们将探讨各种算法的原理、应用场景以及实现方法,并通过代码示例加深理解。无论你是初学者还是有一定经验的开发者,这篇文章都将为你提供有价值的知识和技能。让我们一起揭开机器学习的神秘面纱,探索这个充满无限可能的领域吧!
|
28天前
|
机器学习/深度学习 人工智能 算法
AI人工智能(ArtificialIntelligence,AI)、 机器学习(MachineLearning,ML)、 深度学习(DeepLearning,DL) 学习路径及推荐书籍
AI人工智能(ArtificialIntelligence,AI)、 机器学习(MachineLearning,ML)、 深度学习(DeepLearning,DL) 学习路径及推荐书籍
66 0

热门文章

最新文章