【读书笔记】Algorithms for Decision Making(1)

简介: 我自己的粗浅看法:机器学习要不是拟合逼近(经常提及的machine learning),要不就是决策过程(reinforcement learning),这本书主要讲述后者的前世今生。

前言

看到了木遥老师的推荐,下载but没有打开。简介就引用木遥老师原文了,谢谢老师!
在这里插入图片描述
我自己的粗浅看法:机器学习要不是拟合逼近(经常提及的machine learning),要不就是决策过程(reinforcement learning),这本书主要讲述后者的前世今生。


一、引言

"In retrospect, it is interesting to note that the original problem that started my research is still outstanding—namely the problem of planning or scheduling dynamically over time, particularly planning dynamically under uncertainty. If such a problem could be successfully solved it could (eventually through better planning) contribute to the well-being and stability of the world. "
                                                                  —— G. B. Dantzig

许多重要问题涉及不确定性下的决策,包括飞机防撞、野火管理和灾害应对。在设计决策系统时,不仅要平衡多个目标的同时,还需考虑各种不确定性来源。

1. 决策过程

下图是一个经典的决策过程示意图,本质上就是智能体(agent)与环境(environment)的一个交互过程,在该过程中主要存在以下不确定:

  • 输出结果不确定,即行动结果不确定;
  • 模型不确定,即问题模型不确定;
  • 状态不确定,即环境正确状态的不确定;
  • 交互不确定,即在环境中交互的其他智能体的不确定。

人工智能的核心就是在这些不确定下做出合理的决策。

在这里插入图片描述
常用方法可概括如下:

  1. Explicit Programming:该方法适用于解决某个简单的问题,“粗暴直接”。
  2. 监督学习:该方法广泛应用于分类问题,适用于同场景的经验式决策。
  3. 优化方法:如果空间相对小,且性能度量没有很多局部最优,则局部或全局搜索方法是合适的。
  4. 规划(planning):使用动态模型来指导搜索的优化形式,集中于确定性问题且可推广到高维。
  5. 强化学习:强化学习中出现的一个有趣的复杂性是,行动的选择不仅影响代理在实现其目标方面的即时成功,而且影响代理了解环境和识别其可以利用的问题特征的能力。

2. 概述

这本书分为五个部分。

  1. 概率推理(Probabilistic Reasoning )
    这部分讨论了在单一时间点的简单决策中关于不确定性和目标的推理问题。首先,讨论了如何将不确定性表示为概率分布,即如何将现实问题构建为概率模型,如何使用模型进行推理,以及如何从数据中学习模型的参数和结构。然后,介绍了效用原理 (utility theory的基础,并通过最大期望效用原理说明如何形成不确定性下理性决策的基础。最后,讨论了如何将效用理论的概念纳入上述概率图形模型中,以形成决策网络
  2. 序列问题(Sequential Problems)
    这部分将决策扩展到序列问题,此时行动结果是不确定的。具体讲,这部分重点讨论在模型已知且环境完全可观察的假设下的序列决策问题。首先,引入了马尔可夫决策过程(Markov decision process,MDP)。然后,讨论了找到该类问题精确解的几种方法。具体而言,讨论了离线和在线近似解方法的集合,以及一种涉及直接搜索参数化决策策略空间的方法。最后,验证了决策策略在现实世界中部署时会按预期执行。
  3. 模型不确定性(Model Uncertainty)
    该部分解决了模型不确定性,即不从已知模型开始,学习如何通过与环境的交互来采取行动。通过观察智能体行为的结果(以状态转换和奖励的形式),智能体将选择最大化其长期累积奖励的行为。解决这些存在模型不确定性的问题是强化学习领域的主题,也是本书这一部分的重点。具体讨论了解决模型不确定性的几个挑战的理论及一些关键算法。首先,智能体必须谨慎地平衡环境探索和通过经验获得的知识开发。其次,奖励可能在做出重要决策后很久才收到,因此,必须将后续奖励的信用分配给早期决策。最后,智能体必须根据有限的经验进行归纳。
  4. 状态不确定性( State Uncertainty)
    在本部分中,不完美的感知信息阻止了了解完整的环境状态的可能性,即没有准确地观察到状态,而是接收到与状态有概率关系的观察。该问题可以建模为部分可观察马尔可夫决策过程(partially observable Markov decision process,POMDP)
  5. 多智能体系统(Multiagent Systems)
    本部分将前四部分扩展到多个代理,讨论了交互不确定性带来的挑战。我们首先讨论简单的博弈,其中一组代理同时选择一个动作。结果是基于联合行动对每个代理的单独奖励。

    • 马尔可夫博弈(Markov game,MG)表示简单博弈对多个状态和MDP对的推广。
    • 部分可观测马尔可夫博弈(POMG)引入了状态不确定性,进一步推广了MG和POMDP,因为代理现在只接收有噪声的局部观测。
    • 分散部分可观察马尔可夫决策过程(Dec-POMDP)将POMG集中在一个协作的多智能体团队中,其中智能体之间共享奖励。

总结

这部分介绍了决策过程的基本背景和接下来各部分的基本内容。

相关文章
|
机器学习/深度学习 算法 流计算
【读书笔记】Algorithms for Decision Making(6)
对于较大状态空间的问题,计算精确解需要极大的内存量,因而考虑近似解的方法。常使用approximate dynamic programming的方法去寻求近似解,进而使用在线方法实现实时计算。
163 0
【读书笔记】Algorithms for Decision Making(6)
|
机器学习/深度学习
【读书笔记】Algorithms for Decision Making(7)
策略搜索即搜索策略空间,而无需直接计算值函数。策略空间的维数通常低于状态空间,并且通常可以更有效地搜索。本部分首先讨论在初始状态分布下估计策略价值的方法。然后讨论不使用策略梯度估计的搜索方法和策略梯度方法。接着介绍Actor-Critic方法用值函数的估计来指导优化。
|
算法
【读书笔记】Algorithms for Decision Making(3)
上一部分给出了概率分布的表示论。本部分将展示如何使用概率表示进行推理,即确定一组给定观察变量相关值的一个或多个未观察变量的分布。在该部分中首先介绍直接推断的办法,然后给出几种有效的近似方法。
155 0
|
存储 安全 编译器
[笔记]读书笔记 C++设计新思维《一》基于策略的类设计(下)
[笔记]读书笔记 C++设计新思维《一》基于策略的类设计(下)
|
存储 关系型数据库 编译器
C++ Primer Plus 第6版 读书笔记(9)第 9章 函数——内存模型和名称空间
C++ Primer Plus 第6版 读书笔记(9)第 9章 函数——内存模型和名称空间
115 1
|
存储 算法 编译器
C++ Primer Plus 第6版 读书笔记(8)第 8章 函数探幽(二)
C++ Primer Plus 第6版 读书笔记(8)第 8章 函数探幽(二)
73 1
|
存储 算法 Java
[笔记]读书笔记 C++设计新思维《二》技术(Techniques)(二)
[笔记]读书笔记 C++设计新思维《二》技术(Techniques)(二)
|
安全 Java C++
[笔记]读书笔记 C++设计新思维《一》基于策略的类设计(上)
[笔记]读书笔记 C++设计新思维《一》基于策略的类设计
|
存储 编译器 程序员
C++ Primer Plus 第6版 读书笔记(10) 第十章 类与对象
C++ Primer Plus 第6版 读书笔记(10) 第十章 类与对象
72 0
|
存储 Java 编译器
C++ Primer Plus 第6版 读书笔记(8)第 8章 函数探幽(一)
C++ Primer Plus 第6版 读书笔记(8)第 8章 函数探幽(一)
61 0