【Python强化学习】利用与探索及强化学习算法分类讲解

简介: 【Python强化学习】利用与探索及强化学习算法分类讲解

利用与探索

利用与探索(Exploitation & Exploration)是强化学习中非常重要的概念。利用是指从已知信息中得到最大回报。探索是指要开拓眼界、尽可能地发掘环境中更多的信息。人们在作选择时,经常会用到利用与探索的思想。比如,在选择饭店时,一般会利用自己的经验选择自己满意的饭店,以确保大概率得到理想的服务,但是也会偶尔探索一下新店,看看是否有更好的服务。

常用两种策略来实现利用与探索,分别是贪心策略(greedy strategy)和ε-贪心策略(ε-greedy strategy)。

贪心策略的思想是:只根据当前信息来作出最优选择,不考虑长远。比如,强化学习主体在做决定时,只根据既有策略计算出所有动作在当前状态下的条件概率,执行最大值对应的动作。 记可选的样本为s_i,i=1,2,…m,m为样本总数。记样本s_i的当前概率为q_i。那么,按贪心策略选择样本s_i的概率为p_i:

在强化学习算法中,常应用随机采样的方法来获取样本以优化算法。贪心策略应用于随机采样时,会出现当前概率暂时为0的样本以后也不会被采样到。这种现象类似于“近亲繁殖”,采样不全面,不利于对环境的探索。

ε-贪心策略的思想是:以探索率ε∈[0,1]从所有可能样本中按均匀分布随机选择一个样本,以1−ε的概率按当前最大概率选择。 按ε-贪心策略选择样本s_i的概率为p_i:

ε-贪心策略使得每个样本都有一定被选中的概率,保证了探索样本空间时的充分性。

强化学习算法分类

1.从算法优化过程分类

基于值函数优化策略的算法,是先求得状态值函数或动作值函数,然后依据它们来得到最优策略,主要有动态规划法、蒙特卡罗法、时序差分法(又包括Sarsa和Qlearning)和DQN等。

直接优化策略的算法,是直接从候选策略中选择最优策略,主要有策略梯度法、Actor-Critic和DDPG等。

构建环境模型辅助优化策略的算法,是在环境模型未知的情况下,先对环境进行建模,再用构建的模型来辅助优化值函数,最终求得最优策略。构建的环境模型一般不能完全刻画实际的环境,因此,算法不能完全依赖构建的环境模型,而是将对构建模型的利用和对实际环境的探索结合起来进行优化。构建环境模型辅助优化策略的算法主要有Dyna、Dyna-2、基于模拟的搜索等系列算法。

2.环境模型是否已知的分类

如果已知环境模型,则强化学习问题的求解显然要容易的多。此时,称为有模型强化学习算法。

在不知道环境模型时,一般要通过蒙特卡罗法来试探环境,得到与环境模型相关的知识用于优化策略。相应地,这类算法也称为无模型强化学习算法。

在无模型强化学习算法中,有的算法需要一次对环境的完整尝试才能进行迭代优化,称为回合制算法。有的算法不需要完整的尝试,只需要一步试探即可进行迭代优化,称为单步制算法。

3.值函数求解的分类

在状态空间和动作空间是小型的离散空间时,值函数可以用一个小型的表格来表示。一个状态值或者一个状态-动作值对对应表格中的一格。此时,值函数的迭代优化就表现为对表格中数据的迭代计算,该类算法称为值函数可计算的强化学习算法,也称为表格型强化学习算法。

如果状态空间和(或)动作空间是连续的,那么就无法用一个表格来表示值函数。此时,一般是采用映射来描述从状态值或状态-动作值对到一个实数值的对应关系,该类算法称为值函数逼近的强化学习算法。

值函数逼近的方法还被应用到大型离散空间中值函数的求解。因为当空间过于庞大时,直接计算值函数实际上已经不可行。

创作不易 觉得有帮助请点赞关注收藏~~~

相关文章
|
1月前
|
机器学习/深度学习 存储 算法
解锁文件共享软件背后基于 Python 的二叉搜索树算法密码
文件共享软件在数字化时代扮演着连接全球用户、促进知识与数据交流的重要角色。二叉搜索树作为一种高效的数据结构,通过有序存储和快速检索文件,极大提升了文件共享平台的性能。它依据文件名或时间戳等关键属性排序,支持高效插入、删除和查找操作,显著优化用户体验。本文还展示了用Python实现的简单二叉搜索树代码,帮助理解其工作原理,并展望了该算法在分布式计算和机器学习领域的未来应用前景。
|
2月前
|
监控 算法 安全
深度洞察内网监控电脑:基于Python的流量分析算法
在当今数字化环境中,内网监控电脑作为“守城卫士”,通过流量分析算法确保内网安全、稳定运行。基于Python的流量分析算法,利用`scapy`等工具捕获和解析数据包,提取关键信息,区分正常与异常流量。结合机器学习和可视化技术,进一步提升内网监控的精准性和效率,助力企业防范潜在威胁,保障业务顺畅。本文深入探讨了Python在内网监控中的应用,展示了其实战代码及未来发展方向。
|
2月前
|
机器学习/深度学习 算法 数据可视化
利用SVM(支持向量机)分类算法对鸢尾花数据集进行分类
本文介绍了如何使用支持向量机(SVM)算法对鸢尾花数据集进行分类。作者通过Python的sklearn库加载数据,并利用pandas、matplotlib等工具进行数据分析和可视化。
176 70
|
5天前
|
机器学习/深度学习 资源调度 算法
基于入侵野草算法的KNN分类优化matlab仿真
本程序基于入侵野草算法(IWO)优化KNN分类器,通过模拟自然界中野草的扩散与竞争过程,寻找最优特征组合和超参数。核心步骤包括初始化、繁殖、变异和选择,以提升KNN分类效果。程序在MATLAB2022A上运行,展示了优化后的分类性能。该方法适用于高维数据和复杂分类任务,显著提高了分类准确性。
|
5天前
|
存储 算法 文件存储
探秘文件共享服务之哈希表助力 Python 算法实现
在数字化时代,文件共享服务不可或缺。哈希表(散列表)通过键值对存储数据,利用哈希函数将键映射到特定位置,极大提升文件上传、下载和搜索效率。例如,在大型文件共享平台中,文件名等信息作为键,物理地址作为值存入哈希表,用户检索时快速定位文件,减少遍历时间。此外,哈希表还用于文件一致性校验,确保传输文件未被篡改。以Python代码示例展示基于哈希表的文件索引实现,模拟文件共享服务的文件索引构建与检索功能。哈希表及其分布式变体如一致性哈希算法,保障文件均匀分布和负载均衡,持续优化文件共享服务性能。
|
11天前
|
监控 算法 安全
公司电脑网络监控场景下 Python 广度优先搜索算法的深度剖析
在数字化办公时代,公司电脑网络监控至关重要。广度优先搜索(BFS)算法在构建网络拓扑、检测安全威胁和优化资源分配方面发挥重要作用。通过Python代码示例展示其应用流程,助力企业提升网络安全与效率。未来,更多创新算法将融入该领域,保障企业数字化发展。
37 10
|
12天前
|
监控 算法 安全
基于 Python 广度优先搜索算法的监控局域网电脑研究
随着局域网规模扩大,企业对高效监控计算机的需求增加。广度优先搜索(BFS)算法凭借其层次化遍历特性,在Python中可用于实现局域网内的计算机设备信息收集、网络连接状态监测及安全漏洞扫描,确保网络安全与稳定运行。通过合理选择数据结构与算法,BFS显著提升了监控效能,助力企业实现智能化的网络管理。
26 7
|
1月前
|
算法 Serverless 数据处理
从集思录可转债数据探秘:Python与C++实现的移动平均算法应用
本文探讨了如何利用移动平均算法分析集思录提供的可转债数据,帮助投资者把握价格趋势。通过Python和C++两种编程语言实现简单移动平均(SMA),展示了数据处理的具体方法。Python代码借助`pandas`库轻松计算5日SMA,而C++代码则通过高效的数据处理展示了SMA的计算过程。集思录平台提供了详尽且及时的可转债数据,助力投资者结合算法与社区讨论,做出更明智的投资决策。掌握这些工具和技术,有助于在复杂多变的金融市场中挖掘更多价值。
51 12
|
26天前
|
算法 安全 网络安全
基于 Python 的布隆过滤器算法在内网行为管理中的应用探究
在复杂多变的网络环境中,内网行为管理至关重要。本文介绍布隆过滤器(Bloom Filter),一种高效的空间节省型概率数据结构,用于判断元素是否存在于集合中。通过多个哈希函数映射到位数组,实现快速访问控制。Python代码示例展示了如何构建和使用布隆过滤器,有效提升企业内网安全性和资源管理效率。
50 9
|
1月前
|
监控 算法 安全
内网桌面监控软件深度解析:基于 Python 实现的 K-Means 算法研究
内网桌面监控软件通过实时监测员工操作,保障企业信息安全并提升效率。本文深入探讨K-Means聚类算法在该软件中的应用,解析其原理与实现。K-Means通过迭代更新簇中心,将数据划分为K个簇类,适用于行为分析、异常检测、资源优化及安全威胁识别等场景。文中提供了Python代码示例,展示如何实现K-Means算法,并模拟内网监控数据进行聚类分析。
43 10