独家 | 强化学习中的策略网络vs数值网络(附链接)

简介:

在强化学习中,智能体(agent)在环境中进行一些随机的抉择,并从很多选择中选择最优的一个来达到目标,实现优于人类的水平。在强化学习中,策略网络和数值网络通常一起使用,比如蒙特卡洛树搜索。这两个网络是探索蒙特卡洛树搜索算法中的一个整体部分。

因为他们在迭代过程中被计算了很多次,所以也被叫做策略迭代和数值迭代,。

接下来我们一起来理解这两个网络在机器学习中为什么如此重要,以及它们之间有什么区别。

什么是策略网络?

考虑这个世界上的任何游戏,玩家在游戏中的输入被认为是行为a,每个输入(行为)导致一个不同的输出,这些输出被认为是游戏的状态s。

从中我们可以得到一个不同状态-行动的配对的列表。

cd1a3e686d96cb7ae2c6fe57f583afa3e1ccb42a

代表哪个行动导致哪个状态。同样的,我们可以说S包括了所有的策略网络中的策略。

策略网络是,给定特定的输入,通过学习给出一个确定输出的网络。

eab3f7570c1df7ddc55d0dcd6ca05948a9d06f4b

图1 策略网络(动作1,状态1),(动作2,状态2)

比如,在游戏中输入a1导致状态s1(向上移动),输入a2会导致状态s2(向下移动)。

并且,有些行动能增加玩家的分数,产生奖赏r。

bc3e9943013ed3bad93b0487acf90a68c1785eac

图2 状态获得奖赏

来看一些强化学习中常用的符号:

53ce52dee42c8d7e07e137193ccbbfb57b3774b7

为什么我们使用贴现因子413f0fd168060fb147dc938a68caeddefec8a1eb

它是为了防止奖赏r达到无穷大的预防措施(通常小于1)。一个策略无穷大的奖励会忽略掉智能体采取不同行动的区别,导致失去在游戏中探索未知区域和行动的欲望。

但我们在下一次行动到达什么状态才能通往决赛呢?

43a7f5a183b3aea1a26676634bff6a557484ebc4

图3 如何决策下一个动作

什么是数值网络?

通过计算目前状态s的累积分数的期望,数值网络给游戏中的状态赋予一个数值/分数。每个状态都经历了整个数值网络。奖赏更多的状态显然在数值网络中的值更大。

记住奖赏是奖赏期望值,因为我们在从状态的集合中选择一个最优的那个。

2b305802a02f5d5c60123da23c167c5b07101a74

接下来,主要目标是最大化期望(马尔科夫决策过程)。达到好的状态的行动显然比其他行动获得更多奖赏。

因为任何游戏都是通过一系列行动来获胜。游戏中的最优化策略cb7d156cf685adfaf2c83f3a550deed41148d920由一系列的能够帮助在游戏中获胜的状态-行动对组成。

获得最多奖赏的状态-行动对是最优化的策略。

最优化的策略的等式通过最大化语句来写出:

57e234304a028d5d5688518c0dc1bbf28d67231b

因此,最优化的策略告诉我们采取哪个行动能够最大化累计折扣奖励。

通过策略网络学习到的最优化的政策知道当前状态下应该采取哪个行动来获得最大化的奖赏。

abc9097a95953e5cf6b2166bf9cc4de23c4e4dc4

如果你有任何疑问或者需求,在下面评论或者推特我。

鼓掌……分享它!在Medium上关注我来获得相似的有趣内容。

在推特上关注我来获得及时的提醒。


原文发布时间为:2018-11-26

本文来自云栖社区合作伙伴“数据派THU”,了解相关信息可以关注“数据派THU”。

相关文章
|
1月前
|
监控 安全 网络协议
Cisco Identity Services Engine (ISE) 3.5 发布 - 基于身份的网络访问控制和策略实施系统
Cisco Identity Services Engine (ISE) 3.5 发布 - 基于身份的网络访问控制和策略实施系统
314 1
Cisco Identity Services Engine (ISE) 3.5 发布 - 基于身份的网络访问控制和策略实施系统
|
3月前
|
安全 KVM 虚拟化
Cisco Identity Services Engine (ISE) 3.4 - 基于身份的网络访问控制和策略实施系统
Cisco Identity Services Engine (ISE) 3.4 - 基于身份的网络访问控制和策略实施系统
214 2
Cisco Identity Services Engine (ISE) 3.4 - 基于身份的网络访问控制和策略实施系统
|
3月前
|
机器学习/深度学习 数据采集 运维
匹配网络处理不平衡数据集的6种优化策略:有效提升分类准确率
匹配网络是一种基于度量的元学习方法,通过计算查询样本与支持集样本的相似性实现分类。其核心依赖距离度量函数(如余弦相似度),并引入注意力机制对特征维度加权,提升对关键特征的关注能力,尤其在处理复杂或噪声数据时表现出更强的泛化性。
213 6
匹配网络处理不平衡数据集的6种优化策略:有效提升分类准确率
|
2月前
|
监控 安全 Devops
DevOps 流水线的网络安全盲区与防御策略
在软件研发中,DevOps流水线加速了开发与交付,但也带来严重安全风险。自动化节点和第三方集成成为攻击入口,凭证泄露、供应链渗透、配置错误和依赖混乱等问题频发。企业需构建全流程安全体系,嵌入自动化安全策略,强化访问控制与监控,提升全员安全意识,实现效率与安全的协同发展。
406 1
|
9月前
|
人工智能 安全 网络安全
网络安全领导者有效缓解团队倦怠的四步策略
网络安全领导者有效缓解团队倦怠的四步策略
|
4月前
|
存储 监控 算法
基于 Python 跳表算法的局域网网络监控软件动态数据索引优化策略研究
局域网网络监控软件需高效处理终端行为数据,跳表作为一种基于概率平衡的动态数据结构,具备高效的插入、删除与查询性能(平均时间复杂度为O(log n)),适用于高频数据写入和随机查询场景。本文深入解析跳表原理,探讨其在局域网监控中的适配性,并提供基于Python的完整实现方案,优化终端会话管理,提升系统响应性能。
132 4
|
9月前
|
机器学习/深度学习 计算机视觉
RT-DETR改进策略【Neck】| ECCV-2024 RCM 矩形自校准模块 优化颈部网络
RT-DETR改进策略【Neck】| ECCV-2024 RCM 矩形自校准模块 优化颈部网络
430 10
RT-DETR改进策略【Neck】| ECCV-2024 RCM 矩形自校准模块 优化颈部网络
|
11月前
|
SQL 安全 网络安全
网络安全与信息安全:知识分享####
【10月更文挑战第21天】 随着数字化时代的快速发展,网络安全和信息安全已成为个人和企业不可忽视的关键问题。本文将探讨网络安全漏洞、加密技术以及安全意识的重要性,并提供一些实用的建议,帮助读者提高自身的网络安全防护能力。 ####
264 17
|
11月前
|
SQL 安全 网络安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
随着互联网的普及,网络安全问题日益突出。本文将从网络安全漏洞、加密技术和安全意识三个方面进行探讨,旨在提高读者对网络安全的认识和防范能力。通过分析常见的网络安全漏洞,介绍加密技术的基本原理和应用,以及强调安全意识的重要性,帮助读者更好地保护自己的网络信息安全。
223 10
|
11月前
|
存储 SQL 安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
随着互联网的普及,网络安全问题日益突出。本文将介绍网络安全的重要性,分析常见的网络安全漏洞及其危害,探讨加密技术在保障网络安全中的作用,并强调提高安全意识的必要性。通过本文的学习,读者将了解网络安全的基本概念和应对策略,提升个人和组织的网络安全防护能力。