独家 | 强化学习中的策略网络vs数值网络(附链接)

简介:

在强化学习中,智能体(agent)在环境中进行一些随机的抉择,并从很多选择中选择最优的一个来达到目标,实现优于人类的水平。在强化学习中,策略网络和数值网络通常一起使用,比如蒙特卡洛树搜索。这两个网络是探索蒙特卡洛树搜索算法中的一个整体部分。

因为他们在迭代过程中被计算了很多次,所以也被叫做策略迭代和数值迭代,。

接下来我们一起来理解这两个网络在机器学习中为什么如此重要,以及它们之间有什么区别。

什么是策略网络?

考虑这个世界上的任何游戏,玩家在游戏中的输入被认为是行为a,每个输入(行为)导致一个不同的输出,这些输出被认为是游戏的状态s。

从中我们可以得到一个不同状态-行动的配对的列表。

cd1a3e686d96cb7ae2c6fe57f583afa3e1ccb42a

代表哪个行动导致哪个状态。同样的,我们可以说S包括了所有的策略网络中的策略。

策略网络是,给定特定的输入,通过学习给出一个确定输出的网络。

eab3f7570c1df7ddc55d0dcd6ca05948a9d06f4b

图1 策略网络(动作1,状态1),(动作2,状态2)

比如,在游戏中输入a1导致状态s1(向上移动),输入a2会导致状态s2(向下移动)。

并且,有些行动能增加玩家的分数,产生奖赏r。

bc3e9943013ed3bad93b0487acf90a68c1785eac

图2 状态获得奖赏

来看一些强化学习中常用的符号:

53ce52dee42c8d7e07e137193ccbbfb57b3774b7

为什么我们使用贴现因子413f0fd168060fb147dc938a68caeddefec8a1eb

它是为了防止奖赏r达到无穷大的预防措施(通常小于1)。一个策略无穷大的奖励会忽略掉智能体采取不同行动的区别,导致失去在游戏中探索未知区域和行动的欲望。

但我们在下一次行动到达什么状态才能通往决赛呢?

43a7f5a183b3aea1a26676634bff6a557484ebc4

图3 如何决策下一个动作

什么是数值网络?

通过计算目前状态s的累积分数的期望,数值网络给游戏中的状态赋予一个数值/分数。每个状态都经历了整个数值网络。奖赏更多的状态显然在数值网络中的值更大。

记住奖赏是奖赏期望值,因为我们在从状态的集合中选择一个最优的那个。

2b305802a02f5d5c60123da23c167c5b07101a74

接下来,主要目标是最大化期望(马尔科夫决策过程)。达到好的状态的行动显然比其他行动获得更多奖赏。

因为任何游戏都是通过一系列行动来获胜。游戏中的最优化策略cb7d156cf685adfaf2c83f3a550deed41148d920由一系列的能够帮助在游戏中获胜的状态-行动对组成。

获得最多奖赏的状态-行动对是最优化的策略。

最优化的策略的等式通过最大化语句来写出:

57e234304a028d5d5688518c0dc1bbf28d67231b

因此,最优化的策略告诉我们采取哪个行动能够最大化累计折扣奖励。

通过策略网络学习到的最优化的政策知道当前状态下应该采取哪个行动来获得最大化的奖赏。

abc9097a95953e5cf6b2166bf9cc4de23c4e4dc4

如果你有任何疑问或者需求,在下面评论或者推特我。

鼓掌……分享它!在Medium上关注我来获得相似的有趣内容。

在推特上关注我来获得及时的提醒。


原文发布时间为:2018-11-26

本文来自云栖社区合作伙伴“数据派THU”,了解相关信息可以关注“数据派THU”。

相关文章
|
1天前
|
云安全 安全 网络安全
云计算与网络安全:技术挑战与应对策略
在数字化浪潮中,云计算成为企业和个人存储数据、运行应用的首选平台。然而,随之而来的网络安全问题也日益突出。本文将探讨云计算环境下的网络安全挑战,并提出相应的信息安全策略,以期为读者提供一套实用的云安全解决方案。
|
4天前
|
云安全 安全 网络安全
云端防御战线:融合云计算与网络安全的未来策略
【7月更文挑战第47天】 在数字化时代,云计算已成为企业运营不可或缺的部分,而网络安全则是维护这些服务正常运行的基石。随着技术不断进步,传统的安全措施已不足以应对新兴的威胁。本文将探讨云计算环境中的安全挑战,并提出一种融合云服务与网络安全的综合防御策略。我们将分析云服务模式、网络威胁类型以及信息安全实践,并讨论如何构建一个既灵活又强大的安全体系,确保数据和服务的完整性、可用性与机密性。
|
1天前
|
Kubernetes 网络协议 安全
在k8S中,网络策略原理是什么?
在k8S中,网络策略原理是什么?
|
1天前
|
Kubernetes 数据安全/隐私保护 容器
在k8S中,简述Kubernetes网络策略是什么?
在k8S中,简述Kubernetes网络策略是什么?
|
1天前
|
SQL 安全 网络安全
网络安全与信息安全:保护数据的关键策略
【8月更文挑战第19天】 在数字化时代,网络安全和信息安全的重要性日益突出。随着技术的发展,网络攻击手段也在不断进化。本文将探讨网络安全漏洞的成因、加密技术的应用以及提升安全意识的必要性。我们将分析如何通过教育和技术措施来增强个人和组织的数据保护能力,以应对日益复杂的网络安全威胁。
|
1天前
|
监控
揭秘:为何多年经验的网工还对光模块的光衰正常范围一知半解?这个秘密可能彻底改变你的网络优化策略!
【8月更文挑战第19天】在信息化时代,光纤通信至关重要,光模块作为其核心组件,其性能直接影响数据传输质量。光衰,即光信号在光纤中传输时的功率损失,是评估光模块性能的关键指标。本文将阐述光衰的基本概念、测量方法及对网络性能的影响,并提供光衰正常范围的标准,帮助网络工程师更好地理解与应用这一重要知识点,确保网络稳定可靠。
14 0
|
1天前
|
监控 安全 网络安全
网络安全的基本原则与策略
【8月更文挑战第19天】网络安全的基本原则与策略是保障网络系统安全性的重要基石。通过遵循网络空间主权原则、网络安全与信息化发展并重原则以及共同治理原则等基本原则,制定并实施科学合理的安全策略和实施措施,可以有效提升网络系统的安全性、完整性、可用性和保密性。同时,随着网络技术的不断发展和变化,我们需要持续关注网络安全的新趋势和新挑战,不断调整和完善安全策略和实施措施,确保网络系统的持续安全和稳定运行。
|
4天前
|
SQL 安全 网络安全
网络安全与信息安全:保护数字世界的基石
【8月更文挑战第16天】在数字化时代,网络安全与信息安全的重要性日益凸显。本文将深入探讨网络安全漏洞、加密技术以及安全意识等关键领域,旨在为读者提供全面的知识分享和实践指导。我们将从网络攻击的常见类型及其防御措施出发,进一步讨论加密技术在保障数据安全中的作用,并强调提升个人和企业的安全意识的必要性。通过分析真实案例,本文旨在帮助读者构建更加坚固的网络安全防线,共同守护我们的数字生活。
|
4天前
|
SQL 安全 网络安全
网络安全与信息安全:漏洞、加密技术与安全意识的探讨
【8月更文挑战第16天】在数字化时代,网络安全与信息安全成为维护社会稳定和保护个人隐私的重要议题。本文将深入探讨网络安全漏洞的成因、影响及防范措施,介绍加密技术的基本原理和应用,并强调提升公众的安全意识在构建网络防线中的重要性。通过分析当前网络安全面临的挑战,提出加强技术防护和提高用户安全意识的双重策略,旨在为读者提供全面的网络安全知识分享。
24 9
|
3天前
|
云安全 安全 网络安全
云计算与网络安全:探索云服务时代的信息安全挑战##
【8月更文挑战第17天】 在数字化浪潮的推动下,云计算技术以其高效、灵活的特点成为现代企业不可或缺的一部分。然而,随着企业数据的云端迁移,网络安全问题也日益凸显。本文将从云计算服务的基本概念出发,深入探讨其在网络安全领域面临的挑战,包括数据隐私保护、安全漏洞管理等关键问题,并分析当前云安全策略的有效性。通过案例分析,揭示云计算环境下的安全风险,并提出相应的解决策略和建议,旨在为读者提供一个全面而深入的视角,理解云计算与网络安全之间的复杂关系。 ##