百度飞桨世界冠军带你从零实践强化学习第四天(三岁白话时间)

简介: 这里是三岁,这里吧第四的素材和资料整理了一下,大家康康,有什么不足的欢迎提出,批评指正!!!

这里是三岁,这里吧第四的素材和资料整理了一下,大家康康,有什么不足的欢迎提出,批评指正!!!


基于策略梯度求解RL



Value-based vs policy-based


20200621163448188.png

Value-based


Value-based 是基于价值的,属于一种确定性策略

在计算时先求出Q的值然后把Q网络调到最优以后用间接方式输出action,属于确定性的策略,


20200621163954726.png


policy-based


policy-based 是基于策略的,属于一种随机策略

policy-based使用神经网络拟合直接一步到位求出action输出的是一种概率最后是一种随机的策略。适用于随机性比较大的项目。


20200621164054239.png

20200621164901655.png


πθ(at|st)代表在st的转态下输出at的概率有多大、所有的概率之和为一,概率越大的越容易被采样到。

为了输出概率会在神经网络最后加上一个softmax的函数。将多个输出映射到一个(0,1)的区间中去,可以看成是一个概率。


20200621165025853.png


整个优化的目的是为了使每一个Episode(幕)可以理解为每一场比赛,的总的reward(分数,利益)最大化


轨迹Trajectory


20200621165914723.png


智能体的选择是我们需要优化的策略,智能体不断的和环境发生交互,在不同的环境中随机选择最好的策略,已获得最好的结果,然而环境是不可选择的,只能够不断的在交互过程中选择最好的策略。


20200621170952327.png


一条智能体的选择与环境的交互选择连起来直到结束成为一条轨迹也就相当于这个episode的结束。


期望回报


20200621172605607.png


当求出所有的轨迹的回报值(收益)的时候可以求出来他的平均回报值,通过该回报值来判断该策略的好坏。


但是因为策略轨迹太多了是无穷的所以采用了采样的方式来获取,当数据样本足够大的时候就可以近似为平均回报。


优化策略


Q网络


20200621172206384.png


Q的预测值和Q的预期值进行对比要求Loss越低越好,越低距离预期越远。


  • policy 网络


20200621172706571.png


由于policy网络的策略梯度是没有预期值的所以就需要上面说到的期望回报,只有结果越高才能够有更大的收益。通过轨迹的收益,不断强化网路,促使收益高的出现概率更高。


蒙特卡洛MC与时间差分TD


  • 蒙特卡洛 回合更新制度,每一回合进行一次更新
  • 时序差分 为每一步都更新


PEINFORCE


先产生一个回合的数据,利用公式计算每一回合的总收益,用来更新网络


20200621174715316.png

以上基本上就是今天的理论知识啦,这里是三岁,有是和你白话的一天,希望大家多多支持,点赞关注收藏评论,有问题可以私聊呦!!!

目录
相关文章
|
2月前
|
运维 网络协议 安全
长连接网关技术专题(十):百度基于Go的千万级统一长连接服务架构实践
本文将介绍百度基于golang实现的统一长连接服务,从统一长连接功能实现和性能优化等角度,描述了其在设计、开发和维护过程中面临的问题和挑战,并重点介绍了解决相关问题和挑战的方案和实践经验。
85 1
|
10月前
|
机器学习/深度学习 自然语言处理 算法
Jieba分词的准确率提升:使用paddle模式进行分词(使用百度飞桨深度学习模型进行分词)
jieba中的paddle模式是指使用飞桨(PaddlePaddle)深度学习框架加速分词的一种模式。相对于传统的分词算法,paddle模式采用了深度学习模型,可以获得更高的分词准确度和更快的分词速度。
|
7月前
|
存储 缓存 搜索推荐
百度搜索:蓝易云【Elasticsearch 底层技术原理以及性能优化实践】
和副本、优化硬件、设计合理的索引、编写高效的查询以及利用缓存和预热等策略。通过综合考虑这些方面,可以提升Elasticsearch的性能并获得更好的搜索和分析体验。
282 0
|
4月前
|
存储 监控 网络协议
百度基于金融场景构建高实时、高可用的分布式数据传输系统的技术实践
本文将通过一个百度搜索旗下的金融场景案例来分享构建高实时、高可用的分布式数据传输系统的技术实践。
51 0
|
5月前
|
Web App开发 Docker 容器
百度搜索:蓝易云【用docker搭建selenium grid分布式环境实践】
通过这些步骤,您可以使用Docker搭建Selenium Grid分布式环境,并在多个节点上并行运行Selenium测试。根据实际需求,您还可以进行更高级的配置和扩展,如增加更多的节点、配置浏览器版本等。
40 1
|
8月前
|
存储 测试技术 API
百度云磁带库存储架构的设计与实践
传统介质的新气象!百度智能云基于磁带库实现冷数据存储架构。
173 0
|
9月前
|
域名解析 缓存 网络协议
百度统一socket长连接组件从0到1的技术实践
本文旨在探讨socket长连接技术在移动端的实践,并以iOS端为例,重点分享了百度在实现统一socket长连接组件过程中的技术选型和整体架构设计逻辑。并结合IM即时通讯聊天应用案例,展示长连接组件是如何在移动应用领域为类似业务场景提供解决方案的。
155 0
|
12月前
|
存储 缓存 自然语言处理
揭秘百度IM消息中台的全量用户消息推送技术改造实践
本文介绍了百度现有IM消息中台系统的主要组成,并对比多种实现方案的优劣,以“公有信箱”通知读扩散的技术方案对现有IM消息中台系统进行改造,从而达成了低成本、高时效地实现全量用户通知推送需求。
225 0
|
3月前
|
存储 Kubernetes 容器
百度搜索:蓝易云【Kubernetes使用helm部署NFS Provisioner】
现在,你已经成功使用Helm部署了NFS Provisioner,并且可以在Kubernetes中创建使用NFS存储的PersistentVolumeClaim。
44 10
|
3月前
百度搜索:蓝易云【什么是HTTP长轮询?】
现在,HTTP长轮询逐渐被WebSocket等更高效的实时通信技术所替代,但了解HTTP长轮询仍然有助于理解实时数据推送的基本原理。
86 9