百度飞桨世界冠军带你从零实践到强化学习第二天

简介: 百度飞桨世界冠军带你从零实践到强化学习第二天

大家好这里是三岁,又是絮絮叨叨的一节课,三岁白话带你看看第二天讲了什么吧!


基于表格型方法求解RL



强化学习四元组 < S,A, P, R>


S : state   状态
A : action 动作
R : reward  奖励
P : probability  状态转移概率


强化学习和智能体之间的交互是逐步的

他是一个和时间相关的序列决策问题。


20200618112832671.png


白话解析时间:(以下为个人认知与实际不一定符合)


交互是逐步的:类似于看电视,视频是逐帧的,每一帧的动画都是连续的不可能缺失不然就不是完整的影片了!


时间相关的决策:和人类的行为一样,我现在的行为决定了一生,如果选好了人生完全不一样,同样的机器的这次学习就是机器的此生,他的每一个行为决定了它这一生的结果。而且这一生没有后悔药一直是向前的。


转态转移概率:就是我们生活中的选着,比如吃什么,哪里恰?对于机器也是一样,机器选择是因为概率,我们选择是因为思维,我们模拟了自己的思维赋值给了机器。


总结:机器学习相当于机器模拟了某一个行为指定次数的探索,相当于人类几千年的探索和生存史,机器学习以收益为激励促进机器去探索尝试,最后获得一个相对较好的结果。


Model-free 试错探索


20200618114529981.png

Model-based:对于p和r的概率是已知的。人、R的值和 P的概率都是知道的,这样就相当于在前人的肩膀上拉


Model-free:对于结果都是未知的,只能够摸着石头过河,逐步去探索


20200618115303473.png


通过价值函数来代表这个过程的好坏。(V(st+1))

Q(st,at)代表某一个点他的结果的好坏及价值


20200618115802727.png



Q函数表格;转态动作价值:相对应生活手册,根据价值来获取

以未来的总收益为标准,更据实际情况进行操作。

比如:


  • 闯红灯:一个是因为自己想扣12分还要罚款,一个是送人去医院或者避让特殊车辆则不用扣分,同样的机器学习以最后的那个结果(奖励或处罚为激励项目)
  • 股票 :虽然我很久以后可能会大涨(根据预测),但是当前并不是很好,可是我预测的是当下的和好久以后的关系并不大,所以要注意时间的长度及跨度。


这里就多了一个衰减因子的概念


经典语录:对于远一点的东西我们只要当自己是近视就好了!

添加一个伽马值,范围是0到1之间。

这个值给越往前越大(伽马的平方)哪怕后面好久以后的数值很大但是也起不了什么波澜。对当前价值的影响就越小。


强化概念


20200618180501812.png


当中性刺激和有条件刺激在时间上的结合导致中性刺激对也产生条件反射的学习叫做强化。

emmm,简单点讲,人类对某些事物的认知与联系就算是强化学习。看到定情信物想到爱人,本来两者毫无关联但是有了情感在里面就不一样啦!


转态价值迭代


20200618181451466.png


机器在学习过程中会对不同的地方进行价值评价,同时会影响周围地方的价值,当时间长了以后会选择出一条价值水平最高的路线。


探索与利用的选择


20200618183420895.png

在选择过程中是强迫症还是计划性不纠结是去新的地方探索还是始终如一,这个就是探索和利用的一个方法。


20200618190823709.png


存在的问题


没有图形界面

原因不详可能和环境有关系,但是在线下可以,那个结果还是比较美好的。

有几个需要修改的


没有文件


找不到一个GridWorld.py文件

这个可以自己写也可以直接使用

下载地址:(点击下载


有文件不会用?


20200618190844358.png

参考这个图,你懂得哦!!!


20200618190937196.png

还有这个地方


根据他的修改了还是没有怎么办?


20200618191045914.png


找到这个地方,把他改成 True ,尝试一下说不定可以有!!!

这里是三岁今天就先到这里了,我去研究今天晚上的作业啦!记得支持一下,点赞收藏留言关注!!!

呕心沥血系列!!!

目录
相关文章
|
6月前
|
运维 网络协议 安全
长连接网关技术专题(十):百度基于Go的千万级统一长连接服务架构实践
本文将介绍百度基于golang实现的统一长连接服务,从统一长连接功能实现和性能优化等角度,描述了其在设计、开发和维护过程中面临的问题和挑战,并重点介绍了解决相关问题和挑战的方案和实践经验。
240 1
|
30天前
|
机器学习/深度学习 监控 数据挖掘
基于Django和百度飞桨模型的情感识别Web系统
基于Django和百度飞桨模型的情感识别Web系统
36 5
|
3月前
|
机器学习/深度学习 人工智能 API
百度飞桨(PaddlePaddle)- 张量(Tensor)
百度飞桨(PaddlePaddle)- 张量(Tensor)
75 3
百度飞桨(PaddlePaddle)- 张量(Tensor)
|
3月前
|
机器学习/深度学习 文字识别 Linux
百度飞桨(PaddlePaddle) - PP-OCRv3 文字检测识别系统 基于 Paddle Serving快速使用(服务化部署 - CentOS 7)
百度飞桨(PaddlePaddle) - PP-OCRv3 文字检测识别系统 基于 Paddle Serving快速使用(服务化部署 - CentOS 7)
79 1
百度飞桨(PaddlePaddle) - PP-OCRv3 文字检测识别系统 基于 Paddle Serving快速使用(服务化部署 - CentOS 7)
|
3月前
|
数据采集 自然语言处理 API
百度飞桨(PaddlePaddle)-数字识别
百度飞桨(PaddlePaddle)-数字识别
57 1
|
3月前
|
JSON 文字识别 Linux
百度飞桨(PaddlePaddle) - PP-OCRv3 文字检测识别系统 基于 Paddle Serving快速使用(服务化部署 - Docker)
百度飞桨(PaddlePaddle) - PP-OCRv3 文字检测识别系统 基于 Paddle Serving快速使用(服务化部署 - Docker)
174 0
|
3月前
|
文字识别 监控 机器人
百度飞桨(PaddlePaddle) - PP-OCRv3 文字检测识别系统 预测部署简介与总览
百度飞桨(PaddlePaddle) - PP-OCRv3 文字检测识别系统 预测部署简介与总览
76 0
|
3月前
|
文字识别 数据可视化 Python
百度飞桨(PaddlePaddle) - PP-OCRv3 文字检测识别系统 Paddle Inference 模型推理(离线部署)
百度飞桨(PaddlePaddle) - PP-OCRv3 文字检测识别系统 Paddle Inference 模型推理(离线部署)
183 0
|
3月前
|
机器学习/深度学习 文字识别 算法
百度飞桨(PaddlePaddle) - PaddleHub OCR 文字识别简单使用
百度飞桨(PaddlePaddle) - PaddleHub OCR 文字识别简单使用
220 0
|
3月前
|
人工智能 异构计算 Python
百度飞桨(PaddlePaddle)安装
百度飞桨(PaddlePaddle)安装
94 0
下一篇
无影云桌面