百度飞桨世界冠军带你从零实践到强化学习第二天

简介: 百度飞桨世界冠军带你从零实践到强化学习第二天

大家好这里是三岁,又是絮絮叨叨的一节课,三岁白话带你看看第二天讲了什么吧!


基于表格型方法求解RL



强化学习四元组 < S,A, P, R>


S : state   状态
A : action 动作
R : reward  奖励
P : probability  状态转移概率


强化学习和智能体之间的交互是逐步的

他是一个和时间相关的序列决策问题。


20200618112832671.png


白话解析时间:(以下为个人认知与实际不一定符合)


交互是逐步的:类似于看电视,视频是逐帧的,每一帧的动画都是连续的不可能缺失不然就不是完整的影片了!


时间相关的决策:和人类的行为一样,我现在的行为决定了一生,如果选好了人生完全不一样,同样的机器的这次学习就是机器的此生,他的每一个行为决定了它这一生的结果。而且这一生没有后悔药一直是向前的。


转态转移概率:就是我们生活中的选着,比如吃什么,哪里恰?对于机器也是一样,机器选择是因为概率,我们选择是因为思维,我们模拟了自己的思维赋值给了机器。


总结:机器学习相当于机器模拟了某一个行为指定次数的探索,相当于人类几千年的探索和生存史,机器学习以收益为激励促进机器去探索尝试,最后获得一个相对较好的结果。


Model-free 试错探索


20200618114529981.png

Model-based:对于p和r的概率是已知的。人、R的值和 P的概率都是知道的,这样就相当于在前人的肩膀上拉


Model-free:对于结果都是未知的,只能够摸着石头过河,逐步去探索


20200618115303473.png


通过价值函数来代表这个过程的好坏。(V(st+1))

Q(st,at)代表某一个点他的结果的好坏及价值


20200618115802727.png



Q函数表格;转态动作价值:相对应生活手册,根据价值来获取

以未来的总收益为标准,更据实际情况进行操作。

比如:


  • 闯红灯:一个是因为自己想扣12分还要罚款,一个是送人去医院或者避让特殊车辆则不用扣分,同样的机器学习以最后的那个结果(奖励或处罚为激励项目)
  • 股票 :虽然我很久以后可能会大涨(根据预测),但是当前并不是很好,可是我预测的是当下的和好久以后的关系并不大,所以要注意时间的长度及跨度。


这里就多了一个衰减因子的概念


经典语录:对于远一点的东西我们只要当自己是近视就好了!

添加一个伽马值,范围是0到1之间。

这个值给越往前越大(伽马的平方)哪怕后面好久以后的数值很大但是也起不了什么波澜。对当前价值的影响就越小。


强化概念


20200618180501812.png


当中性刺激和有条件刺激在时间上的结合导致中性刺激对也产生条件反射的学习叫做强化。

emmm,简单点讲,人类对某些事物的认知与联系就算是强化学习。看到定情信物想到爱人,本来两者毫无关联但是有了情感在里面就不一样啦!


转态价值迭代


20200618181451466.png


机器在学习过程中会对不同的地方进行价值评价,同时会影响周围地方的价值,当时间长了以后会选择出一条价值水平最高的路线。


探索与利用的选择


20200618183420895.png

在选择过程中是强迫症还是计划性不纠结是去新的地方探索还是始终如一,这个就是探索和利用的一个方法。


20200618190823709.png


存在的问题


没有图形界面

原因不详可能和环境有关系,但是在线下可以,那个结果还是比较美好的。

有几个需要修改的


没有文件


找不到一个GridWorld.py文件

这个可以自己写也可以直接使用

下载地址:(点击下载


有文件不会用?


20200618190844358.png

参考这个图,你懂得哦!!!


20200618190937196.png

还有这个地方


根据他的修改了还是没有怎么办?


20200618191045914.png


找到这个地方,把他改成 True ,尝试一下说不定可以有!!!

这里是三岁今天就先到这里了,我去研究今天晚上的作业啦!记得支持一下,点赞收藏留言关注!!!

呕心沥血系列!!!

目录
相关文章
|
28天前
|
人工智能 自然语言处理 数据库
RAG 技术:让 AI 从 “书呆子” 变身 “开卷小天才”!
鳄叔介绍了RAG(检索增强生成)技术,这是一种让AI既能查资料又能灵活作答的方法,如同“开卷考试”的学霸。RAG结合了检索能力和生成能力,使AI能够实时获取最新信息,提供更专业、精准的回答,广泛应用于企业客服、法律咨询、医疗诊断和教育等领域。
|
机器学习/深度学习 人工智能 TensorFlow
谷歌大脑深度学习调参(炼丹)指南出炉,Hinton点赞,一天收获1500星
谷歌大脑深度学习调参(炼丹)指南出炉,Hinton点赞,一天收获1500星
199 0
|
机器学习/深度学习 人工智能 自然语言处理
【周末闲谈】文心一言,模仿还是超越?
【周末闲谈】文心一言,模仿还是超越?
162 0
|
机器学习/深度学习 数据采集 人工智能
AI十级「找茬」选手,非这个书生莫属,节后开源!(1)
AI十级「找茬」选手,非这个书生莫属,节后开源!
152 0
|
机器学习/深度学习 C++
百度飞桨世界冠军带你从零实践强化学习第四天(三岁白话时间)
这里是三岁,这里吧第四的素材和资料整理了一下,大家康康,有什么不足的欢迎提出,批评指正!!!
157 0
百度飞桨世界冠军带你从零实践强化学习第四天(三岁白话时间)
|
机器学习/深度学习 C++
百度飞桨世界冠军带你从零实践强化学习第五天(三岁白话时间)
百度飞桨世界冠军带你从零实践强化学习第五天(三岁白话时间)
206 0
百度飞桨世界冠军带你从零实践强化学习第五天(三岁白话时间)
|
机器学习/深度学习 人工智能 架构师
三岁在的百度架构师带你零基础实践深度学习的第一天
大家好这里是小白三岁,参加了百度飞桨的课程《百度架构师手把手带你零基础实践深度学习》,又开始了三岁的白话叨叨叨,虽然是0基础实践课程但是此’hello world’非彼’hello world’还需大家一起努力。
146 0
三岁在的百度架构师带你零基础实践深度学习的第一天
|
机器学习/深度学习 人工智能 自然语言处理
2019年Reddit机器学习17个高赞项目:AI德扑大师、StyleGAN等上榜
本文是Medium网友整理的2019年Reddit机器学习板块热门高赞项目资源汇总,既有Facebook、英伟达等大厂的作品,也有网友自制的有趣小尝试,共17个项目,按热度高低排序,一起看看吧!
327 0
2019年Reddit机器学习17个高赞项目:AI德扑大师、StyleGAN等上榜
|
机器学习/深度学习 人工智能 自然语言处理
NIPS大会最精彩一日:AlphaZero遭受质疑;史上第一场正式辩论与LeCun激情抗辩;元学习&强化学习亮点复盘
美国时间周四,NIPS 大会走完了日程的一半。工业界的众多公司搬东西撤出了展览会场,受邀演讲也全部结束。之后亮点除了当地时间周五周六的 Workshop 以外,就是周四下午的四场重要的研讨会——从元学习和深度强化学习,到 DeepMind 刚刚公布的 AlphaZero,以及 Yann LeCun 参加了 NIPS 史上第一次辩论,一天的精彩内容尽在此文中。
228 0
NIPS大会最精彩一日:AlphaZero遭受质疑;史上第一场正式辩论与LeCun激情抗辩;元学习&强化学习亮点复盘
|
机器学习/深度学习 人工智能 机器人
看YouTube学做广播体操?机器人即将掌握人类所有动作 | 一周AI最火论文
机器人世界正在迅速地发展,很快我们就会目睹机器人掌握更多之前只有人类能够掌握的技能。在这篇论文中,研究人员提出了一个激动人心的课题——指导机器人复制视频中的动作。他们解决了机器人对协同动作计划学习的挑战。
1240 0
看YouTube学做广播体操?机器人即将掌握人类所有动作 | 一周AI最火论文