暂无个人介绍
前面关于强化学习的文章中介绍了MDP,动态规划的方法对MDP问题的V函数进行评估和求最优策略。然而现实问题中,往往很多时候环境是未知的。那么这篇文章就介绍一下在未知环境下用Model Free的方法预测MDP。
求解最优MDP实际上就是找到最佳策略(Policy)π来最大化来最大化V函数(Value Function)。 公式一 1. 策略估算(Policy Evaluation) 在MDP问题中,如何评估一个策略的好坏呢?那我们就计算这个策略的V函数(值函数),这里我们又要用到之前文章中提到的Bellman Equation了。
我们介绍过MDP(Markov Decision Processes马可夫决策过程)以及什么是最优MDP,甚至从强化学习的角度介绍了DQN,Q-learning, Sarsa 等求解最优MDP方法,但是要深入理解强化学习,必须了解背后支持的理论基础。
之前的文章介绍了Q-learning, 介绍了深度学习(Deep Learning),DQN顾名思义就是将两者结合起来。DeepMind公司也就是用DQN从玩各种电子游戏开始,直到训练出阿尔法狗打败了人类围棋选手。
上一篇文章介绍了MDP的基本概念,但是我们更关心的是如何寻找到最佳的路径解决MDP问题。MDP过程中,可以有无数种策略(policy),找到最佳的路径实际上就是找到最佳的Policy 来最大化V函数(Value Function)或者Q函数(Action-Value Function)。
前面好几篇文章都在介绍强化学习(RL),以及强化学习的一些具体算法,但是强化学习中用到的最重要的理论MDP却还没提到。这篇文章就来说说MDP。 讲MDP的文章和资料非常多,理论和数学公式也能轻易找到,所以本文并不是要严谨地推导MDP,而是想让读者感性地认识MDP以及它对强化学习的重要性。
在使用Tensorflow搭建神经网络的时候,最后一步总会用到tf.train.XxxOptimizer(). 然后会有很多Optimizer()如下图 其实这些Optimizer 都是优化算法下面重点介绍几个常见的 1. Gradient Decent 这是最基础的梯度下降算法,更新权重W,不多解释。
上一篇文章介绍了强化学习中的Q-Learning算法,这篇文章介绍一个与Q-Learning十分类似的算法——Sarsa算法。 1. 回顾Q Learning 还是同样的例子,红色机器人在4x4的迷宫中寻找黄色的宝藏。
继续接着上一篇,这篇文章介绍强化学习中的一个经典算法——Q Learning. 在之前的文章中已经介绍过了,强化学习就是让机器人(Agent)在与环境的互动过程学习解决问题的最佳路径的过程。
上一篇文章中提到了学习编程练习的重要性,今天就通过几个练习题,来巩固一下Python中几个重要的技能。 将字典中大于2的值过滤掉。 #Filter out values of equal or greater than 2 #Note that for Python 2 you will have to use iteritems d = {"a": 1, "b": 2, "c": 3} 读取输入的一句话中的单词数。
网上有一个经典的段子“听过很多道理,依然过不好这一生”。同样的道理我们也可以问问自己“学过这么多年英语,依然开不了口”,“看了这么多书,依然编不了程序”。
上一篇文章简要介绍了一下强化学习,强化学习是一个非常庞大的体系,与监督学习和非监督学习相比,其广度和深度都大的多,涉及到很多经典的决策算法,对统计学知识有很高的依赖。
诚如在之前文章提到的,机器学习按照从那里学的角度可以分为:监督学习,无监督学习和强化学习三大类。之前的文章大多数都是介绍的前两类,而第三类强化学习(RL)确是最接近我们所想象的人工智能。
前面虽然介绍了概率和贝叶斯网络,但是还是没有正式介绍AI中最重要的算法——机器学习。如果说概率论是机器学习的基石,那么机器学习算法和理论就是支撑整个AI系统的支柱。
由于工作的关系经常往返于中英之间,以前回去总会带一点现金,最近几乎都用不了什么现金了,一个手机基本搞定衣食住行。 国内的移动支付发展速度真是令人惊讶,微信支付宝普及的程度不仅仅局限于大城市,连我家乡的四线小城的夜市小商贩都挂着各种二维码接受移动支付。
Autoencoder 的基本概念 之前的文章介绍过机器学习中的监督学习和非监督学习,其中非监督学习简单来说就是学习人类没有标记过的数据。对于没有标记的数据最常见的应用就是通过聚类(Clustering)的方式将数据进行分类。
之前的文章简单介绍了Kaggle平台以及如何用支撑向量(SVM)的机器学习算法识别手写数字图片。可见即使不用神经网络,传统的机器学习算法在图像识别的领域也能取得不错的成绩(我跑出来了97.2% 的正确率), 但是要将正确率再往上提升就会遇到瓶颈了。
之前写了关于人工智能和机器学习的理论基础文章,今天就理论联系实际,用机器学习算法跑个分。 机器学习最重要的就是数据,Kaggle平台提供了大量数据为机器学习的学习者和研究者提供一个跑分的平台。
在之前的文章中介绍了经典的机器学习算法,深度学习算法等等,但是在这些算法的应用中有几个非常关键又很容易混淆的概念必须要强调一下。 1、数据分组 机器学习的数据一般会分为 train(训练), development(验证) 和 test(测试) 三个组。
五月的英国真是美好,月初和月末的周一都是Bank holiday。Bank holiday 实际上就是法定公共假期,英国的假期相比中国真是少得可怜,算上圣诞、新年全年加起来也只有8天。
继续折腾我家的PC,上次我说到在PC上做了两件事,第一装了个黑苹果第二是在Windows 10 上面运行Ubuntu, 工欲善其事必先利其器,两个系统上用的最多的肯定就是终端了,Mac的默认的终端白底黑字,非常难看,Windows下的Ubuntu虽然多了色彩,但是也继承了Win下难看的字体非常难受,于是决定美化一下。
目前深度学习和神经网络算法最典型的有两个应用实例,一个是图像识别,一个是语音识别。上一篇文章讲到图形识别的卷积神经网络(CNN)就广泛应用在了图像别方面,而这篇文章就来讲另一个广泛应用于语音识别的算法循环神经网络(RNN)。
image.png 上一篇博文用癌症检测的问题,发现即便是被准确率高达90%的仪器检测出了癌症,但实际得癌症的概率却如此之低。从这个例子引出了贝叶斯定理这个工具,利用这个工具可以计算一个普遍的问题那就是“检测问题”。
image.png 如果你去医院体检发现癌症检测为阳性,而检测准确率为90%(检测成阳性而且确实有癌症P( + | C) ),你真正得了癌症的概率是多少? 当然我还得给你两个数据比如 1、癌症患者占人口总数的比如1%(P(C) = 0.01) 2、检测的误诊率20%(没有癌症但是检测成阳性P( + | -C)) 这三个条件下你能算出你确实得癌症(检查为阳性)(P(C|+))概率吗? ------答案在分割线下面-------- 答案是4.3%, 其实有很大概率你是没有癌症的,所以不必惊慌。
image.png 西方人结婚之后女方往往都会改成男方的姓氏,所以别人知道已婚夫妇的其中一人的姓氏之后就会默认另一个也是这个姓氏,之后称呼俩人的时候就直接Mr and Mrs xxx 就完了。
image.png 上篇文章简单地地介绍了神经网络和深度学习,在神经网络中,每一层的每个神经元都与下一层的每个神经元相连(如下图), 这种连接关系叫全连接(Full Connected)。
在之前的文章里面,我介绍了机器学习的很多经典算法,其中有一个叫做『神经网络』的算法目前最受追捧,因为击败李世石的阿尔法狗所用到的算法实际上就是基于神经网络的深度学习算法。
之前我说通过某宝将家里面的PC装了上了黑苹果,用淘宝是因为不想折腾,想省时间。事实证明我还是一个爱折腾的人。 某宝店家装的是最新版的macOS High Sierra,由于官方的显卡驱动有问题,店家还专门帮我降到了之前的版本。
你以为我是在说虚拟机,哈哈那就错了,虚拟机太消耗资源啦。之前我说在PC上装了个黑苹果, 最近闲的蛋疼又想玩玩Linux,但是有不想装虚拟机也不想再格一个盘,怎么办。
有些问题之所以很困难有可能并不是问题本身很困难,而是自己没有把问题定义清楚。有时候把一个要解决的问题定义清楚问题本身就解决了一大半。这篇笔记是想通过一个简单的例子,介绍一下在人工智能或者机器学习领域中如何定义一个问题,顺便介绍一下解决这个问题的办法。
好几个月前回国带了一块SSD,一直没时间给家里的台式机装上,最近休产假,终于有时间给装上了。之前说我工作的主力实际上一直都是那台Macbook Pro 但由于抵挡不了游戏的诱惑在家装了一台Windows PC, i5处理器,GTX1070 显卡。
我的Macbook pro 已经陪伴我度过了快6年的美好时光了。2012年当所有的其他笔记本电脑都还在用恶心得1366*768的分辨率的时候,苹果在相继推出视网膜屏幕的手机和ipad之后,发布了世界上第一台视网膜分辨率笔记本电脑。
除了在这里记录一些生活琐事之外,我还决定在这里记录一下自己的学习和见闻。做一个简单的自我背景介绍吧,我本科来自国内某985高校的微电子专业,博士毕业于英国某罗素集团大学的物理学院,博士后加入了英国某高校电子信息与计算机学院的机器人课题组,并从此开始关注人工智能。