强化学习的起源:从老鼠走迷宫到AlphaGo战胜人类

简介: 强化学习的起源:从老鼠走迷宫到AlphaGo战胜人类
【新智元导读本文介绍了基于模型的和无模型的两种强化学习。用人类和动物的学习方式进行举例,讲述了两种强化学习类型的起源、区别以及结合。


谈到强化学习,很多研究人员的肾上腺素便不受控制地飙升!它在游戏AI系统、现代机器人、芯片设计系统和其他应用中发挥着十分重要的作用。

 

强化学习算法有很多不同的类型,但主要分为两类:「基于模型的」和「无模型的」。

 

在与TechTalks的对话中,神经科学家、 「智能的诞生」一书的作者Daeyeol Lee分别讨论了人类和动物强化学习的不同模式、人工智能和自然智能,以及未来的研究方向。

 

 

无模型的强化学习


19世纪后期,心理学家Edward Thorndike提出的「效应定律」成为了无模型强化学习的基础。Thorndike提出,在特定情境中具有积极影响的行为,在该情境中更有可能再次发生,而产生负面影响的行为则不太可能再发生。

 

 

Thorndike在一个实验中探索了这一「效应定律」。他把一只猫放在一个迷宫盒子中,并测量猫从盒中逃脱所需的时间。为了逃脱,猫必须操作一系列小工具,如绳子和杠杆。Thorndike观察到,当猫与谜盒互动时,它学会了有助于逃跑的行为。随着时间的推移,猫逃离盒子的速度越来越快。Thorndike的结论是,猫可以从其行为提供的奖励和惩罚中进行学习。「效应定律」后来为行为主义铺平了道路。行为主义是心理学的一个分支,试图从刺激和反应的角度来解释人类和动物的行为。「效应定律」也是无模型强化学习的基础。在无模型强化学习中,通过主体感知世界,然后采取行动,同时衡量奖励。

 

 

在无模型强化学习中,并不存在直接的知识或世界模型。RL代理必须通过反复试验,直接去体验每个动作的结果。

 

基于模型的强化学习


Thorndike的「效应定律」一直流行到20世纪30年代。当时另一位心理学家Edward Tolman在探索老鼠如何快速学会走迷宫时发现了一个重要的见解。在他的实验中,Tolman意识到动物可以在没有强化的情况下了解他们的环境。例如,当一只老鼠在迷宫中被放出来时,它会自由地探索隧道,并逐渐了解环境的结构。如果随后将这只老鼠重新放进相同的环境,并提供强化信号,如寻找食物或寻找出口,那么它可以比没有探索过迷宫的动物更快地到达目标。Tolman称之为「潜在学习」,这成为基于模型的强化学习的基础。「潜在学习」使动物和人类对他们的世界形成一种心理表征,在他们的头脑中模拟假设的场景,并预测结果。

基于模型的强化学习的优点是它消除了agent在环境中进行试错的需要。值得强调的一点是:基于模型的强化学习在开发能够掌握国际象棋和围棋等棋盘游戏的人工智能系统方面尤其成功,可能的原因是这些游戏的环境是确定的。

基于模型 VS 无模型

通常来说,基于模型的强化学习会非常耗时,在对时间极度敏感的时候,可能会发生致命的危险。Lee说:「在计算上,基于模型的强化学习要复杂得多。首先你必须获得模型,进行心理模拟,然后你必须找到神经过程的轨迹,再采取行动。不过,基于模型的强化学习不一定就比无模型的RL复杂。」当环境十分复杂时,倘若可以用一个相对简单的模型(该模型可以快速获得)进行建模,那么模拟就会简单得多,而且具有成本效益。

 

 

多种学习模式


其实,无论是基于模型的强化学习还是无模型的强化学习都不是一个完美的解决方案。无论你在哪里看到一个强化学习系统解决一个复杂的问题,它都有可能是同时使用基于模型和无模型的强化学习,甚至可能更多形式的学习。神经科学的研究表明,人类和动物都有多种学习方式,而大脑在任何特定时刻都在这些模式之间不断切换。最近几年,人们对创造结合多种强化学习模式的人工智能系统越来越感兴趣。加州大学圣地亚哥分校的科学家最近的研究表明,将无模型强化学习和基于模型的强化学习结合起来,可以在控制任务中取得卓越的表现。Lee表示:「如果你看看像AlphaGo这样复杂的算法,它既有无模型的RL元素,也有基于模型的RL元素,它根据棋盘配置学习状态值,这基本上是无模型的 RL,但它同时也进行基于模型的前向搜索。」

 

尽管取得了显著的成就,强化学习的进展仍然缓慢。一旦RL模型面临复杂且不可预测的环境,其性能就会开始下降。

Lee说:「我认为我们的大脑是一个学习算法的复杂世界,它们已经进化到可以处理许多不同的情况。」

 

除了在这些学习模式之间不断切换之外,大脑还设法一直保持和更新它们,即使是在它们没有积极参与决策的情况下。

 

心理学家Daniel Kahneman表示:「维护不同的学习模块并同时更新它们是有助于提高人工智能系统的效率和准确性。」

 

 

我们还需要清楚另一件事——如何在AI系统中应用正确的归纳偏置,以确保它们以具有成本效益的方式学习正确的东西。数十亿年的进化为人类和动物提供了有效学习所需的归纳偏置,同时使用尽可能少的数据。归纳偏置可以理解为,从现实生活观察到的现象中,总结出规则,然后对模型做一定的约束,从而可以起到模型选择的作用,即从假设空间中选择出更符合现实规则的模型。Lee说:「我们从环境中获得的信息非常少。使用这些信息,我们必须进行概括。原因是大脑存在归纳偏置,并且存在可以从一小组示例中概括出来的偏置。这是进化的产物,越来越多的神经科学家对此感兴趣。」然而,虽然归纳偏置在物体识别任务中很容易理解,但在构建社会关系等抽象问题中就变得晦涩难懂。未来,需要我们了解的还有很多~~~

参考资料:

https://thenextweb.com/news/everything-you-need-to-know-about-model-free-and-model-based-reinforcement-learning


相关文章
|
7月前
|
机器学习/深度学习 敏捷开发 算法
算法人生(1):从“强化学习”看如何“战胜拖延”
算法人生系列探讨如何将强化学习理念应用于个人成长。强化学习是一种机器学习方法,通过奖励和惩罚促使智能体优化行为策略。它包括识别环境、小步快跑、强正避负和持续调优四个步骤。将此应用于克服拖延,首先要识别拖延原因并分解目标,其次实施奖惩机制,如延迟满足和替换刺激物,最后持续调整策略以最大化效果。通过这种动态迭代过程,我们可以更好地理解和应对生活中的拖延问题。
115 8
|
决策智能
博弈论第十七集总结(“声誉和决斗 ”观后感)
博弈论第十七集总结(“声誉和决斗 ”观后感)
56 0
|
人工智能 自然语言处理 搜索推荐
鸡兔同笼都能算错的ChatGPT,陶哲轩发现了它的价值
鸡兔同笼都能算错的ChatGPT,陶哲轩发现了它的价值
125 0
|
机器学习/深度学习 算法
大脑飞行是啥?Hinton推特引热议,神经网络是让小鸟飞起来的「羽毛」?(二)
神经网络的设计到底能不能借鉴人类大脑构造?近日,Hinton在Twitter上开了一个小讨论:人们反对在设计神经网络时从大脑获取灵感,就像在设计飞行器时从羽毛中获取灵感一样。这次没论文,就是一个观点,你同意吗?
221 0
大脑飞行是啥?Hinton推特引热议,神经网络是让小鸟飞起来的「羽毛」?(二)
|
机器学习/深度学习 人工智能
大脑飞行是啥?Hinton推特引热议,神经网络是让小鸟飞起来的「羽毛」?(一)
神经网络的设计到底能不能借鉴人类大脑构造?近日,Hinton在Twitter上开了一个小讨论:人们反对在设计神经网络时从大脑获取灵感,就像在设计飞行器时从羽毛中获取灵感一样。这次没论文,就是一个观点,你同意吗?
171 0
大脑飞行是啥?Hinton推特引热议,神经网络是让小鸟飞起来的「羽毛」?(一)
|
机器学习/深度学习 人工智能 芯片
量子神经网络能给人类永生吗?爱因斯坦的「幽灵超距作用」或可实现「意识永存」
死亡只有在回想起来时才是确定的,这就是为什么只要涉及量子力学,任何研究都令人激动。爱因斯坦的「幽灵般的超距作用」可能是我们通往永生的门票。
635 0
量子神经网络能给人类永生吗?爱因斯坦的「幽灵超距作用」或可实现「意识永存」
|
机器学习/深度学习 传感器 人工智能
Reddit热议:15岁高中生用神经网络建立生命进化“新宇宙”
一位年仅15岁波兰高中生利用神经网络和遗传算法模拟出了人造生命的繁衍和进食活动,将视频发在了Youtube上。reddit网友纷纷表示鼓励,并表示,过个几百万年,说不定这个网络能够进化出战争和国家!
200 0
Reddit热议:15岁高中生用神经网络建立生命进化“新宇宙”
|
机器学习/深度学习 人工智能 算法
AlphaGo 3:0 战胜李世石,机器与人类的共同胜利
在刚刚结束的AlphaGo对战李世石第三局中,AlphaGo战胜李世石,从而最终获得了本次挑战赛的胜利(依然要比完五局),也预示着人工智能首次在围棋领域击败了人类顶尖选手。
428 0
|
机器学习/深度学习 人工智能 算法
AI搞了半天只是曲线拟合?贝叶斯网络之父力荐因果关系应用
作者 | Kurt Marko译者 | 核子可乐 AI 前线导读: 人工智能只是优秀的曲线拟合?近两年,关于这一观点的讨论从未停止,图灵奖获得者、贝叶斯网络之父 Judea Pearl 也参与其中,他一直自嘲自己是 AI 社区的反叛者,认为由于人类对智能的真正含义不完全理解而阻碍了人工智能的发展,他曾经在多个场合表达过这样的观点:人工智能领域的技术水平只不过是上一代机器已有功能的增强版——在大量数据中发现隐藏的规律性,所有令人印象深刻的深度学习成果都只是曲线拟合。
AI搞了半天只是曲线拟合?贝叶斯网络之父力荐因果关系应用

热门文章

最新文章