MIT科学家用AI设计「好奇心」算法:基于元学习探索奇妙世界

简介: 孩子们通过好奇心解锁世界。相比之下,把计算机放到新环境中通常会卡顿。为此,研究人员尝试将好奇心编码到他们的算法中,希望智能体在探索的驱动下,能够更好地了解他所处的环境。

微信图片_20220108210203.png


很多伟大的发明一开始都是好奇心驱使的。


苹果砸到牛顿头上,他开始思考为什么苹果会从树上掉下来,于是得出了万有引力定律。

微信图片_20220108210206.jpg


瓦特对烧水壶冒出的蒸汽十分好奇,最后改良了蒸汽机。因为好奇,成就了「昆虫界的荷马」法布尔。因为好奇,德莱斯发明了自行车。 数千年来,好奇心打开了人类的智慧大门。


在好奇心的驱使下,人们探索世界并从经验中学到了新技能。相比之下,把计算机放到新的环境中,有时就会出现故障。


微信图片_20220108210209.png


将「好奇心」编码到算法中


为了能让计算机更好地适应新环境,工程师们尝试将好奇心编码到算法中,希望在好奇心推动下智能体能够去更有效地探索,了解他所处的环境。


就和小孩学习新事物一样,智能体要首先从捡东西,操纵使用物体,投掷东西学起,实现了这些基本操作,学习其他事物的能力也会随之加快


工程师已发现了许多方法,能够将好奇探索机制编码到机器学习算法中。一直以来,研究人员也通过计算机来搜索新的算法。最近,麻省理工学院的一个研究小组在思考计算机在算法设计方面是否比人有优势。


近年来,深度神经网络的设计(通过调整参数来搜索解决方案的算法)已通过Google的AutoML和Python中的auto-sklearn等软件实现了自动化。这使那些非专业人士也能轻易地开发AI应用程序。


但是,尽管深度神经网络擅长做特定任务,但它们在新的环境中适用性不高。相比之下,用高级编程语言编出的算法能在不同任务和环境中迁移知识。


利用AI自动设计算法


 研究的合著者,麻省理工学院电气工程与计算机科学系,以及计算机科学与人工智能实验室(CSAIL)的研究生Ferran Alet说:「人为设计的算法非常普通。我们受到启发,使用AI来发现具有好奇心且能适应各种不同环境的算法。」


微信图片_20220108210211.png


同时,作者表示,「 我们从人和其他动物的好奇行为中汲取了灵感。假设好奇心是进化过程中探索发现的一种机制,该机制促使智能体在生命早期进行有意义的探索。这项探索使它能够在其一生学习中,不断获取经验赢得高额回报。我们将产生好奇行为的问题作为一种元学习。


研究人员创建了一种「元学习」算法,该算法生成了52,000个探索算法。他们发现最上面的两个是全新的算法,从人为角度看,似乎太明显,违反直觉了。这两种算法都产生了探索行为,从根本上改善了一系列模拟任务中的学习过程,从二维网格图像导航到机器人蚂蚁行走。由于元学习过程会输出高级计算机代码,因此可以分解这两种算法,以了解其内部决策过程。



该论文的高级作者是麻省理工学院计算机科学和电气工程学教授Lesile Kaelbling和Tomas Lozano-Perez。这项工作将在2020ICLR大会上进行具体介绍。


该论文获得了许多没有参与其中的研究人员的称赞。


Google的首席科学家Quoc Le表示,「使用程序检索来发现更好的内在奖励机制是非常有创意的,它帮助开拓了计算机辅助深度学习模型的设计。我非常喜欢这个idea,在于它的程序是可以解读的」


研究人员将自动化的算法设计过程,比作是用有限的单词来写句子的过程。他们首先选择了一组基本构建模块来定义其探索算法。在研究了其他好奇心算法以获得灵感之后,他们挑选了30多种高级操作,包括基本程序和深度学习模型,来引导智能体做一些事情,比如记住以前的输入,比较当前和过去的输入,并使用学习方法来改变自己的模块。然后,计算机一次最多可以组合7种不同操作,生成描述52,000种算法的计算图。


即使用一台快速的计算机,对所有的算法进行测试都要花费数十年的时间。因此,研究人员首先排除了那些从代码结构就预测出其性能较差的算法,来缩小范围。


然后,他们在一项基本的网格坐标导航任务上测试了那些最看好的算法,网格导航任务需要大量的探索行为,但计算量最少。如果某项算法表现良好,那么它的表现就成为新的基准,从而淘汰更多候选人。


研究人员用四台计算机搜索了10多个小时,以找到最佳算法。


结果发现,超过99%都是垃圾算法,但大约有一百种是优胜的高性能算法。


值得注意的是,前16名优胜的算法既新颖又好用,在其他虚拟任务(从登上月球车,到举起机械臂,再到移动类似蚂蚁的机器人)的性能上,都比人类设计的算法要好,至少实力相当。


所有16种算法都产生了两个基本的探索功能。


智能体会在两种情况下受到奖励:


第一种,智能体会因为访问新的地方而获得奖励,因为在那里他们有更大的机会采取新的行动。


第二种,智能体也会因为访问新地方而获得奖励,但以一种更细微的方式: 其中一个神经网络预测未来的状态,而另一个回忆过去,然后试图通过在未来回忆过去来预测现在。如果这个预测结果是错误的,那么它会奖励自己,因为这是一个信号,表明它发现了以前不知道的东西。第二种算法是如此违反直觉,以至于研究人员花了很长时间才弄明白。


「我们的偏见常常使我们无法尝试非常创新的想法,」Alet说。「但是计算机不会。他们会多多尝试,看看怎么样,有时反而会得到意想不到的出色结果。」


越来越多的研究人员转向机器学习,来设计更好的机器学习算法,这其中就包括AutoML。Google的Le和他的同事们最近推出了一款新的算法发现工具,名为Auto-ML Zero。 (它的名字是谷歌的 AutoML 软件和谷歌 DeepMind 的 Alpha Zero的结合,前者为给定的应用程序定制深层网络架构,后者可以通过自己玩数百万个游戏,来学习玩不同的棋盘游戏。)


微信图片_20220108210214.png


他们的方法是在大量的算法当中搜索原始运算更简单的算法。但是,他们的目标不是发现探索策略,而是发现能够对图像进行分类的算法。两项研究都表明,人类有能力使用机器学习方法来创建新颖的,高性能的机器学习算法。


「生成的算法可以被人类读取和解读,但是要真正理解这些代码,我们必须对每个变量和操作进行推理,以及它们如何随着时间演变,」研究合著者,麻省理工学院研究生Martin Schneider说。「设计算法和工作流程,利用计算机来评估大量算法,是一个有趣的挑战。同时我们也要来解释和改进这些想法,



参考链接:


https://www.csail.mit.edu/news/automating-search-entirely-new-curiosity-algorithms

相关文章
|
19天前
|
机器学习/深度学习 数据采集 人工智能
PyTorch学习实战:AI从数学基础到模型优化全流程精解
本文系统讲解人工智能、机器学习与深度学习的层级关系,涵盖PyTorch环境配置、张量操作、数据预处理、神经网络基础及模型训练全流程,结合数学原理与代码实践,深入浅出地介绍激活函数、反向传播等核心概念,助力快速入门深度学习。
72 1
|
2月前
|
人工智能 自然语言处理 搜索推荐
上下文学习的神奇魔法:轻松理解AI如何无师自通
你有没有想过,为什么给GPT几个例子,它就能学会新任务?这就像魔法一样!本文用轻松幽默的方式解密上下文学习的原理,通过「智能客服训练」场景,带你理解AI如何像人类一样从示例中学习,无需额外训练就能掌握新技能。
121 28
|
27天前
|
存储 人工智能 搜索推荐
一种专为AI代理设计的内存层,能够在交互过程中记忆、学习和进化
Mem0 是专为 AI 代理设计的内存层,支持记忆、学习与进化。提供多种记忆类型,可快速集成,适用于开源与托管场景,助力 AI 代理高效交互与成长。
252 123
一种专为AI代理设计的内存层,能够在交互过程中记忆、学习和进化
|
15天前
|
机器学习/深度学习 人工智能 自然语言处理
迁移学习:让小数据也能驱动AI大模型
迁移学习:让小数据也能驱动AI大模型
221 99
|
2月前
|
机器学习/深度学习 算法 数据挖掘
没发论文的注意啦!重磅更新!GWO-BP-AdaBoost预测!灰狼优化、人工神经网络与AdaBoost集成学习算法预测研究(Matlab代码实现)
没发论文的注意啦!重磅更新!GWO-BP-AdaBoost预测!灰狼优化、人工神经网络与AdaBoost集成学习算法预测研究(Matlab代码实现)
|
2月前
|
数据采集 人工智能 前端开发
AI智能体如何从错误中学习:反思机制详解
探索AI智能体的反思能力:从哲学思考到技术实现,看AI如何像人类一样从错误中学习和成长。通过轻松有趣的方式,深入了解Reflexion和ReAct等前沿框架,掌握让AI更智能的核心秘密。
|
2月前
|
机器学习/深度学习 人工智能 PyTorch
GPT为定制AI应用工程师转型第一周学习计划
本计划帮助开发者快速入门AI领域,首周涵盖AI基础理论、Python编程及PyTorch实战。前两天学习机器学习、深度学习与Transformer核心概念,掌握LLM工作原理。第三至四天快速掌握Python语法与Jupyter使用,完成基础编程任务。第五至七天学习PyTorch,动手训练MNIST手写识别模型,理解Tensor操作与神经网络构建。
148 0
|
3月前
|
人工智能 算法 搜索推荐
电商API的“AI革命”:全球万亿市场如何被算法重新定义?
AI+电商API正引领智能商业变革,通过智能推荐、动态定价与自动化运营三大核心场景,大幅提升转化率、利润率与用户体验。2025年,75%电商API将具备个性化能力,90%业务实现智能决策,AI与API的深度融合将成为未来电商竞争的关键基石。
|
11天前
|
机器学习/深度学习 运维 算法
【微电网多目标优化调度】多目标学习者行为优化算法MOLPB求解微电网多目标优化调度研究(Matlab代码实现)
【微电网多目标优化调度】多目标学习者行为优化算法MOLPB求解微电网多目标优化调度研究(Matlab代码实现)
|
19天前
|
机器学习/深度学习 人工智能 算法
当AI提示词遇见精密算法:TimeGuessr如何用数学魔法打造文化游戏新体验
TimeGuessr融合AI与历史文化,首创时间与空间双维度评分体系,结合分段惩罚、Haversine距离计算与加权算法,辅以连击、速度与完美奖励机制,实现公平且富挑战性的游戏体验。

热门文章

最新文章