MIT科学家用AI设计「好奇心」算法:基于元学习探索奇妙世界

简介: 孩子们通过好奇心解锁世界。相比之下,把计算机放到新环境中通常会卡顿。为此,研究人员尝试将好奇心编码到他们的算法中,希望智能体在探索的驱动下,能够更好地了解他所处的环境。

微信图片_20220108210203.png


很多伟大的发明一开始都是好奇心驱使的。


苹果砸到牛顿头上,他开始思考为什么苹果会从树上掉下来,于是得出了万有引力定律。

微信图片_20220108210206.jpg


瓦特对烧水壶冒出的蒸汽十分好奇,最后改良了蒸汽机。因为好奇,成就了「昆虫界的荷马」法布尔。因为好奇,德莱斯发明了自行车。 数千年来,好奇心打开了人类的智慧大门。


在好奇心的驱使下,人们探索世界并从经验中学到了新技能。相比之下,把计算机放到新的环境中,有时就会出现故障。


微信图片_20220108210209.png


将「好奇心」编码到算法中


为了能让计算机更好地适应新环境,工程师们尝试将好奇心编码到算法中,希望在好奇心推动下智能体能够去更有效地探索,了解他所处的环境。


就和小孩学习新事物一样,智能体要首先从捡东西,操纵使用物体,投掷东西学起,实现了这些基本操作,学习其他事物的能力也会随之加快


工程师已发现了许多方法,能够将好奇探索机制编码到机器学习算法中。一直以来,研究人员也通过计算机来搜索新的算法。最近,麻省理工学院的一个研究小组在思考计算机在算法设计方面是否比人有优势。


近年来,深度神经网络的设计(通过调整参数来搜索解决方案的算法)已通过Google的AutoML和Python中的auto-sklearn等软件实现了自动化。这使那些非专业人士也能轻易地开发AI应用程序。


但是,尽管深度神经网络擅长做特定任务,但它们在新的环境中适用性不高。相比之下,用高级编程语言编出的算法能在不同任务和环境中迁移知识。


利用AI自动设计算法


 研究的合著者,麻省理工学院电气工程与计算机科学系,以及计算机科学与人工智能实验室(CSAIL)的研究生Ferran Alet说:「人为设计的算法非常普通。我们受到启发,使用AI来发现具有好奇心且能适应各种不同环境的算法。」


微信图片_20220108210211.png


同时,作者表示,「 我们从人和其他动物的好奇行为中汲取了灵感。假设好奇心是进化过程中探索发现的一种机制,该机制促使智能体在生命早期进行有意义的探索。这项探索使它能够在其一生学习中,不断获取经验赢得高额回报。我们将产生好奇行为的问题作为一种元学习。


研究人员创建了一种「元学习」算法,该算法生成了52,000个探索算法。他们发现最上面的两个是全新的算法,从人为角度看,似乎太明显,违反直觉了。这两种算法都产生了探索行为,从根本上改善了一系列模拟任务中的学习过程,从二维网格图像导航到机器人蚂蚁行走。由于元学习过程会输出高级计算机代码,因此可以分解这两种算法,以了解其内部决策过程。



该论文的高级作者是麻省理工学院计算机科学和电气工程学教授Lesile Kaelbling和Tomas Lozano-Perez。这项工作将在2020ICLR大会上进行具体介绍。


该论文获得了许多没有参与其中的研究人员的称赞。


Google的首席科学家Quoc Le表示,「使用程序检索来发现更好的内在奖励机制是非常有创意的,它帮助开拓了计算机辅助深度学习模型的设计。我非常喜欢这个idea,在于它的程序是可以解读的」


研究人员将自动化的算法设计过程,比作是用有限的单词来写句子的过程。他们首先选择了一组基本构建模块来定义其探索算法。在研究了其他好奇心算法以获得灵感之后,他们挑选了30多种高级操作,包括基本程序和深度学习模型,来引导智能体做一些事情,比如记住以前的输入,比较当前和过去的输入,并使用学习方法来改变自己的模块。然后,计算机一次最多可以组合7种不同操作,生成描述52,000种算法的计算图。


即使用一台快速的计算机,对所有的算法进行测试都要花费数十年的时间。因此,研究人员首先排除了那些从代码结构就预测出其性能较差的算法,来缩小范围。


然后,他们在一项基本的网格坐标导航任务上测试了那些最看好的算法,网格导航任务需要大量的探索行为,但计算量最少。如果某项算法表现良好,那么它的表现就成为新的基准,从而淘汰更多候选人。


研究人员用四台计算机搜索了10多个小时,以找到最佳算法。


结果发现,超过99%都是垃圾算法,但大约有一百种是优胜的高性能算法。


值得注意的是,前16名优胜的算法既新颖又好用,在其他虚拟任务(从登上月球车,到举起机械臂,再到移动类似蚂蚁的机器人)的性能上,都比人类设计的算法要好,至少实力相当。


所有16种算法都产生了两个基本的探索功能。


智能体会在两种情况下受到奖励:


第一种,智能体会因为访问新的地方而获得奖励,因为在那里他们有更大的机会采取新的行动。


第二种,智能体也会因为访问新地方而获得奖励,但以一种更细微的方式: 其中一个神经网络预测未来的状态,而另一个回忆过去,然后试图通过在未来回忆过去来预测现在。如果这个预测结果是错误的,那么它会奖励自己,因为这是一个信号,表明它发现了以前不知道的东西。第二种算法是如此违反直觉,以至于研究人员花了很长时间才弄明白。


「我们的偏见常常使我们无法尝试非常创新的想法,」Alet说。「但是计算机不会。他们会多多尝试,看看怎么样,有时反而会得到意想不到的出色结果。」


越来越多的研究人员转向机器学习,来设计更好的机器学习算法,这其中就包括AutoML。Google的Le和他的同事们最近推出了一款新的算法发现工具,名为Auto-ML Zero。 (它的名字是谷歌的 AutoML 软件和谷歌 DeepMind 的 Alpha Zero的结合,前者为给定的应用程序定制深层网络架构,后者可以通过自己玩数百万个游戏,来学习玩不同的棋盘游戏。)


微信图片_20220108210214.png


他们的方法是在大量的算法当中搜索原始运算更简单的算法。但是,他们的目标不是发现探索策略,而是发现能够对图像进行分类的算法。两项研究都表明,人类有能力使用机器学习方法来创建新颖的,高性能的机器学习算法。


「生成的算法可以被人类读取和解读,但是要真正理解这些代码,我们必须对每个变量和操作进行推理,以及它们如何随着时间演变,」研究合著者,麻省理工学院研究生Martin Schneider说。「设计算法和工作流程,利用计算机来评估大量算法,是一个有趣的挑战。同时我们也要来解释和改进这些想法,



参考链接:


https://www.csail.mit.edu/news/automating-search-entirely-new-curiosity-algorithms

目录
打赏
0
0
0
0
370
分享
相关文章
AI竟能独立完成顶会论文!The AI Scientist-v2:开源端到端AI自主科研系统,自动探索科学假设生成论文
The AI Scientist-v2 是由 Sakana AI 等机构开发的端到端自主科研系统,通过树搜索算法与视觉语言模型反馈实现科学假设生成、实验执行及论文撰写全流程自动化,其生成论文已通过国际顶会同行评审。
115 34
AI竟能独立完成顶会论文!The AI Scientist-v2:开源端到端AI自主科研系统,自动探索科学假设生成论文
阿里云 AI 搜索开放平台:从算法到业务——AI 搜索驱动企业智能化升级
本文介绍了阿里云 AI 搜索开放平台的技术的特点及其在各行业的应用。
127 3
这个AI把arXiv变成代码工厂,快速复现顶会算法!Paper2Code:AI论文自动转代码神器,多智能体框架颠覆科研复现
Paper2Code是由韩国科学技术院与DeepAuto.ai联合开发的多智能体框架,通过规划、分析和代码生成三阶段流程,将机器学习论文自动转化为可执行代码仓库,显著提升科研复现效率。
54 18
这个AI把arXiv变成代码工厂,快速复现顶会算法!Paper2Code:AI论文自动转代码神器,多智能体框架颠覆科研复现
为什么要学习数据结构与算法
今天,我向大家介绍一门非常重要的课程——《数据结构与算法》。这门课不仅是计算机学科的核心,更是每一位开发者从“小白”迈向“高手”的必经之路。
为什么要学习数据结构与算法
算法为舟 思想为楫:AI时代,创作何为?
本文探讨了AI时代创作领域的变革与挑战,分析了人类创作者的独特价值,并展望了未来创作的新图景。随着生成式AI技术的发展,创作的传统认知被颠覆,评价体系面临革新。然而,人类创作者凭借批判性思维、情感智能、创意直觉和伦理自觉,依然具有不可替代的价值。文章呼吁创作者转变思维,从竞争走向合作,提升复合能力,关注作品的社会影响,并持续学习进化。在AI助力下,创作将更加民主化、多样化,推动文明进步。最终,人机协同或将成为未来创作的核心模式,共同开创文化发展的新纪元。
AI思维导图工具跨领域学习的好帮手
AI思维导图工具跨领域学习的好帮手
AI训练师入行指南(三):机器学习算法和模型架构选择
从淘金到雕琢,将原始数据炼成智能珠宝!本文带您走进数字珠宝工坊,用算法工具打磨数据金砂。从基础的经典算法到精密的深度学习模型,结合电商、医疗、金融等场景实战,手把手教您选择合适工具,打造价值连城的智能应用。掌握AutoML改装套件与模型蒸馏术,让复杂问题迎刃而解。握紧算法刻刀,为数字世界雕刻文明!
86 6
PRefLexOR:MIT自进化AI框架上线!动态知识图谱+跨域推理,重塑自主思考
PRefLexOR 是 MIT 团队推出的新型自学习 AI 框架,结合偏好优化和强化学习,通过递归推理和多步反思,动态生成知识图谱,支持跨领域推理和自主学习。
161 3
PRefLexOR:MIT自进化AI框架上线!动态知识图谱+跨域推理,重塑自主思考
如何在Python下实现摄像头|屏幕|AI视觉算法数据的RTMP直播推送
本文详细讲解了在Python环境下使用大牛直播SDK实现RTMP推流的过程。从技术背景到代码实现,涵盖Python生态优势、AI视觉算法应用、RTMP稳定性及跨平台支持等内容。通过丰富功能如音频编码、视频编码、实时预览等,结合实际代码示例,为开发者提供完整指南。同时探讨C接口转换Python时的注意事项,包括数据类型映射、内存管理、回调函数等关键点。最终总结Python在RTMP推流与AI视觉算法结合中的重要性与前景,为行业应用带来便利与革新。
103 5
Python下的毫秒级延迟RTSP|RTMP播放器技术探究和AI视觉算法对接
本文深入解析了基于Python实现的RTSP/RTMP播放器,探讨其代码结构、实现原理及优化策略。播放器通过大牛直播SDK提供的接口,支持低延迟播放,适用于实时监控、视频会议和智能分析等场景。文章详细介绍了播放控制、硬件解码、录像与截图功能,并分析了回调机制和UI设计。此外,还讨论了性能优化方法(如硬件加速、异步处理)和功能扩展(如音量调节、多格式支持)。针对AI视觉算法对接,文章提供了YUV/RGB数据处理示例,便于开发者在Python环境下进行算法集成。最终,播放器凭借低延迟、高兼容性和灵活扩展性,为实时交互场景提供了高效解决方案。
132 4

新智元

+ 订阅

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等