高明!OpenAI提出HER算法,AI系统学会从错误中学习

简介: OpenAI在利用增强学习训练人工智能系统任务上不断地取得进步。他们发布的新平台显示,可以允许人工智能系统从错误中吸取教训,并将错误视为系统的目标而非失败。

失败是成功之母:HER有自我审视能力

最近几个月,OpenAI的研究人员集中精力于构建具有更强的学习能力的人工智能。得益于他们的增强学习系统OpenAI baselines,机器学习算法可以进行自主学习。目前,这个新的算法保证人工智能可以像人类一样从自己的错误中汲取教训

这个进步源于OpenAI的研究人员在近期公布的名为“后见之明经验复现(Hindsight Experience Reply, HER)”的开源算法。正如名字所示,HER帮助人工智能系统在完成一项任务后,具有自我审视的能力。OpenAI的博客中提到,人工智能认为失败乃成功之母。

以下是视频介绍:

69833d700ed09195664db839cf5516892ca0589f

研究人员写到:“构建HER的关键在于利用人类的直觉:在实现某个任务时,虽然我们没有成功,但是在这个过程中我们学到一些不一样的东西,既然如此,为何不能将我们最终学到的知识作为我们最初的目标呢?“

简而言之,这意味着每一次失败的尝试都是为了实现一个意想不到的“虚拟”目标,而非既定目标。

回想一下你学骑单车的经历,在最开始的几次尝试中,你无法掌握平衡。但是这些经验告诉了你怎么骑车是不正确的,怎么做不能保持平衡。就像在人类的学习过程中,每一次的失败让我们距离成功更进一步。

奖励每一次失败,并且失败也不沮丧

通过使用HER,OpenAI希望他们的人工智能系统可以利用上述的方法来学习。与此同时,这种算法也被作为增强学习模型中的奖励机制的替代算法。为了训练人工智能,使其具有独立的学习能力,它需要包含一个奖励机制:如果人工智能算法达到了预期目标,就可以得到一个小奖励,就像奖励给小孩子一块奶油饼干一样,否则就什么都得不到。另外一个系统根据人工智能距离预期目标的距离来给出奖励。

但是这两种算法并不是完美的。第一个算法会阻碍学习,因为一个人工智能算法在训练过程中要么得到奖励,要么没得到。另一方面,根据IEEE Spectrum报道的内容显示,第二系统在实现时,需要衡量与目标的距离并给出奖励,这个过程是很需要技巧的。如果把每一个任务都当作是后见之明的目标,即使人工智能系统没有完成指定的任务,HER也会提供一个奖励。这样帮助人工智能更快更好地学习。

OpenAI 在他的的博客中提到:“通过进行这种奖励机制的替换,强化学习算法在实现某些目标后会获得一个学习信号,即使这个学习任务不是它最初希望实现的。如果重复这个过程,系统最终可以实现任意的目标,包括最初的既定目标。

7b8e2aebc954eafb5b461608f22a03a2fbcf6014

这种方法并不意味着使用HER方法可以完全简化人工智能系统学习某个任务的过程。研究者表示:“在机器人上使用HER进行学习仍然很难实现,因为这个过程需要大量的数据“。

无论如何,正如OpenAI的模型所显示的,HER有助于鼓励人工智能系统像人类一样从错误中学习,两者的主要区别在于人工智能在面对失败的时候不会像一些脆弱的人类那样伤心沮丧。



原文发布时间为:2018-03-4

本文作者:小潘

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”微信公众号

原文链接:高明!OpenAI提出HER算法,AI系统学会从错误中学习

相关文章
|
5天前
|
存储 移动开发 Linux
Linux系统之部署h5ai目录列表程序
【5月更文挑战第3天】Linux系统之部署h5ai目录列表程序
17 1
|
1天前
|
机器学习/深度学习 人工智能 算法
【好书推荐2】AI提示工程实战:从零开始利用提示工程学习应用大语言模型
【好书推荐2】AI提示工程实战:从零开始利用提示工程学习应用大语言模型
8 0
|
3天前
|
机器学习/深度学习 存储 人工智能
构建未来:AI在持续学习系统中的进化之路
【5月更文挑战第8天】 随着人工智能(AI)技术的飞速发展,AI系统正逐步从单一任务处理转向多任务、持续学习的智能体。本文将深入探讨AI技术在持续学习系统中的最新进展,包括深度学习、强化学习以及转移学习等关键技术。文章还将讨论如何通过这些技术实现AI系统的适应性、泛化能力和自我进化,从而推动AI在多变环境中的长期应用和自主决策能力。
|
3天前
|
机器学习/深度学习 人工智能 安全
构建未来:AI驱动的自适应网络安全防御系统
【5月更文挑战第8天】 随着网络攻击的不断演变,传统的安全措施已不足以应对日益复杂的威胁。本文提出了一种基于人工智能(AI)的自适应网络安全防御系统,旨在通过实时分析网络流量和行为模式来自动调整安全策略。系统利用深度学习算法识别潜在威胁,并通过强化学习优化防御机制。初步实验表明,该系统能够有效提高检测率,减少误报,并在未知攻击面前展现出较强的适应性。
15 1
|
5天前
|
机器学习/深度学习 存储 人工智能
构建未来:AI在持续学习系统中的应用
【5月更文挑战第6天】 随着人工智能技术的飞速发展,AI在各个领域中的应用越来越广泛。本文将探讨AI在持续学习系统中的应用,以及如何通过这种技术提高教育质量和效率。我们将讨论AI如何帮助个性化学习,提供实时反馈,以及如何通过数据分析预测学生的学习进度。此外,我们还将探讨AI在教育中的潜在挑战和解决方案。
17 3
|
5天前
|
人工智能 文字识别 语音技术
学习资料大全​ | 一起来魔搭社区学AI吧!
魔搭社区特别推出研习社栏目,包含AI前沿技术解读、模型应用最佳实践、动手做AI应用(AIGC/Agent/RAG)等主题,持续更新,代码实战点击即运行
|
8天前
|
传感器 人工智能 自动驾驶
【AI 场景】如何开发用于自动驾驶的人工智能系统?
【5月更文挑战第3天】【AI 场景】如何开发用于自动驾驶的人工智能系统?
|
8天前
|
机器学习/深度学习 数据采集 人工智能
【AI 场景】设计一个 AI 系统来识别和分类图像中的对象
【5月更文挑战第3天】【AI 场景】设计一个 AI 系统来识别和分类图像中的对象
|
8天前
|
机器学习/深度学习 数据采集 人工智能
【AI 场景】如何设计一个人工智能系统来预测电信公司的客户流失?
【5月更文挑战第3天】【AI 场景】如何设计一个人工智能系统来预测电信公司的客户流失?
|
9天前
|
机器学习/深度学习 人工智能
【AI 初识】什么是迁移学习,它在人工智能中有什么用?
【5月更文挑战第2天】【AI 初识】什么是迁移学习,它在人工智能中有什么用?