高明!OpenAI提出HER算法,AI系统学会从错误中学习

简介: OpenAI在利用增强学习训练人工智能系统任务上不断地取得进步。他们发布的新平台显示,可以允许人工智能系统从错误中吸取教训,并将错误视为系统的目标而非失败。

失败是成功之母:HER有自我审视能力

最近几个月,OpenAI的研究人员集中精力于构建具有更强的学习能力的人工智能。得益于他们的增强学习系统OpenAI baselines,机器学习算法可以进行自主学习。目前,这个新的算法保证人工智能可以像人类一样从自己的错误中汲取教训

这个进步源于OpenAI的研究人员在近期公布的名为“后见之明经验复现(Hindsight Experience Reply, HER)”的开源算法。正如名字所示,HER帮助人工智能系统在完成一项任务后,具有自我审视的能力。OpenAI的博客中提到,人工智能认为失败乃成功之母。

以下是视频介绍:

69833d700ed09195664db839cf5516892ca0589f

研究人员写到:“构建HER的关键在于利用人类的直觉:在实现某个任务时,虽然我们没有成功,但是在这个过程中我们学到一些不一样的东西,既然如此,为何不能将我们最终学到的知识作为我们最初的目标呢?“

简而言之,这意味着每一次失败的尝试都是为了实现一个意想不到的“虚拟”目标,而非既定目标。

回想一下你学骑单车的经历,在最开始的几次尝试中,你无法掌握平衡。但是这些经验告诉了你怎么骑车是不正确的,怎么做不能保持平衡。就像在人类的学习过程中,每一次的失败让我们距离成功更进一步。

奖励每一次失败,并且失败也不沮丧

通过使用HER,OpenAI希望他们的人工智能系统可以利用上述的方法来学习。与此同时,这种算法也被作为增强学习模型中的奖励机制的替代算法。为了训练人工智能,使其具有独立的学习能力,它需要包含一个奖励机制:如果人工智能算法达到了预期目标,就可以得到一个小奖励,就像奖励给小孩子一块奶油饼干一样,否则就什么都得不到。另外一个系统根据人工智能距离预期目标的距离来给出奖励。

但是这两种算法并不是完美的。第一个算法会阻碍学习,因为一个人工智能算法在训练过程中要么得到奖励,要么没得到。另一方面,根据IEEE Spectrum报道的内容显示,第二系统在实现时,需要衡量与目标的距离并给出奖励,这个过程是很需要技巧的。如果把每一个任务都当作是后见之明的目标,即使人工智能系统没有完成指定的任务,HER也会提供一个奖励。这样帮助人工智能更快更好地学习。

OpenAI 在他的的博客中提到:“通过进行这种奖励机制的替换,强化学习算法在实现某些目标后会获得一个学习信号,即使这个学习任务不是它最初希望实现的。如果重复这个过程,系统最终可以实现任意的目标,包括最初的既定目标。

7b8e2aebc954eafb5b461608f22a03a2fbcf6014

这种方法并不意味着使用HER方法可以完全简化人工智能系统学习某个任务的过程。研究者表示:“在机器人上使用HER进行学习仍然很难实现,因为这个过程需要大量的数据“。

无论如何,正如OpenAI的模型所显示的,HER有助于鼓励人工智能系统像人类一样从错误中学习,两者的主要区别在于人工智能在面对失败的时候不会像一些脆弱的人类那样伤心沮丧。



原文发布时间为:2018-03-4

本文作者:小潘

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”微信公众号

原文链接:高明!OpenAI提出HER算法,AI系统学会从错误中学习

相关文章
|
6月前
|
人工智能 监控 安全
提效40%?揭秘AI驱动的支付方式“一键接入”系统
本项目构建AI驱动的研发提效系统,通过Qwen Coder与MCP工具链协同,实现跨境支付渠道接入的自动化闭环。采用多智能体协作模式,结合结构化Prompt、任务拆解、流程管控与安全约束,显著提升研发效率与交付质量,探索大模型在复杂业务场景下的高采纳率编码实践。
694 26
提效40%?揭秘AI驱动的支付方式“一键接入”系统
|
6月前
|
算法 搜索推荐 JavaScript
基于python智能推荐算法的全屋定制系统
本研究聚焦基于智能推荐算法的全屋定制平台网站设计,旨在解决消费者在个性化定制中面临的选择难题。通过整合Django、Vue、Python与MySQL等技术,构建集家装设计、材料推荐、家具搭配于一体的一站式智能服务平台,提升用户体验与行业数字化水平。
|
6月前
|
人工智能 自然语言处理 前端开发
最佳实践2:用通义灵码以自然语言交互实现 AI 高考志愿填报系统
本项目旨在通过自然语言交互,结合通义千问AI模型,构建一个智能高考志愿填报系统。利用Vue3与Python,实现信息采集、AI推荐、专业详情展示及数据存储功能,支持响应式设计与Supabase数据库集成,助力考生精准择校选专业。(239字)
625 12
|
6月前
|
存储 人工智能 搜索推荐
LangGraph 记忆系统实战:反馈循环 + 动态 Prompt 让 AI 持续学习
本文介绍基于LangGraph构建的双层记忆系统,通过短期与长期记忆协同,实现AI代理的持续学习。短期记忆管理会话内上下文,长期记忆跨会话存储用户偏好与决策,结合人机协作反馈循环,动态更新提示词,使代理具备个性化响应与行为进化能力。
1198 10
LangGraph 记忆系统实战:反馈循环 + 动态 Prompt 让 AI 持续学习
|
6月前
|
机器学习/深度学习 人工智能 JSON
PHP从0到1实现 AI 智能体系统并且训练知识库资料
本文详解如何用PHP从0到1构建AI智能体,涵盖提示词设计、记忆管理、知识库集成与反馈优化四大核心训练维度,结合实战案例与系统架构,助你打造懂业务、会进化的专属AI助手。
832 6
|
6月前
|
人工智能 JSON 安全
Claude Code插件系统:重塑AI辅助编程的工作流
Anthropic为Claude Code推出插件系统与市场,支持斜杠命令、子代理、MCP服务器等功能模块,实现工作流自动化与团队协作标准化。开发者可封装常用工具或知识为插件,一键共享复用,构建个性化AI编程环境,推动AI助手从工具迈向生态化平台。
1662 1
|
6月前
|
存储 人工智能 自然语言处理
拔俗AI产投公司档案管理系统:让数据资产 “活” 起来的智能助手
AI产投档案管理系统通过NLP、知识图谱与加密技术,实现档案智能分类、秒级检索与数据关联分析,破解传统人工管理效率低、数据孤岛难题,助力投资决策提效与数据资产化,推动AI产投数字化转型。
286 0
|
6月前
|
人工智能 算法 数据安全/隐私保护
拔俗AI多模态心理风险预警系统:用科技守护心理健康的第一道防线
AI多模态心理风险预警系统通过语音、文本、表情与行为数据,智能识别抑郁、焦虑等心理风险,实现早期干预。融合多源信息,提升准确率,广泛应用于校园、企业,助力心理健康服务从“被动响应”转向“主动预防”,为心灵筑起智能防线。(238字)
760 0
|
Go 开发工具
百炼-千问模型通过openai接口构建assistant 等 go语言
由于阿里百炼平台通义千问大模型没有完善的go语言兼容openapi示例,并且官方答复assistant是不兼容openapi sdk的。 实际使用中发现是能够支持的,所以自己写了一个demo test示例,给大家做一个参考。
|
机器学习/深度学习 人工智能 开发者
GPT-4o-mini-transcribe:OpenAI 推出实时语音秒转文本模型!高性价比每分钟0.003美元
GPT-4o-mini-transcribe 是 OpenAI 推出的语音转文本模型,基于 GPT-4o-mini 架构,采用知识蒸馏技术,适合在资源受限的设备上运行,具有高效、实时和高性价比的特点。
804 2
GPT-4o-mini-transcribe:OpenAI 推出实时语音秒转文本模型!高性价比每分钟0.003美元

热门文章

最新文章