OpenAI及DeepMind两团队令未来的AI机器更安全

简介:

OpenAI和DeepMind的研究人员使用的新算法从人类反馈中学习,他们希望这样做能使人工智能更安全。

两家公司均为强化学习的专家,强化学习是机器学习的一个领域,其基本思想是,如果代理在特定的环境里采取正确的行动完成了任务就给予奖励。该目标是通过一种算法来指定的,代理经过程序后就会追逐奖励,例如游戏中的获胜点。

强化学习在训练机器如何玩如Doom或Pong等游戏或通过模拟驾驶自主驾驶汽车等案例中取得了成功。强化学习是探索代理行为的一个有效的方法,但如果硬编码算法错了或产生不良影响的话,这种方法可能也有危险。

arXiv上发表的一篇论文描述了一种有助于防止此类问题的新方法。首先,代理在其环境中执行随机动作。预测的奖励则是基于人类的判断,而且奖励被反馈到强化学习算法中,以改变代理的行为。

 OpenAI及DeepMind两团队令未来的AI机器更安全

系统在人类指导下制定最佳行动及学习目标

研究人员将这种算法用于训练一个弯曲的灯柱往后仰。代理的两个视频然后再交给人观看,观看者选择哪一个的后仰动作更佳一些。

经过一段时间后,代理就逐渐学习了如何根据奖励函数最有效地解释人类的判断来学习目标。强化学习算法用于指导代理的行为,并可以持续在人类的批准下进行改进。

网上可找到相关的视频。(https://www.youtube.com/watch?v=oC7Cw3fu3gU)

人类评估者花掉的时间不足一个小时。但要完成做饭或发送电子邮件等更复杂的任务就会需要更多的人类反馈,从财务的角度来看则是昂贵的。

文章的作者之一达里奥·阿莫德(Dario Amodei)是OpenAI的一名研究人员,他表示,未来研究的重点会放在减少监督方面。

他告诉记者,“泛泛而言,名为半监督学习的技术在这一块可能有帮助。另一种可能性是提供更信息密集的反馈形式,如语言,或是让人类在屏幕上具体指出表示良好行为的部分。更多的信息密集反馈可能会让人类在更短的时间内更多地与算法进行沟通。“

上述研究人员在其他模拟机器人任务和Atari游戏里测试了他们的算法,结果显示机器有时可以实现超人式的性能。但这在很大程度上取决于人类评估者的判断。

OpenAI在一篇博文里表示,“我们算法的性能只能和人类评估者对于什么是正确行为的直觉一样好,所以,如果人类对一个任务没有很好的把握,那他们可能提供不了太多有用的反馈。”

阿莫德表示,目前的结果仅局限于非常简单的环境。但这种方法大有可能对有些很难学习的任务有用,这些任务的奖励功能很难量化,例如驾驶、组织事件、写作或技术支持的提供。


原文发布时间为: 2017年6月14日


本文作者:杨昀煦

本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。

相关文章
|
5月前
|
人工智能 数据安全/隐私保护
AI生成的痕迹:我们如何检测机器撰写的文本
AI生成的痕迹:我们如何检测机器撰写的文本
1519 117
|
5月前
|
人工智能 自然语言处理 数据安全/隐私保护
AI生成的文本:如何识破机器的“笔迹”?
AI生成的文本:如何识破机器的“笔迹”?
871 85
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
AI检测技术:如何识别机器生成的“数字指纹”?
AI检测技术:如何识别机器生成的“数字指纹”?
365 115
|
5月前
|
人工智能 生物认证 数据安全/隐私保护
AI检测器:我们如何识别机器生成的内容?
AI检测器:我们如何识别机器生成的内容?
430 3
|
5月前
|
机器学习/深度学习 人工智能
破译AI指纹:如何检测内容是否出自机器之手?
破译AI指纹:如何检测内容是否出自机器之手?
249 3
|
5月前
|
人工智能 搜索推荐 数据安全/隐私保护
AI检测技术:如何识别机器生成内容?
AI检测技术:如何识别机器生成内容?
378 0
|
5月前
|
人工智能 文字识别 监控
|
5月前
|
传感器 人工智能 运维
拔俗AI巡检系统:让设备“会说话”,让隐患“早发现”,打造更安全高效的智能运维
AI巡检系统融合AI、物联网与大数据,实现设备7×24小时智能监测,自动识别隐患并预警,支持预测性维护,提升巡检效率5倍以上,准确率超95%。广泛应用于工厂、电力、交通等领域,推动运维从“被动响应”转向“主动预防”,降本增效,保障安全,助力数字化转型。(238字)
757 0
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
拔俗AI语义大模型软件:让机器真正“懂”你的话
AI语义大模型远非聊天机器人,其核心由三大技术构成:基于Transformer的自注意力机制实现语言理解;通过预训练+微调,从通才成长为专才;结合提示工程与推理优化,提升输出质量与运行效率。这是一套深度融合算法、数据与工程的复杂系统,推动智能应用真正落地。
226 0

热门文章

最新文章