DeepMind重磅论文:通过奖励模型,让AI按照人类意图行事

简介:

如何让AI符合人类的意图?

这个问题是将AI系统部署到真实世界、帮助人类解决复杂问题的最大障碍之一。

DeepMind将这个问题定义为“智能体对齐问题”(agent alignment problem),并提出依赖于奖励建模,正面解决agent alignment问题的研究方向。

7d9f66bb1c845b67c1ae70476e55031acfded775

这篇文章基于DeepMind的新论文Scalable agent alignment via reward modeling: a research direction,概述了解决agent alignment问题的研究方向。所提出的方法依赖于奖励建模的递归应用,以符合用户意图的方式解决复杂的现实世界问题。

近年来,强化学习在许多复杂游戏环境中取得了令人瞩目的成绩,从Atari游戏、围棋、象棋到Dota 2和星际争霸II,AI智能体在越来越复杂的领域迅速超越了人类水平。游戏是开发和测试机器学习算法的理想平台。它们提出了需要多种认知能力才能完成的具有挑战性的任务,反映出解决现实世界问题所需的技能。机器学习研究人员可以在云上并行运行数千个模拟实验,生成系统学习所需的训练数据。

至关重要的是,游戏通常都有一个明确的目标,以及一个近似于实现该目标的进展的分数。这个分数为强化学习智能体提供了有用的奖励信号,使我们能够得到关于哪些算法和架构选择最有效的快速反馈。

智能体对齐问题

AI发展的终极目标是让人类受益,让我们能够应对现实世界中日益复杂的挑战。但现实世界并没有内置的奖励机制。这就带来了挑战,因为现实世界任务的表现不容易定义。我们需要一种好的方式来提供反馈,并使AI能够可靠地理解我们想要什么,以帮助我们实现目的。

换句话说,我们想用人类反馈的方式训练AI系统,使AI的行为与我们的意图一致。为了达到这个目的,我们将智能体对齐问题(agent alignment problem)定义如下:

如何创建符合用户意图的智能体?

对齐问题可以在强化学习框架中构建,不同之处是,智能体可以通过交互协议与用户交互,而不是接收数字奖励信号。这个交互协议允许用户向智能体传达他们的意图。协议可以采用多种形式:例如,用户可以提供演示、偏好、最佳操作或传达奖励函数。Agent alignment问题的解决方案之一是根据用户的意图行事的策略。

DeepMind的新论文概述了正面解决agent alignment问题的研究方向。基于我们之前对AI安全问题分类的研究,以及对众多AI安全问题的论述,我们描绘了这些领域的进展如何能够产生一个解决agent alignment问题的方案。这将为构建能够更好地理解如何与用户交互、如何从用户的反馈中学习、以及如何预测用户偏好的系统打开大门。

通过奖励模型进行对齐

我们研究方向的要点是基于奖励建模(reward modeling):训练一个奖励模型,其中包含来自用户的反馈,从而捕捉他们的意图。与此同时,我们通过强化学习训练一个策略,使奖励模型的奖励最大化。换句话说,我们把学习做什么(奖励模型)学习怎么做(策略)区分开来。

056b67fa463ec49907cbea2c1e6f2e23fef5eff1

奖励建模的示意图:根据用户的反馈训练奖励模型,以获取用户的意图;这个奖励模型为经过强化学习训练的智能体提供奖励。

例如,在以前的工作中,我们教智能体根据用户偏好做一个后空翻,根据目标状态示例将对象排列成特定形状,以及根据用户偏好和专家演示玩Atari游戏。未来,我们希望设计能够学习适应用户提供反馈的方式(例如使用自然语言)的算法。

扩大奖励模型的规模

从长远来看,我们希望将奖励模型的规模扩大到人类无法直接评估的过于复杂的领域。要做到这一点,我们需要提高用户评估结果的能力。我们将讨论如何递归地应用奖励建模:可以使用奖励建建模来训练agent,让agent帮助用户进行评估过程。如果评估比行为更容易,就可以从简单的任务过渡到更加普遍、更加复杂的任务。这可以看作是一个迭代扩增(iterated amplification)的实例。

b7ba0fbc6b8118b2a0187b7056b2c430488c97b1

递归奖励建模的示意图:使用递归奖励建模训练的agent(右边的小圆圈)帮助用户评估当前正在训练的agent(大圆圈)产生的结果。

例如,假设我们想训练一个agent来设计计算机芯片。为了评估某个提议的芯片设计,我们使用奖励建模训练其他的“helper”智能体,以对芯片的模拟性能进行基准测试、计算散热、估计芯片的寿命、查找安全漏洞,等等。总的来说,这些helper agents的输出使用户能够通过协助评估所提议的芯片设计来训练芯片设计agent。虽然helper agent必须解决一系列非常困难的任务,但这些任务总比直接设计一个芯片更容易执行:要设计一个计算机芯片,你必须理解每一项评估任务,但反过来则不然。从这个意义上说,递归奖励建模可以让我们“支持”agent来解决越来越难的任务,同时保持与用户意图一致。

研究挑战

为了对这些复杂的问题进行奖励建模,需要解决几个挑战性问题。下面列出了其中的五项挑战,论文中对这些挑战及其解决办法进行了更深入的描述。

956922ee5e08bad256588b7a609f5656d27abbb0

我们希望扩大奖励建模时遇到的挑战(左)和有前景的解决方法(右)。

那么就来到了agent alignment的最后一个重要组成部分:在现实世界中部署AI智能体时,我们需要向用户提供证据,证明我们的智能体确实已经充分对齐了。

本文讨论了五种不同的研究途径,可以帮助增加对agent的信任:设计选择、测试、可解释性、形式验证和理论保证

我们的一个雄心勃勃的目标是制作安全证书(safety certificates):可以用来证明负责任的技术开发工作,并让用户对依赖训练好的智能体有信心。

未来研究方向

虽然我们相信递归奖励建模是训练对齐智能体的一个非常有前景的方向,但目前还不知道它可以如何扩展(需要更多的研究)。幸运的是,追求agent alignment还有其他一些研究方向:

 ●  模仿学习
 ●  短视强化学习(Myopic reinforcement learning)
 ●  逆强化学习(Inverse reinforcement learning)
 ●  合作逆强化学习
 ●  迭代扩增
 ●  Debate
 ●  Agent foundations

本文进一步探讨它们的异同。

正如对计算机视觉系统相对对抗性输入的鲁棒性的积极研究对于当今的ML应用程序是至关重要的一样,对齐研究对于在复杂的现实世界中部署ML系统也是至关重要的。我们有理由保持乐观:虽然我们希望在扩大奖励模型时面对挑战,但这些挑战是我们可以取得进展的具体技术研究问题。从这个意义上说,我们的研究方向已经准备就绪,可以对深度强化学习智能体进行实证研究。


原文发布时间为:2018-11-22

本文作者:Jan Leike

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”。

原文链接:DeepMind重磅论文:通过奖励模型,让AI按照人类意图行事

相关文章
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
当大火的文图生成模型遇见知识图谱,AI画像趋近于真实世界
本文介绍了阿里云机器学习PAI团队开发的名为ARTIST的中文文图生成模型,该模型融合了知识图谱信息,能够生成更加符合常识的图像。ARTIST基于Transformer架构,将文图生成任务分为图像矢量量化和文本引导的图像序列生成两个阶段。在第一阶段,模型使用VQGAN对图像进行矢量量化;在第二阶段,通过GPT模型并结合知识图谱中的实体知识来生成图像序列。在MUGE中文文图生成评测基准上,ARTIST表现出色,其生成效果优于其他模型。此外,EasyNLP框架提供了简单易用的接口,用户可以基于公开的Checkpoint进行少量领域相关的微调,实现各种艺术创作。
|
1天前
|
人工智能 vr&ar
[译][AI Research] AI 模型中的“it”是数据集
模型效果的好坏,最重要的是数据集,而不是架构,超参数,优化器。
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
大模型和传统ai的区别
在人工智能(AI)领域,大模型一直是一个热议的话题。从之前的谷歌 DeepMind、百度 Big. AI等,再到今天的百度GPT-3,人工智能技术经历了从“有”到“大”的转变。那么,大模型与传统 ai的区别在哪里?这对未来人工智能发展会产生什么影响?
|
3天前
|
人工智能 监控 安全
|
4天前
|
存储 机器学习/深度学习 人工智能
RAG:AI大模型联合向量数据库和 Llama-index,助力检索增强生成技术
RAG:AI大模型联合向量数据库和 Llama-index,助力检索增强生成技术
RAG:AI大模型联合向量数据库和 Llama-index,助力检索增强生成技术
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
对大模型和AI的认识与思考
2023年,笔者也参与了各种学习和实践,从大语言模型、多模态算法,文生图(Stable Diffusion)技术,到prompt工程实践和搭建文生图(Stable Diffusion)webui实操环境。在此对谈谈对大模型和AI的认识与思考,是为总结。5月更文挑战第3天
27 1
|
6天前
|
机器学习/深度学习 人工智能
论文介绍:AI击败最先进全球洪水预警系统,提前7天预测河流洪水
【5月更文挑战第4天】研究人员开发的AI模型(基于LSTM网络)成功击败全球最先进的洪水预警系统,能在未设测站流域提前7天预测洪水,显著提升预警时间,降低灾害影响。该模型使用公开数据集,减少了对长期观测数据的依赖,降低了预警系统的成本,有望帮助资源有限的地区。然而,模型的性能可能受特定流域条件影响,泛化能力和预测解释性仍有待改进。[论文链接](https://www.nature.com/articles/s41586-024-07145-1)
26 11
|
10天前
|
机器学习/深度学习 人工智能
超越Sora极限,120秒超长AI视频模型诞生!
【5月更文挑战第1天】 StreamingT2V技术突破AI视频生成界限,实现120秒超长连贯视频,超越Sora等传统模型。采用自回归方法,结合短期记忆的条件注意模块和长期记忆的外观保持模块,保证内容连贯性和动态性。在实际应用中,展示出优秀的动态性、连贯性和图像质量,但仍有优化空间,如处理复杂场景变化和连续性问题。[链接](https://arxiv.org/abs/2403.14773)
30 3
|
13天前
|
人工智能 前端开发 算法
参加完全球开发者大会之后,我一个小前端尝试使用了一些AI模型
参加完全球开发者大会之后,我一个小前端尝试使用了一些AI模型
|
14天前
|
人工智能 数据安全/隐私保护
Sora超逼真视频引恐慌!Nature刊文警示AI视频模型,或在2024年颠覆科学和社会
【4月更文挑战第27天】OpenAI公司的新型AI工具Sora能根据文字提示生成超逼真视频,引发关注。尽管已有类似产品,如Runway的Gen-2和谷歌的Lumiere,Sora以其高质量生成效果领先。该技术的进步可能导致2024年全球政治格局的颠覆,同时带来虚假信息的挑战。OpenAI已组建“红队”评估风险,但虚假视频识别仍是难题。尽管有水印解决方案,其有效性尚不确定。Sora在教育、医疗和科研等领域有潜力,但也对创意产业构成威胁。
27 2