调查分析两百余篇大模型论文,数十位研究者一文综述RLHF的挑战与局限

简介: 调查分析两百余篇大模型论文,数十位研究者一文综述RLHF的挑战与局限


机器之心编辑部

RLHF 方法虽然 强大,但它并没有解决开发人性化人工智能的基本挑战。


自 ChatGPT 问世,OpenAI 使用的训练方法人类反馈强化学习(RLHF)就备受关注,已经成为微调大型语言模型(LLM)的核心方法。RLHF 方法在训练中使用人类反馈,以最小化无益、失真或偏见的输出,使 AI 模型与人类价值观对齐。


然而,RLHF 方法也存在一些缺陷,最近来自 MIT CSAIL、哈佛大学、哥伦比亚大学等机构的数十位研究者联合发表了一篇综述论文,对两百余篇领域内的研究论文进行分析探讨,系统地研究了 RLHF 方法的缺陷。



论文地址:https://huggingface.co/papers/2307.15217


总的来说,该论文强调了 RLHF 的局限性,并表明开发更安全的 AI 系统需要使用多方面方法(multi-faceted approach)。研究团队做了如下工作:


  • 调查了 RLHF 和相关方法的公开问题和基本限制;
  • 概述了在实践中理解、改进和补充 RLHF 的方法;
  • 提出审计和披露标准,以改善社会对 RLHF 系统的监督。


具体来说,论文的核心内容包括以下三个部分:


1.RLHF 面临的具体挑战。研究团队对 RLHF 相关问题进行了分类和调查,并区分了 RLHF 面临的挑战与 RLHF 的根本局限性,前者更容易解决,可以在 RLHF 框架内使用改进方法来解决,而后者则必须通过其他方法来解决对齐问题。


2. 将 RLHF 纳入更广泛的技术安全框架。论文表明 RLHF 并非开发安全 AI 的完整框架,并阐述了有助于更好地理解、改进和补充 RLHF 的一些方法,强调了多重冗余策略(multiple redundant strategy)对减少问题的重要性。


3. 治理与透明度。该论文分析探讨了改进行业规范面临的挑战。例如,研究者讨论了让使用 RLHF 训练 AI 系统的公司披露训练细节是否有用。


我们来看下论文核心部分的结构和基本内容。


如下图 1 所示,该研究分析了与 RLHF 相关 3 个过程:收集人类反馈、奖励建模和策略优化。其中,反馈过程引出人类对模型输出的评估;奖励建模过程使用监督学习训练出模仿人类评估的奖励模型;策略优化过程优化人工智能系统,以产生奖励模型评估更优的输出。论文第三章从这三个过程以及联合训练奖励模型和策略四个方面探讨了 RLHF 方法存在的问题和挑战。



论文第三章总结的问题表明:严重依赖 RLHF 来开发人工智能系统会带来安全风险。虽然 RLHF 很有用,但它并没有解决开发人性化人工智能的基本挑战。



研究团队认为:任何单一策略都不应被视为综合解决方案。更好的做法是采用多种安全方法的「深度防御」,论文第四章从理解、改进、补充 RLHF 这几个方面详细阐述了提高 AI 安全性的方法。



论文第五章概述了 RLHF 治理面临的风险因素和审计措施。



总结


该研究发现,实践中很多问题来源于 RLHF 的根本局限性,必须采用非 RLHF 的方法来避免或弥补。因此,该论文强调两种策略的重要性:(1) 根据 RLHF 和其他方法的根本局限性来评估技术进步,(2) 通过采取深度防御安全措施和与科学界公开共享研究成果,来应对 AI 的对齐问题。


此外,该研究阐明一些挑战和问题并非是 RLHF 所独有的,如 RL 策略的难题,还有一些是 AI 对齐的基本问题。


感兴趣的读者可以阅读论文原文,了解更多研究内容。

相关文章
|
4月前
|
存储 机器学习/深度学习 测试技术
模型量化技术综述:揭示大型语言模型压缩的前沿技术
在这篇文章中,我将在语言建模的背景下介绍量化,并逐一探讨各个概念,探索各种方法论、用例以及量化背后的原理。
68 0
模型量化技术综述:揭示大型语言模型压缩的前沿技术
|
5月前
|
Web App开发
生成式模型不只会模仿!哈佛、UCSB等最新成果:性能可超越训练集专家水平
【7月更文挑战第23天】研究人员从哈佛大学、UC Santa Barbara等机构展示了生成式模型的新突破:在特定任务上实现超越训练集专家水平的性能。通过“低温度采样”减少模型不确定性,实验中一个名为ChessFormer的模型在下棋任务上表现出了超越性,即性能超过了训练集中专家的平均水平。这项工作揭示了生成式模型在特定条件下实现超越的可能性,为该领域的研究和应用提供了新视角。[论文](https://arxiv.org/pdf/2406.11741)
39 2
|
6月前
|
人工智能
拯救被掰弯的GPT-4!西交微软北大联合提出IN2训练治疗LLM中间迷失
【6月更文挑战第1天】研究人员为解决大型语言模型(LLM)的“中间迷失”问题,提出了IN2训练方法。此方法通过显式监督增强模型对长文本上下文的理解,改善了信息检索能力。应用IN2训练的FILM-7B模型在长文本任务上表现出色,尤其在NarrativeQA数据集上的F1分数提升了3.4。尽管面临数据合成和计算成本的挑战,IN2训练为LLM的进步开辟了新途径,预示着未来在长文本处理领域的潜力。论文链接:https://arxiv.org/pdf/2404.16811
87 5
|
7月前
|
机器学习/深度学习 人工智能
谷歌提出大规模ICL方法——强化和无监督
【5月更文挑战第26天】谷歌DeepMind团队提出Many-Shot ICL,一种强化和无监督学习方法,用于提升大型语言模型处理多样化任务的能力。通过提供更多示例,模型无需权重更新即可学习新任务。研究还引入Reinforced ICL和Unsupervised ICL,减少对人类生成输出的依赖。Many-Shot ICL能有效克服预训练偏见,但示例顺序对其性能至关重要。然而,NLL作为评估指标的局限性被指出,且增加示例数量可能降低性能。该研究为改进LLMs提供了新视角,但仍需在更多模型和场景中验证。[链接: https://arxiv.org/abs/2404.11018]
76 1
|
7月前
|
人工智能 弹性计算 自然语言处理
人类标注的时代已经结束?DeepMind 开源 SAFE 根治大模型幻觉问题
Google DeepMind和斯坦福大学的研究人员发布了《衡量大型语言模型长篇事实性》论文,提出了新数据集LongFact(含2,280个问题)和评估方法SAFE,用于检查AI模型在生成长文时的事实准确性、连贯性和详尽性。
|
7月前
|
机器学习/深度学习 人工智能 知识图谱
LeCun视觉世界模型论文,揭示AI学习物理世界的关键
【2月更文挑战第16天】LeCun视觉世界模型论文,揭示AI学习物理世界的关键
74 2
LeCun视觉世界模型论文,揭示AI学习物理世界的关键
|
7月前
|
机器学习/深度学习 自然语言处理 安全
18LLM4SE革命性技术揭秘:大型语言模型LLM在软件工程SE领域的全景解析与未来展望 - 探索LLM的多维应用、优化策略与软件管理新视角【网安AIGC专题11.15】作者汇报 综述
18LLM4SE革命性技术揭秘:大型语言模型LLM在软件工程SE领域的全景解析与未来展望 - 探索LLM的多维应用、优化策略与软件管理新视角【网安AIGC专题11.15】作者汇报 综述
703 0
|
存储 机器学习/深度学习 人工智能
分析过688篇大模型论文,这篇论文综述了LLM的当前挑战和应
分析过688篇大模型论文,这篇论文综述了LLM的当前挑战和应
580 1
|
机器学习/深度学习 人工智能 自然语言处理
LLM评估综述论文问世,分三方面全面总结,还带资料库
LLM评估综述论文问世,分三方面全面总结,还带资料库
331 0
|
机器学习/深度学习
斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果(2)
斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果
177 0
下一篇
DataWorks