综合RLHF、DPO、KTO优势,统一对齐框架UNA来了

简介: 在大型语言模型(LLM)的预训练中,尽管模型已接触数万亿个标记,但仍可能生成不符合预期的响应。为解决这一问题,研究者提出了RLHF、DPO和KTO等对齐技术。然而,这些技术各有局限。为此,论文《UNA: Unifying Alignments of RLHF/PPO, DPO and KTO by a Generalized Implicit Reward Function》提出了一种新的统一对齐方法UNA。UNA通过引入广义隐式奖励函数,成功将RLHF/PPO、DPO和KTO统一起来,简化了训练过程,提高了模型的鲁棒性和性能。

在大型语言模型(LLM)的预训练过程中,尽管模型已经接触了数万亿个标记,但它们仍然可能生成不符合预期的响应。为了解决这个问题,研究者们提出了各种对齐技术,如强化学习与人类反馈(RLHF)、直接偏好优化(DPO)和知识蒸馏优化(KTO)。然而,这些技术各自存在一些局限性。例如,RLHF需要分别训练奖励模型和策略,这不仅复杂且耗时,还占用大量内存,并且在训练过程中可能不稳定。DPO通过建立最优策略和奖励之间的映射,大大简化了RLHF的训练过程,但它无法充分利用奖励模型,且仅限于成对偏好数据。

针对这些问题,一篇名为《UNA: Unifying Alignments of RLHF/PPO, DPO and KTO by a Generalized Implicit Reward Function》的论文提出了一种名为统一对齐(UNA)的新方法。该方法通过引入一个广义的隐式奖励函数,成功地将RLHF/PPO、DPO和KTO统一起来。

UNA的核心思想在于,它证明了在给定经典RLHF目标的情况下,最优策略是由一个广义的隐式奖励函数所诱导的。通过这种新颖的奖励模型和最优策略之间的映射,UNA能够实现以下目标:

  1. 统一RLHF/PPO、DPO和KTO:UNA将这些不同的对齐技术统一为一个监督学习问题,即最小化隐式奖励和显式奖励之间的差异。
  2. 超越RLHF/PPO:在保持RLHF/PPO性能的同时,UNA能够简化、稳定、加速和减少RL微调过程的内存负担。
  3. 适应不同类型的反馈:UNA能够处理包括成对、二进制和标量反馈在内的各种反馈类型。

UNA的优势在于它能够综合RLHF、DPO和KTO的优点,同时克服它们的局限性。通过引入隐式奖励函数,UNA不仅简化了训练过程,还提高了模型的鲁棒性和性能。此外,UNA的通用性使其能够适应不同的应用场景和反馈类型,从而具有更广泛的适用性。

然而,UNA也面临一些挑战。首先,隐式奖励函数的引入增加了模型的复杂性,可能需要更多的计算资源和时间来训练。其次,如何设计和优化隐式奖励函数以适应不同的任务和数据集,仍然是一个需要进一步研究的问题。此外,UNA的性能和稳定性也需要在更多的实验和实际应用中进行验证。

未来,UNA有望在更多的领域得到应用和发展。例如,在自然语言处理领域,UNA可以用于提高语言模型的可解释性和可信度;在强化学习领域,UNA可以用于优化智能体的策略和奖励函数;在人机交互领域,UNA可以用于改善用户体验和满意度。

论文地址:https://arxiv.org/abs/2408.15339

目录
打赏
0
16
15
11
389
分享
相关文章
RLCM:康奈尔大学推出文本到图像一致性模型优化框架,支持快速生成与任务特定奖励优化
RLCM 是康奈尔大学推出的基于强化学习的文本到图像生成模型优化框架,支持快速训练与推理,能够根据任务特定奖励函数生成高质量图像。
50 12
RLCM:康奈尔大学推出文本到图像一致性模型优化框架,支持快速生成与任务特定奖励优化
|
3月前
|
SMoA: 基于稀疏混合架构的大语言模型协同优化框架
通过引入稀疏化和角色多样性,SMoA为大语言模型多代理系统的发展开辟了新的方向。
100 6
SMoA: 基于稀疏混合架构的大语言模型协同优化框架
只需几个演示就能对齐大模型,杨笛一团队提出的DITTO竟如此高效
【6月更文挑战第22天】斯坦福团队推出DITTO,一种只需少量演示即可高效对齐大型语言模型的新技术。DITTO借助用户演示生成在线比较数据,实现模型对齐,无需大规模数据集。在用户研究中,DITTO表现优于传统方法,平均胜出19%,开创了LLMs对齐的简洁途径,适用于个性化助手和聊天机器人等场景。然而,它可能不适用于需要大量数据的任务,训练速度较慢,且可能无法完全匹配用户意图。[论文链接](https://arxiv.org/pdf/2406.00888)
117 10
谷歌提出视觉记忆方法,让大模型训练数据更灵活
谷歌研究人员提出了一种名为“视觉记忆”的方法,结合了深度神经网络的表示能力和数据库的灵活性。该方法将图像分类任务分为图像相似性和搜索两部分,支持灵活添加和删除数据、可解释的决策机制以及大规模数据处理能力。实验结果显示,该方法在多个数据集上取得了优异的性能,如在ImageNet上实现88.5%的top-1准确率。尽管有依赖预训练模型等限制,但视觉记忆为深度学习提供了新的思路。
56 2
扩散引导语言建模(DGLM):一种可控且高效的AI对齐方法
DGLM(Diffusion Guided Language Modeling)是一种新型框架,结合了自回归模型的流畅性和扩散模型的灵活性,解决了现有引导生成方法的局限性。DGLM通过扩散网络生成语义提案,并使用轻量级提示生成器将嵌入转化为软提示,引导自回归解码器生成文本。该方法无需微调模型权重,易于控制新属性,并在多个基准数据集上表现出色。实验结果显示,DGLM在毒性缓解、情感控制和组合控制等方面优于现有方法,为可控文本生成提供了新的方向。
73 10
扩散引导语言建模(DGLM):一种可控且高效的AI对齐方法
|
5月前
MAGICORE:基于多代理迭代的粗到细精炼框架,提升大语言模型推理质量
MAGICORE是一种多代理迭代框架,旨在改进大语言模型(LLM)的推理能力。该框架通过将问题分类为简单或困难,并分别为其应用粗粒度聚合或细粒度精炼,有效避免了过度精炼、错误定位及精炼不足等问题。MAGICORE包含Solver、Reviewer和Refiner三个角色,结合结果和过程奖励模型,实现有针对性的反馈和迭代精炼。实验结果显示,MAGICORE在多个数据集和模型上显著优于现有的聚合和精炼方法,提升了推理准确性和样本效率。
172 3
MAGICORE:基于多代理迭代的粗到细精炼框架,提升大语言模型推理质量
多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再压缩
【6月更文挑战第12天】谷歌DeepMind的Zipper架构解决了多模态大模型灵活性问题,通过分解为单模态模型并用“压缩”过程组合,实现多模态生成。该方法允许独立训练每个模态,提升灵活性和可扩展性,适用于数据有限或领域特定的模态。Zipper利用交叉注意力机制融合模态输出,适用于图像描述、语音识别等任务。尽管需要更多计算资源且性能受限于单模态模型质量,但已在ASR和TTS领域展现潜力。论文链接:https://arxiv.org/pdf/2405.18669
89 3
全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型
【6月更文挑战第4天】普林斯顿大学陈丹琦团队推出SimPO,一种超越DPO的强化学习优化算法,旨在优化大型语言模型以符合人类价值观。SimPO通过序列平均对数概率作为奖励,提高计算效率并减少对参考模型的依赖。在多基准测试中,SimPO表现优秀,尤其在AlpacaEval 2和Arena-Hard上大幅超越现有方法。团队还基于Llama3-8B-Instruct创建了最强8B开源模型,推动AI技术发展。尽管存在超参数敏感性等挑战,SimPO仍为AI优化提供新途径。[论文链接](https://arxiv.org/pdf/2405.14734)
117 1
论文介绍:InfLLM——揭示大型语言模型在无需训练的情况下处理极长序列的内在能力
【5月更文挑战第18天】InfLLM是一种新方法,无需额外训练即可增强大型语言模型处理极长序列的能力。通过使用记忆单元存储长序列的远距离上下文,InfLLM能更准确地捕捉长距离依赖,提高对长文本理解。实验表明,InfLLM使预训练在短序列上的模型在处理极长序列时表现媲美甚至超过专门训练的模型。尽管有挑战,如动态上下文分割和记忆单元效率,InfLLM为长序列处理提供了有效且未经训练的解决方案。论文链接:https://arxiv.org/abs/2402.04617
224 3
【机器学习】CLIP模型在有限计算资源下的性能探究:从数据、架构到训练策略
【机器学习】CLIP模型在有限计算资源下的性能探究:从数据、架构到训练策略
424 0