这就是OpenAI神秘的Q*?斯坦福:语言模型就是Q函数

简介: 【5月更文挑战第8天】研究人员发现直接偏好优化(DPO)能作为RLHF的替代,通过将DPO重新诠释为反向Q学习,解决了两者间的理论与实践差距。DPO具备信用分配能力,能优化生成式AI模型的策略。此外,经典搜索算法如MCTS在DPO框架下可提升语言生成性能。但选择不当的参考策略可能降低DPO的训练效果,需谨慎选择。论文链接:https://arxiv.org/pdf/2404.12358.pdf

近年来,生成式AI模型的快速发展在很大程度上要归功于一种名为“基于人类反馈的强化学习”(RLHF)的技术。然而,随着RLHF管道的复杂性日益增加,一种名为“直接偏好优化”(DPO)的直接对齐算法作为替代方法出现了。尽管DPO和标准RLHF解决了相同的目标,但两者之间存在一些差异。标准RLHF在特定的标记级MDP中部署强化学习,而DPO则被推导为一个多臂老虎机问题,其中模型的整个响应被视为单个臂。

最近,斯坦福大学的研究人员在一篇题为“From r to Q∗: Your Language Model is Secretly a Q-Function”的论文中,通过将DPO重新解释为一种一般的反向Q学习算法,弥合了这一差距。该论文指出,这种重新解释不仅在理论上满足了贝尔曼方程,而且在实践中也带来了一些有益的见解。

首先,研究人员发现,由于DPO的标记级解释,它能够执行某种形式的信用分配。这意味着DPO能够确定哪些标记对模型的最终响应做出了积极的贡献,从而可以相应地调整其策略。这种能力对于生成式AI模型来说非常重要,因为它们需要能够根据输入生成连贯且相关的输出。

其次,研究人员证明了在标记级公式下,最近应用于语言生成领域的基于搜索的算法(如MCTS)等经典搜索算法,等价于基于DPO策略的基于似然的搜索。具体而言,他们发现简单的束搜索可以显著改善基本DPO策略的性能。这一发现表明,基于搜索的方法可以成为提高生成式AI模型性能的有力工具。

然而,该研究还指出了DPO方法的一个潜在问题,即参考策略的选择可能导致训练过程中隐式奖励的减少。这意味着如果选择不合适的参考策略,DPO算法的性能可能会受到影响。因此,研究人员建议在使用DPO方法时仔细选择参考策略。

论文地址:https://arxiv.org/pdf/2404.12358.pdf

目录
相关文章
|
6月前
|
人工智能 自然语言处理 负载均衡
这款 AI 网关项目简直太棒了,轻松接入OpenAI、LLama2、Google Gem)ini等 100 多种大语言模型!
这款 AI 网关项目简直太棒了,轻松接入OpenAI、LLama2、Google Gem)ini等 100 多种大语言模型!
240 1
|
6月前
|
Web App开发 人工智能 安全
谷歌炸场:全新大语言模型 Gemini 1.0 正式亮相,近乎全面领先于 OpenAI GPT-4
根据谷歌给出的基准测试结果,Gemini 在许多测试中都表现出了“最先进的性能”,甚至在大部分基准测试中完全击败了 OpenAI 的 GPT-4。
|
机器学习/深度学习 人工智能 安全
谷歌、OpenAI学者谈AI:语言模型正在努力「攻克」数学
谷歌、OpenAI学者谈AI:语言模型正在努力「攻克」数学
137 0
|
机器学习/深度学习 人工智能 算法
大型语言模型教会智能体进化,OpenAI这项研究揭示了二者的互补关系
大型语言模型教会智能体进化,OpenAI这项研究揭示了二者的互补关系
163 0
|
人工智能 自然语言处理 机器人
挑战OpenAI!以色列AI21 Labs推最新语言模型:侏罗纪-X
挑战OpenAI!以色列AI21 Labs推最新语言模型:侏罗纪-X
237 0
|
机器学习/深度学习 人工智能 自然语言处理
什么是Auto GPT-4? OpenAI 最新语言模型概览
什么是Auto GPT-4? OpenAI 最新语言模型概览
196 0
|
机器学习/深度学习 SQL 人工智能
理解GPT-3: OpenAI最新的语言模型
理解GPT-3: OpenAI最新的语言模型
1352 0
理解GPT-3: OpenAI最新的语言模型
|
28天前
|
机器学习/深度学习 人工智能 并行计算
"震撼!CLIP模型:OpenAI的跨模态奇迹,让图像与文字共舞,解锁AI理解新纪元!"
【10月更文挑战第14天】CLIP是由OpenAI在2021年推出的一种图像和文本联合表示学习模型,通过对比学习方法预训练,能有效理解图像与文本的关系。该模型由图像编码器和文本编码器组成,分别处理图像和文本数据,通过共享向量空间实现信息融合。CLIP利用大规模图像-文本对数据集进行训练,能够实现zero-shot图像分类、文本-图像检索等多种任务,展现出强大的跨模态理解能力。
77 2
|
2月前
|
机器学习/深度学习 人工智能 UED
OpenAI o1模型:AI通用复杂推理的新篇章
OpenAI发布了其最新的AI模型——o1,这款模型以其独特的复杂推理能力和全新的训练方式,引起了业界的广泛关注。今天,我们就来深入剖析o1模型的特点、背后的原理,以及一些有趣的八卦信息。
316 73
|
1月前
|
人工智能 自然语言处理 安全
【通义】AI视界|Adobe推出文生视频AI模型,迎战OpenAI和Meta
本文精选了过去24小时内的重要科技新闻,包括微软人工智能副总裁跳槽至OpenAI、Adobe推出文本生成视频的AI模型、Meta取消高端头显转而开发超轻量设备、谷歌与核能公司合作为数据中心供电,以及英伟达股价创下新高,市值接近3.4万亿美元。这些动态展示了科技行业的快速发展和激烈竞争。点击链接或扫描二维码获取更多资讯。