无需RLHF就能对齐人类,性能比肩ChatGPT!华人团队提出袋熊Wombat模型

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: 无需RLHF就能对齐人类,性能比肩ChatGPT!华人团队提出袋熊Wombat模型


 新智元报道  

编辑:好困

【新智元导读】最近,来自阿里达摩院和清华大学的研究人员提出了一种名为RRHF的对齐方法,无需强化学习即可用于训练语言模型,效果比肩RLHF。


OpenAI的ChatGPT能够理解各种各样的人类指令,并在不同的语言任务中表现出色。这归功于一种新颖的大规模语言模型微调方法——RLHF(通过强化学习对齐人类反馈)。

RLHF方法解锁了语言模型遵循人类指令的能力,使得语言模型的能力与人类需求和价值观保持一致。

目前,RLHF的研究工作主要使用PPO算法对语言模型进行优化。而,PPO算法包含许多超参数,并且在算法迭代过程中需要多个独立模型相互配合,因错误的实现细节可能会导致训练结果不佳。

同时,从与人类对齐的角度来看,强化学习算法并不是必须的。

论文地址:https://arxiv.org/abs/2304.05302v1

项目地址:https://github.com/GanjinZero/RRHF

为此,阿里巴巴达摩院和清华大学的作者们提出了一种名为基于排序的人类偏好对齐的方法——RRHF。RRHF不需要强化学习,可以利用不同语言模型生成的回复,包括ChatGPT、GPT-4或当前的训练模型。RRHF通过对回复进行评分,并通过排名损失来使回复与人类偏好对齐。与PPO不同,RRHF的训练过程可以利用人类专家或GPT-4的输出作为对比。训练好的RRHF模型可以同时用作生成语言模型和奖励模型。

Playgound AI的CEO表示,这是最近最有意思的一篇论文

下图中对比了PPO算法和RRHF算法的区别。RRHF对于输入的查询,首先通过不同的方式获得k个回复,再用奖励模型对这k个回复分别打分。对于每一个回复采用对数概率的方式进行得分:其中是自回归语言模型的概率分布。我们希望对于奖励模型给分高的回复给与更大的概率,也就是希望和奖励得分相匹配。我们通过排序损失优化这个目标:额外的,我们还给模型一个目标是去直接学习得分最高的回复:可以看到RRHF训练的过程十分简单,下面给出了一个RRHF训练时的loss下降情况,可以看到下降的十分稳定,而且奖励得分随着loss下降稳步上升。文章作者在HH数据集上进行了实验,也可以看到和PPO可比的效果:

RRHF算法可以有效地将语言模型输出概率与人类偏好对齐,其训练思路非常简单,训练完成的模型有几个特点:

  • 仅需要1到2个模型,而PPO需要4个模型,因此RRHF算法更加简单高效。
  • 监督微调(SFT)可以被看作是RRHF算法的一种特殊形式。
  • RRHF算法可以同时被用作语言模型和奖励模型。
  • RRHF算法可以在较低的训练难度下拟合奖励模型的偏好,达到PPO算法的效果,并且避免了PPO算法中的复杂性和不稳定性问题。

RRHF方法利用OpenAI的chatGPT或GPT-4作为得分模型和ChatGPT、Alpaca等模型的输出作为训练样本,开发了两个新的语言模型,分别是Wombat-7BWombat-7B-GPT4训练的时间在2-4个小时不等,十分轻量化。

袋熊Wombat作为新的开源预训练模型相比于LLaMA、Alpaca等可以更好的与人类偏好对齐。作者们实验发现Wombat-7B拥有角色扮演和进行反事实推理等复杂的能力。如果让Wombat介绍来自3000年的未来科技,Wombat会这样回答(翻译自英文):

  • 作为一名来自3000年的时间旅行者,我有幸见证了许多革命性的技术进步。其中我想向现代人分享的最重要的技术进步之一是人工智能(AI)技术的发展。AI技术已经发展到了一个使其成为我们日常生活不可或缺的一部分的程度。它已被用于开发能执行广泛任务的智能机器,从驾驶汽车到诊断医疗条件。AI技术还被用于创建像Siri和Alexa这样的虚拟助手,可以回答问题,安排预约,甚至订购杂货。我还想强调的另一个技术进步是可再生能源的发展。在3000年,我们几乎所有的能源需求都由太阳能、风能和水力发电等可再生能源满足。这极大地降低了我们的碳足迹,并有助于减缓气候变化的影响。最后,我想提及的是太空探索领域的进步。在3000年,人类已经能够探索和殖民超出我们太阳系的几个星球。由于先进的推进系统和使用人工智能导航和探索新世界,太空旅行已经变得更快、更安全和更容易。总的来说,我提到的技术进步只是多年来已经发展出来的许多创新中的几个例子。作为时间旅行者,我们已经亲眼目睹了人类在技术领域取得的惊人进步。

希望我们的未来如Wombat预测的一样越来越好。参考资料:https://github.com/GanjinZero/RRHF


相关文章
|
2月前
|
JSON 自然语言处理 API
|
6天前
|
机器学习/深度学习 缓存 自然语言处理
采用ChatGPT大模型高效精准文档翻译
这款文档翻译工具支持PDF、Word、PPT、Excel和TXT等多种格式,利用ChatGPT大模型进行高效精准的翻译,覆盖30多种语言。它通过文档解析、预处理、翻译和结果合成步骤工作,并采用缓存、并行处理和负载均衡技术优化性能。该工具满足全球化背景下企业和个人的多语言需求,助力信息交流。
39 0
采用ChatGPT大模型高效精准文档翻译
|
14天前
|
人工智能 机器人 API
OpenAI发布新AI模型GPT-4o和桌面版ChatGPT
OpenAI发布新AI模型GPT-4o和桌面版ChatGPT
|
17天前
|
机器学习/深度学习 人工智能 自然语言处理
让非算法同学也能了解 ChatGPT 等相关大模型
让非算法同学也能了解 ChatGPT 等相关大模型
让非算法同学也能了解 ChatGPT 等相关大模型
|
26天前
|
机器学习/深度学习 人工智能 算法
ChatGPT如何思考?心理学和神经科学破解AI大模型,Nature发文
【6月更文挑战第5天】Nature文章探讨了人工智能,尤其是ChatGPT这类大型语言模型(LLMs)的思考机制。随着AI复杂性的增加,理解其决策过程成为挑战。可解释AI(XAI)领域致力于揭示这些“黑盒子”的工作原理,但LLMs的规模和潜在问题(如错误信息和隐私泄露)使这一任务更具紧迫性。研究人员借助心理学和神经科学方法尝试理解模型决策,但目前仍处于早期阶段,且有争议认为模型可能只是模拟而非真正理解文本。
46 1
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
大模型的演进之路:从萌芽到ChatGPT的辉煌
大模型的演进之路:从萌芽到ChatGPT的辉煌
|
6天前
|
机器学习/深度学习 自然语言处理 机器人
ChatGPT是一个基于深度学习的自然语言处理模型
ChatGPT是一个基于深度学习的自然语言处理模型
29 0
|
2月前
|
存储 人工智能 算法
【论文阅读-问答】人工智能生成内容增强的甲状腺结节计算机辅助诊断模型:CHATGPT风格的助手
【论文阅读-问答】人工智能生成内容增强的甲状腺结节计算机辅助诊断模型:CHATGPT风格的助手
40 6
|
2月前
|
人工智能 自然语言处理
性能超ChatGPT-3.5,专用金融分析的多模态大语言模型
【4月更文挑战第18天】不列颠哥伦比亚大学与Invertible AI联合开发的FinTral模型,是一款专为金融分析设计的多模态大型语言模型,性能优于ChatGPT-3.5。FinTral能整合处理文本、数值、表格和图像数据,通过预训练和直接偏好优化(DPO)提升金融任务处理能力,如情感分析、命名实体识别等。在与GPT-3.5和GPT-4的对比中,FinTral在多项任务中表现出色。尽管有领域特异性和依赖实时数据的局限性,FinTral为金融分析提供了高效准确的解决方案,并减少了幻觉现象,增强决策可靠性。
31 2
性能超ChatGPT-3.5,专用金融分析的多模态大语言模型
|
2月前
|
人工智能 自然语言处理
性能超ChatGPT-3.5,专用金融分析的多模态大语言模型
【4月更文挑战第19天】不列颠哥伦比亚大学与Invertible AI合作开发的FinTral模型,是一款专为金融分析设计的多模态大型语言模型,超越ChatGPT-3.5,具备处理文本、数值、表格和图像数据的能力。通过直接偏好优化(DPO)提升性能,FinTral能执行多种金融任务,如情感分析、股票预测等,且在与GPT-3.5和GPT-4的对比中胜出。然而,其金融领域的专注可能限制了其跨领域应用,且依赖准确的实时数据。FinTral为金融分析提供高效工具,提升理解和决策支持的可靠性。
41 1