"人类反馈强化学习(Reinforcement Learning with Human Feedback )是训练 GPT-3.5 系列模型而创建的。RLHF 主要包括三个步骤:使用监督学习训练语言模型;根据人类偏好收集比较数据并训练奖励模型;使用强化学习针对奖励模型优化语言模型。它使模型能够通过从人类获取反馈,从而不断改进自身学习技能,从而有效地适应实际环境。
再简单的解释一下,因为 LLM 需要大量的训练数据。通过人工反馈从零开始训练它们是不合理的。所以可以通过无监督学习进行预训练,将现成的语言模型创建并做输出。然后我们训练另一个机器学习模型,该模型接收主模型生成的文本并生成质量分数。这第二个模型通常是另一个 LLM,它被修改为输出标量值而不是文本标记序列。
为了训练奖励模型,我们必须创建一个 LLM 生成的质量标记文本数据集。为了组成每个训练示例,我们给主 LLM 一个提示并让它生成几个输出。然后,我们要求人工评估人生成文本的质量。然后我们训练奖励模型来预测 LLM 文本的分数。通过在 LLM 的输出和排名分数上进行训练,奖励模型创建了人类偏好的数学表示。
最后,我们创建强化学习循环。主 LLM 的副本成为 RL 代理。在每个训练集中,LLM 从训练数据集中获取多个提示并生成文本。然后将其输出传递给奖励模型,该模型提供一个分数来评估其与人类偏好的一致性。然后更新 LLM 以创建在奖励模型上得分更高的输出。"
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。