声明:本篇文章是全原创文章。
在当前的数字化时代,随着大语言模型技术的不断发展,大语言模型正在越来越广泛地应用于各个领域。大语言模型作为一种能够生成连贯、有意义的自然语言的模型,其在对话系统、聊天机器人、语言翻译等领域的应用尤为广泛。然而,随着大语言模型规模的不断扩大和复杂性的增加,如何确保其输出的可靠性和可解释性再次成为了一个重要的问题。
在本次Modelscope活动中,主办方欲通过模型盲测收集并整理一批人类反馈数据。因为曾经使用直接偏好优化(Direct Preference Optimization)作为课程的小论文而对此领域有所了解,本次我在数据的收集过程之外,根据问答与模型的输出,结合论文From Instructions to Intrinsic Human Values A Survey of Alignment Goals for Big Models,具体探究了本次实验过程中的对齐目标。本文旨在探讨不同类型的对齐任务以及对应的目标类型,并分析各种任务与其对应的对齐原则。从这一点出发,本文还详细探讨了如何通过制定数据生成原则规则来指导数据生成过程。
我们希望通过本文为未来大语言模型的发展和应用提供有益的参考和启示。具体而言,本文所提出的数据判断原则规则可以为大语言模型的训练提供更高质量和多样化的数据,从而帮助提高大语言模型的性能和输出质量。
综上,本文的主要贡献如下:
- 贡献了双倍于要求的数据量;
- 提出了等量高质量的自撰问题,提高了数据的多样性;
- 探究了任务中不同类型的对齐任务与对齐目标,分析了对齐原则;
- 根据对齐原则,提出了不同任务中的判断规则,期望进一步指导接下来的数据收集过程。
收集前准备
为了使用理论指导实际的数据收集过程,我参考了多种人类反馈数据的收集过程,在本部分先准备好关于数据生成的理论知识准备与指导。
对齐任务类型
根据论文From Instructions to Intrinsic Human Values A Survey of Alignment Goals for Big Models中所著,模型的对齐任务类型一共有三类:
对应到本次任务中,根据六种问题类型的方向,可以总结出以下的对齐任务类型分类。
问题类型 | 问题简述 | 模型对齐任务类型 |
写作创作相关 | 让模型根据给定要求写作 | 模型基本能力-写作、人类写作偏好 |
代码相关 | 让模型生成或修改代码 | 模型基本能力-代码能力、人类代码偏好 |
知识常识 | 让模型回答问题 | 模型基本能力-知识 |
中文游戏 | 让模型进行一些对话与游戏 | 模型基本能力-对话能力、人类对话游戏偏好 |
人类价值观 | 让模型遵循普世价值观 | 人类价值观 |
NLP专业领域 | 让模型具有NLP任务的Zero-Shot能力 | 模型基本能力 |
根据不同的问题类型与和问题类型对应的模型对齐能力类型,我们能够撰写出对应的提示词与数据收集要求,从而更好地收集数据,提高数据收集的多样性、全面性。
对齐目标
根据论文From Instructions to Intrinsic Human Values A Survey of Alignment Goals for Big Models中所著,模型的对齐目标一共有三种:
- HHH原则:helpful, honest, harmless即有帮助的、真实的、无害的。
- 社会道德准则:社会的普遍共识与人类价值。
- 基本价值观:人类的基本价值观。
这三种对齐目标与对齐能力的关系如下图:
根据三种对齐目标与对齐能力及与六种能力类型的分析,我们可以对不同的任务类型设置不同的能力、价值观对齐目标、不同的提示词撰写方式,从而更好地指导数据的收集。
数据收集方法论
本次数据收集流程共分为四个步骤:生成数据集、输入模型、模型质量判断、记录数据。
生成数据
我们针对这6个方向生成了相关数据集。这些数据集包括写作创作相关、代码相关、知识常识、中文游戏、人类价值观、NLP专业领域六部分。为了确保人工撰写数据的多样性,各部分的数据撰写原则如下:
问题类型 | 生成规则 |
写作创作相关 | 包含或不包含针对文章的行文风格、文章结构、字数、人工智能议题、论据要求、文章体材。 |
代码相关 | 提出丰富的任务类型,包含代码撰写、代码解释、代码改写、语言转写、代码模拟运行等。 |
知识常识 | 在类型上控制:生活知识、物理化学知识、数学知识;在水平上控制:小学、中学、大学;在要求上控制:详细输出过程或只要求结果。 |
中文游戏 | 在文化类型上控制:中文字迷、一般性迷题、文化解释。 |
人类价值观 | 控制价值观类型:心理学、社会学、人工智能。 |
NLP专业领域 | 使用不同的NLP任务:信息抽取、情感判断、解释、选择与判断。 |
输入模型
在模型竞技场将问题输入。在每个问题后清除模型历史,以期使用更多模型提供更多元化的数据。
质量判断
根据两个模型的输出判断模型的优劣。判断流程如下:
判断流程的撰写是这样的。模型应当首先符合人类的普适价值观,如果模型的答案中出现了明显违背人类价值观的行为,那么应该坚决摒弃;其次判断生成的内容是否符合给出的提示词的要求,如果给出的答案不符合提示词的要求那么应该摒弃;最后判断生成内容的事实性错误与回答质量,生成更好、更优质的内容的答案会被采信。经过四个阶段的判断,更优的答案符合人类价值观、提示词要求、事实准确、质量优的要求。
结果记录
为了更有效地收集、记录、分析数据,在每次数据生成后都对数据进行了记录,记录内容包括:
详细的问题、模型与对应的回答、比较与结果等参见文章末尾的附表。
数据收集
数据实际收集流程如下展示。
数据记录的实际形式如下图所示。全部记录详见文末附件。
探究与结论
- 对齐任务类型与对齐目标之间存在着多对多的关系。
- 对齐任务类型不同,其所遵循的具体规则也应不同。
- 根据对齐任务类型与对齐目标之间的关系,我们能更精确地在收集数据时教育数据收集人员具体标准,以达到更好的数据收集效果。
不同任务的判别准则
针对“模型的输出中,都符合价值观准则、都符合提示词要求、都符合事实情况、生成质量都较高”的情况,针对每一种任务与对应的价值观对齐类型,我提出了更进一步的针对特定任务的判别规则。将这种判别规则运用于各种任务中,能够更有效地指导数据的生成与判别。其中关于人类价值观判断部分的内容参考了CValues的部分内容。
问题类型 | 判别规则 |
写作创作相关 |
|
代码相关 |
|
知识常识 |
|
中文游戏 |
|
人类价值观 |
|
NLP专业领域 |
|
数据记录
所有任务类型、问题类型、问题列表、模型型号、回答数据、比较数据于下表中详细记录。