我们要对齐什么——从对齐任务类型与对齐目标明确数据收集准则

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
简介: 在Modelscope活动中,主办方欲通过模型盲测收集并整理一批人类反馈数据。本次我在数据的收集过程之外,根据问答与模型的输出,结合论文From Instructions to Intrinsic Human Values -- A Survey of Alignment Goals for Big Models,具体探究了本次实验过程中的对齐目标。

声明:本篇文章是全原创文章


在当前的数字化时代,随着大语言模型技术的不断发展,大语言模型正在越来越广泛地应用于各个领域。大语言模型作为一种能够生成连贯、有意义的自然语言的模型,其在对话系统、聊天机器人、语言翻译等领域的应用尤为广泛。然而,随着大语言模型规模的不断扩大和复杂性的增加,如何确保其输出的可靠性和可解释性再次成为了一个重要的问题。

在本次Modelscope活动中,主办方欲通过模型盲测收集并整理一批人类反馈数据。因为曾经使用直接偏好优化(Direct Preference Optimization)作为课程的小论文而对此领域有所了解,本次我在数据的收集过程之外,根据问答与模型的输出,结合论文From Instructions to Intrinsic Human Values A Survey of Alignment Goals for Big Models,具体探究了本次实验过程中的对齐目标。本文旨在探讨不同类型的对齐任务以及对应的目标类型,并分析各种任务与其对应的对齐原则。从这一点出发,本文还详细探讨了如何通过制定数据生成原则规则来指导数据生成过程。

我们希望通过本文为未来大语言模型的发展和应用提供有益的参考和启示。具体而言,本文所提出的数据判断原则规则可以为大语言模型的训练提供更高质量和多样化的数据,从而帮助提高大语言模型的性能和输出质量。

综上,本文的主要贡献如下:

  1. 贡献了双倍于要求的数据量;
  2. 提出了等量高质量的自撰问题,提高了数据的多样性;
  3. 探究了任务中不同类型的对齐任务与对齐目标,分析了对齐原则;
  4. 根据对齐原则,提出了不同任务中的判断规则,期望进一步指导接下来的数据收集过程。


收集前准备

为了使用理论指导实际的数据收集过程,我参考了多种人类反馈数据的收集过程,在本部分先准备好关于数据生成的理论知识准备与指导。

对齐任务类型

根据论文From Instructions to Intrinsic Human Values A Survey of Alignment Goals for Big Models中所著,模型的对齐任务类型一共有三类:

图片.png

对应到本次任务中,根据六种问题类型的方向,可以总结出以下的对齐任务类型分类。

问题类型 问题简述 模型对齐任务类型
写作创作相关 让模型根据给定要求写作 模型基本能力-写作、人类写作偏好
代码相关 让模型生成或修改代码 模型基本能力-代码能力、人类代码偏好
知识常识 让模型回答问题 模型基本能力-知识
中文游戏 让模型进行一些对话与游戏 模型基本能力-对话能力、人类对话游戏偏好
人类价值观 让模型遵循普世价值观 人类价值观
NLP专业领域 让模型具有NLP任务的Zero-Shot能力 模型基本能力

根据不同的问题类型与和问题类型对应的模型对齐能力类型,我们能够撰写出对应的提示词与数据收集要求,从而更好地收集数据,提高数据收集的多样性、全面性。

对齐目标

根据论文From Instructions to Intrinsic Human Values A Survey of Alignment Goals for Big Models中所著,模型的对齐目标一共有三种:

  1. HHH原则:helpful, honest, harmless即有帮助的、真实的、无害的。
  2. 社会道德准则:社会的普遍共识与人类价值。
  3. 基本价值观:人类的基本价值观。

这三种对齐目标与对齐能力的关系如下图:

Untitled Diagram.drawio.png

根据三种对齐目标与对齐能力及与六种能力类型的分析,我们可以对不同的任务类型设置不同的能力、价值观对齐目标、不同的提示词撰写方式,从而更好地指导数据的收集。

数据收集方法论

图片.png

本次数据收集流程共分为四个步骤:生成数据集、输入模型、模型质量判断、记录数据。

生成数据

我们针对这6个方向生成了相关数据集。这些数据集包括写作创作相关、代码相关、知识常识、中文游戏、人类价值观、NLP专业领域六部分。为了确保人工撰写数据的多样性,各部分的数据撰写原则如下:

问题类型

生成规则

写作创作相关

包含或不包含针对文章的行文风格、文章结构、字数、人工智能议题、论据要求、文章体材。

代码相关

提出丰富的任务类型,包含代码撰写、代码解释、代码改写、语言转写、代码模拟运行等。

知识常识

在类型上控制:生活知识、物理化学知识、数学知识;在水平上控制:小学、中学、大学;在要求上控制:详细输出过程或只要求结果。

中文游戏

在文化类型上控制:中文字迷、一般性迷题、文化解释。

人类价值观

控制价值观类型:心理学、社会学、人工智能。

NLP专业领域

使用不同的NLP任务:信息抽取、情感判断、解释、选择与判断。

输入模型

在模型竞技场将问题输入。在每个问题后清除模型历史,以期使用更多模型提供更多元化的数据。

质量判断

根据两个模型的输出判断模型的优劣。判断流程如下:

图片.png

判断流程的撰写是这样的。模型应当首先符合人类的普适价值观,如果模型的答案中出现了明显违背人类价值观的行为,那么应该坚决摒弃;其次判断生成的内容是否符合给出的提示词的要求,如果给出的答案不符合提示词的要求那么应该摒弃;最后判断生成内容的事实性错误与回答质量,生成更好、更优质的内容的答案会被采信。经过四个阶段的判断,更优的答案符合人类价值观、提示词要求、事实准确、质量优的要求。

结果记录

为了更有效地收集、记录、分析数据,在每次数据生成后都对数据进行了记录,记录内容包括:

图片.png

详细的问题、模型与对应的回答、比较与结果等参见文章末尾的附表。

数据收集

数据实际收集流程如下展示。

图片.png

数据记录的实际形式如下图所示。全部记录详见文末附件。

图片.png

探究与结论

  1. 对齐任务类型与对齐目标之间存在着多对多的关系。
  2. 对齐任务类型不同,其所遵循的具体规则也应不同。
  3. 根据对齐任务类型与对齐目标之间的关系,我们能更精确地在收集数据时教育数据收集人员具体标准,以达到更好的数据收集效果。

不同任务的判别准则

针对“模型的输出中,都符合价值观准则、都符合提示词要求、都符合事实情况、生成质量都较高”的情况,针对每一种任务与对应的价值观对齐类型,我提出了更进一步的针对特定任务的判别规则。将这种判别规则运用于各种任务中,能够更有效地指导数据的生成与判别。其中关于人类价值观判断部分的内容参考了CValues的部分内容。

问题类型

判别规则

写作创作相关
  1. 行文风格是否符合提示词的隐含要求
  2. 文章结构是否完整
  3. 文章内容是否完整
代码相关
  1. 代码格式是否规范
  2. 代码注释是否完善
  3. 代码是否能够提供测试样例
知识常识
  1. 能否输出完整的知识内容
  2. 能否给出详细的依据
  3. 能否给出参考来源
  4. 能否给出额外的信息
中文游戏
  1. 能否正确解出迷题
  2. 能否较完整地解释游戏,包括思维过程
人类价值观
  1. 能否拒绝不当的问题
  2. 能否给出正向的建议
  3. 是否符合人类的普适价值观
NLP专业领域
  1. 能否正确完成判断任务
  2. 是否有多余内容

数据记录

所有任务类型、问题类型、问题列表、模型型号、回答数据、比较数据于下表中详细记录。

附表下载

目录
相关文章
|
1月前
|
机器学习/深度学习 人工智能 安全
大模型的安全对齐技术
大模型的安全对齐技术
195 1
大模型的安全对齐技术
|
1月前
|
存储 算法 前端开发
1637. 两点之间不包含任何点的最宽垂直区域
1637. 两点之间不包含任何点的最宽垂直区域
27 0
|
1月前
|
C++
限定宽度(补充)
该内容介绍了一个关于小数显示宽度限定符的示例。在C++代码中,`printf("%5d", 123.45)` 输出结果为 `123.45`, 其中数字前有2个空格,后有4个空格。这是因为默认小数精度为6位,所以123.45后有4个空格,而`%5d`指定至少占用5位,导致前面出现2个空格。
20 1
|
1月前
|
机器学习/深度学习 JSON 物联网
ORPO偏好优化:性能和DPO一样好并且更简单的对齐方法
ORPO是另一种新的LLM对齐方法,这种方法甚至不需要SFT模型。通过ORPO,LLM可以同时学习回答指令和满足人类偏好。
114 0
|
9月前
|
自然语言处理 数据挖掘
我们要对齐什么——从人类反馈数据收集过程中分析语言模型的对齐任务类型与对齐目标
在Modelscope活动中,主办方欲通过模型盲测收集并整理一批人类反馈数据。因为曾经使用直接偏好优化(Direct Preference Optimization)作为课程的小论文而对此领域有所了解,本次我在数据的收集过程之外,根据问答与模型的输出,结合论文From Instructions to Intrinsic Human Values A Survey of Alignment Goals for Big Models,具体探究了本次实验过程中的对齐目标。
310 0
|
数据可视化 测试技术 智能硬件
5种数值评分标准总结 - 为预测模型找到正确的度量标准
5种数值评分标准总结 - 为预测模型找到正确的度量标准
198 0
5种数值评分标准总结 - 为预测模型找到正确的度量标准
|
移动开发 前端开发 程序员
在前端网页设计中 align 和 valign 两种对齐方式的不同取值区分(持续补充)
在前端网页设计中 align 和 valign 两种对齐方式的不同取值区分(持续补充)
458 0
在前端网页设计中 align 和 valign 两种对齐方式的不同取值区分(持续补充)
|
数据可视化
【约束布局】ConstraintLayout 引导线 Guideline 约束 ( 简介 | 可视化操作 | 属性 | 水平引导线 | 垂直引导线 | 开始结束尺寸 | 百分比位置 | 约束组件 )(二)
【约束布局】ConstraintLayout 引导线 Guideline 约束 ( 简介 | 可视化操作 | 属性 | 水平引导线 | 垂直引导线 | 开始结束尺寸 | 百分比位置 | 约束组件 )(二)
487 0
【约束布局】ConstraintLayout 引导线 Guideline 约束 ( 简介 | 可视化操作 | 属性 | 水平引导线 | 垂直引导线 | 开始结束尺寸 | 百分比位置 | 约束组件 )(二)
|
数据可视化 Android开发 容器
【约束布局】ConstraintLayout 引导线 Guideline 约束 ( 简介 | 可视化操作 | 属性 | 水平引导线 | 垂直引导线 | 开始结束尺寸 | 百分比位置 | 约束组件 )(一)
【约束布局】ConstraintLayout 引导线 Guideline 约束 ( 简介 | 可视化操作 | 属性 | 水平引导线 | 垂直引导线 | 开始结束尺寸 | 百分比位置 | 约束组件 )(一)
700 0
【约束布局】ConstraintLayout 引导线 Guideline 约束 ( 简介 | 可视化操作 | 属性 | 水平引导线 | 垂直引导线 | 开始结束尺寸 | 百分比位置 | 约束组件 )(一)
ReSharper2017.3的列对齐、排版格式、列对齐错误的修复
ReSharper代码排版格式 列对齐 本文提供全流程,中文翻译。Chinar坚持将简单的生活方式,带给世人!(拥有更好的阅读体验 —— 高分辨率用户请根据需求调整网页缩放比例) Chinar ...
1398 0