我们要对齐什么——从人类反馈数据收集过程中分析语言模型的对齐任务类型与对齐目标

简介: 在Modelscope活动中,主办方欲通过模型盲测收集并整理一批人类反馈数据。因为曾经使用直接偏好优化(Direct Preference Optimization)作为课程的小论文而对此领域有所了解,本次我在数据的收集过程之外,根据问答与模型的输出,结合论文From Instructions to Intrinsic Human Values A Survey of Alignment Goals for Big Models,具体探究了本次实验过程中的对齐目标。

在Modelscope活动中,主办方欲通过模型盲测收集并整理一批人类反馈数据。因为曾经使用直接偏好优化(Direct Preference Optimization)作为课程的小论文而对此领域有所了解,本次我在数据的收集过程之外,根据问答与模型的输出,结合论文From Instructions to Intrinsic Human Values A Survey of Alignment Goals for Big Models,具体探究了本次实验过程中的对齐目标。

数据收集记录

在数据收集阶段,我超额双倍收集了相关数据以对各方向有更详细的了解。我详细收集了6个方向共36个问题,每个方向包含三个生成问题与自撰问题。

问题类型 生成问题 自撰问题
写作创作相关 3 3
代码相关 3 3
知识常识 3 3
中文游戏 3 3
人类价值观 3 3
NLP专业领域 3 3

详细的问题、模型与对应的回答、比较与结果等参见文章末尾的附表。

数据分析

对齐任务类型

根据论文From Instructions to Intrinsic Human Values A Survey of Alignment Goals for Big Models中所著,模型的对齐任务类型一共有三类:

  1. 提高模型基本能力
  2. 对齐人类偏好
  3. 对齐人类价值观

对应到本次任务中,根据六种问题类型的方向,可以总结出以下的对齐任务类型分类。

问题类型 问题简述 模型对齐任务类型
写作创作相关 让模型根据给定要求写作 模型基本能力-写作、人类写作偏好
代码相关 让模型生成或修改代码 模型基本能力-代码能力、人类代码偏好
知识常识 让模型回答问题 模型基本能力-知识
中文游戏 让模型进行一些对话与游戏 模型基本能力-对话能力、人类对话游戏偏好
人类价值观 让模型遵循普世价值观 人类价值观
NLP专业领域 让模型具有NLP任务的Zero-Shot能力 模型基本能力

对齐目标

根据论文***From Instructions to Intrinsic Human Values A Survey of Alignment Goals for Big Models***中所著,模型的对齐目标一共有三种:

  1. HHH原则:helpful, honest, harmless即有帮助的、真实的、无害的。
  2. 社会道德准则:社会的普遍共识与人类价值。
  3. 基本价值观:人类的基本价值观。

探究与结论

  1. 对齐任务类型与对齐目标之间存在着多对多的关系:
  1. Untitled Diagram.drawio.png
  1. 对齐任务类型不同,其所遵循的具体规则也应不同。
  2. 根据对齐任务类型与对齐目标之间的关系,我们能更精确地在收集数据时教育数据收集人员具体标准,以达到更好的数据收集效果。

附表

附表下载

目录
相关文章
|
2月前
|
机器学习/深度学习 人工智能 安全
大模型的安全对齐技术
大模型的安全对齐技术
101 1
大模型的安全对齐技术
|
11天前
|
机器学习/深度学习 JSON 物联网
ORPO偏好优化:性能和DPO一样好并且更简单的对齐方法
ORPO是另一种新的LLM对齐方法,这种方法甚至不需要SFT模型。通过ORPO,LLM可以同时学习回答指令和满足人类偏好。
38 0
|
10天前
R语言估计多元标记的潜过程混合效应模型(lcmm)分析心理测试的认知过程
R语言估计多元标记的潜过程混合效应模型(lcmm)分析心理测试的认知过程
31 0
|
11天前
|
机器学习/深度学习
R语言调整随机对照试验中的基线协变量
R语言调整随机对照试验中的基线协变量
18 4
|
5月前
|
机器学习/深度学习 自然语言处理 安全
【网安AIGC专题10.11】论文1:生成式模型GPT\CodeX填充式模型CodeT5\INCODER+大模型自动程序修复(生成整个修复函数、修复代码填充、单行代码生产、生成的修复代码排序和过滤)
【网安AIGC专题10.11】论文1:生成式模型GPT\CodeX填充式模型CodeT5\INCODER+大模型自动程序修复(生成整个修复函数、修复代码填充、单行代码生产、生成的修复代码排序和过滤)
99 0
|
6月前
|
Android开发
空间选择模型--既能帮决策,还可助推断
空间选择模型--既能帮决策,还可助推断
42 0
|
7月前
|
数据采集 人工智能 自然语言处理
我们要对齐什么——从对齐任务类型与对齐目标明确数据收集准则
在Modelscope活动中,主办方欲通过模型盲测收集并整理一批人类反馈数据。本次我在数据的收集过程之外,根据问答与模型的输出,结合论文From Instructions to Intrinsic Human Values -- A Survey of Alignment Goals for Big Models,具体探究了本次实验过程中的对齐目标。
279 0
|
8月前
|
人工智能 JSON 自然语言处理
超越界限:大模型应用领域扩展,探索文本分类、文本匹配、信息抽取和性格测试等多领域应用
超越界限:大模型应用领域扩展,探索文本分类、文本匹配、信息抽取和性格测试等多领域应用
超越界限:大模型应用领域扩展,探索文本分类、文本匹配、信息抽取和性格测试等多领域应用
|
9月前
|
人工智能 自然语言处理 文字识别
理解指向,说出坐标,Shikra开启多模态大模型参考对话新维度
理解指向,说出坐标,Shikra开启多模态大模型参考对话新维度
133 0
|
11月前
|
机器学习/深度学习 数据可视化
CVPR2023 | 无需动态区域分割!多帧深度估计新进展:跨线索注意力机制提升动态区域精度
CVPR2023 | 无需动态区域分割!多帧深度估计新进展:跨线索注意力机制提升动态区域精度
286 0