在Modelscope活动中,主办方欲通过模型盲测收集并整理一批人类反馈数据。因为曾经使用直接偏好优化(Direct Preference Optimization)作为课程的小论文而对此领域有所了解,本次我在数据的收集过程之外,根据问答与模型的输出,结合论文From Instructions to Intrinsic Human Values A Survey of Alignment Goals for Big Models,具体探究了本次实验过程中的对齐目标。
数据收集记录
在数据收集阶段,我超额双倍收集了相关数据以对各方向有更详细的了解。我详细收集了6个方向共36个问题,每个方向包含三个生成问题与自撰问题。
问题类型 | 生成问题 | 自撰问题 |
写作创作相关 | 3 | 3 |
代码相关 | 3 | 3 |
知识常识 | 3 | 3 |
中文游戏 | 3 | 3 |
人类价值观 | 3 | 3 |
NLP专业领域 | 3 | 3 |
详细的问题、模型与对应的回答、比较与结果等参见文章末尾的附表。
数据分析
对齐任务类型
根据论文From Instructions to Intrinsic Human Values A Survey of Alignment Goals for Big Models中所著,模型的对齐任务类型一共有三类:
- 提高模型基本能力
- 对齐人类偏好
- 对齐人类价值观
对应到本次任务中,根据六种问题类型的方向,可以总结出以下的对齐任务类型分类。
问题类型 | 问题简述 | 模型对齐任务类型 |
写作创作相关 | 让模型根据给定要求写作 | 模型基本能力-写作、人类写作偏好 |
代码相关 | 让模型生成或修改代码 | 模型基本能力-代码能力、人类代码偏好 |
知识常识 | 让模型回答问题 | 模型基本能力-知识 |
中文游戏 | 让模型进行一些对话与游戏 | 模型基本能力-对话能力、人类对话游戏偏好 |
人类价值观 | 让模型遵循普世价值观 | 人类价值观 |
NLP专业领域 | 让模型具有NLP任务的Zero-Shot能力 | 模型基本能力 |
对齐目标
根据论文***From Instructions to Intrinsic Human Values A Survey of Alignment Goals for Big Models***中所著,模型的对齐目标一共有三种:
- HHH原则:helpful, honest, harmless即有帮助的、真实的、无害的。
- 社会道德准则:社会的普遍共识与人类价值。
- 基本价值观:人类的基本价值观。
探究与结论
- 对齐任务类型与对齐目标之间存在着多对多的关系:
- 对齐任务类型不同,其所遵循的具体规则也应不同。
- 根据对齐任务类型与对齐目标之间的关系,我们能更精确地在收集数据时教育数据收集人员具体标准,以达到更好的数据收集效果。