我们要对齐什么——从人类反馈数据收集过程中分析语言模型的对齐任务类型与对齐目标

简介: 在Modelscope活动中,主办方欲通过模型盲测收集并整理一批人类反馈数据。因为曾经使用直接偏好优化(Direct Preference Optimization)作为课程的小论文而对此领域有所了解,本次我在数据的收集过程之外,根据问答与模型的输出,结合论文From Instructions to Intrinsic Human Values A Survey of Alignment Goals for Big Models,具体探究了本次实验过程中的对齐目标。

在Modelscope活动中,主办方欲通过模型盲测收集并整理一批人类反馈数据。因为曾经使用直接偏好优化(Direct Preference Optimization)作为课程的小论文而对此领域有所了解,本次我在数据的收集过程之外,根据问答与模型的输出,结合论文From Instructions to Intrinsic Human Values A Survey of Alignment Goals for Big Models,具体探究了本次实验过程中的对齐目标。

数据收集记录

在数据收集阶段,我超额双倍收集了相关数据以对各方向有更详细的了解。我详细收集了6个方向共36个问题,每个方向包含三个生成问题与自撰问题。

问题类型 生成问题 自撰问题
写作创作相关 3 3
代码相关 3 3
知识常识 3 3
中文游戏 3 3
人类价值观 3 3
NLP专业领域 3 3

详细的问题、模型与对应的回答、比较与结果等参见文章末尾的附表。

数据分析

对齐任务类型

根据论文From Instructions to Intrinsic Human Values A Survey of Alignment Goals for Big Models中所著,模型的对齐任务类型一共有三类:

  1. 提高模型基本能力
  2. 对齐人类偏好
  3. 对齐人类价值观

对应到本次任务中,根据六种问题类型的方向,可以总结出以下的对齐任务类型分类。

问题类型 问题简述 模型对齐任务类型
写作创作相关 让模型根据给定要求写作 模型基本能力-写作、人类写作偏好
代码相关 让模型生成或修改代码 模型基本能力-代码能力、人类代码偏好
知识常识 让模型回答问题 模型基本能力-知识
中文游戏 让模型进行一些对话与游戏 模型基本能力-对话能力、人类对话游戏偏好
人类价值观 让模型遵循普世价值观 人类价值观
NLP专业领域 让模型具有NLP任务的Zero-Shot能力 模型基本能力

对齐目标

根据论文***From Instructions to Intrinsic Human Values A Survey of Alignment Goals for Big Models***中所著,模型的对齐目标一共有三种:

  1. HHH原则:helpful, honest, harmless即有帮助的、真实的、无害的。
  2. 社会道德准则:社会的普遍共识与人类价值。
  3. 基本价值观:人类的基本价值观。

探究与结论

  1. 对齐任务类型与对齐目标之间存在着多对多的关系:
  1. Untitled Diagram.drawio.png
  1. 对齐任务类型不同,其所遵循的具体规则也应不同。
  2. 根据对齐任务类型与对齐目标之间的关系,我们能更精确地在收集数据时教育数据收集人员具体标准,以达到更好的数据收集效果。

附表

附表下载

目录
相关文章
|
数据采集 人工智能 数据可视化
InternVL 2.5,首个MMMU超过70%的开源模型,性能媲美GPT-4o
近期Internvl2.5发布,性能与GPT-4o和Claude-3.5-sonnet等领先的商业模型相媲美,成为首个在MMMU上超过70%的开源模型,通过链式思考(CoT)推理实现了3.7个百分点的提升,展示了强大的测试时间可扩展性潜力。
904 25
|
12月前
|
机器学习/深度学习 人工智能 数据处理
[python 技巧] 快速掌握Streamlit: python快速原型开发工具
本文旨在快速上手python的streamlit库,包括安装,输入数据,绘制图表,基础控件,进度条,免费部署。
1428 64
[python 技巧] 快速掌握Streamlit: python快速原型开发工具
|
存储 JavaScript 前端开发
双向绑定和 vuex 是否冲突
双向绑定与Vuex在Vue.js中可以共存但需谨慎处理。双向绑定适用于组件内的简单状态管理,而Vuex用于管理应用的全局状态。两者结合使用时,应避免直接在组件中修改Vuex状态,以保持数据流的清晰和可预测性。
|
缓存 监控 安全
优化Elasticsearch 集群配置
优化Elasticsearch 集群配置
343 4
|
9月前
|
资源调度 算法 数据可视化
基于IEKF迭代扩展卡尔曼滤波算法的数据跟踪matlab仿真,对比EKF和UKF
本项目基于MATLAB2022A实现IEKF迭代扩展卡尔曼滤波算法的数据跟踪仿真,对比EKF和UKF的性能。通过仿真输出误差收敛曲线和误差协方差收敛曲线,展示三种滤波器的精度差异。核心程序包括数据处理、误差计算及可视化展示。IEKF通过多次迭代线性化过程,增强非线性处理能力;UKF避免线性化,使用sigma点直接处理非线性问题;EKF则通过一次线性化简化处理。
302 14
|
机器学习/深度学习 人工智能 TensorFlow
机器学习项目实战:使用Python实现图像识别
在AI时代,Python借助TensorFlow和Keras实现图像识别,尤其在监控、驾驶、医疗等领域有广泛应用。本文通过构建CNN模型识别MNIST手写数字,展示图像识别流程:安装库→加载预处理数据→构建模型→训练→评估。简单项目为深度学习入门提供基础,为进一步探索复杂场景打下基础。
1492 5
|
人工智能 前端开发 数据管理
10款低代码平台深度分析:加速复杂应用开发
### 十款低代码开发平台概览 - **Zoho Creator**:提供直观的拖放界面、预建模板、灵活数据管理、集成扩展、移动优化,适用于中小企业。 - **明道云**:专注企业应用,灵活业务模型设计、丰富组件库,但学习曲线较陡峭。 - **Microsoft Power Apps**:无缝集成Microsoft 365,大量组件,自定义连接器,但高度定制成本高。 - **Mendix**:模型驱动,高度定制,企业级安全,但复杂项目成本高。
795 2
|
Linux 开发工具 git
IntelliJ IDEA配置git工作效率翻倍
IntelliJ IDEA 是一个强大的集成开发环境,用于编程语言如 Java、Kotlin、Scala 和其他多种语言。Git 是一个开源的分布式版本控制系统,用于追踪项目过程中的代码变更。
1066 0
IntelliJ IDEA配置git工作效率翻倍
|
数据采集 人工智能 自然语言处理
我们要对齐什么——从对齐任务类型与对齐目标明确数据收集准则
在Modelscope活动中,主办方欲通过模型盲测收集并整理一批人类反馈数据。本次我在数据的收集过程之外,根据问答与模型的输出,结合论文From Instructions to Intrinsic Human Values -- A Survey of Alignment Goals for Big Models,具体探究了本次实验过程中的对齐目标。
675 0
|
机器学习/深度学习 传感器 编解码
路径规划算法:基于黏菌优化的机器人路径规划算法- 附matlab代码
路径规划算法:基于黏菌优化的机器人路径规划算法- 附matlab代码

热门文章

最新文章