我们要对齐什么——从人类反馈数据收集过程中分析语言模型的对齐任务类型与对齐目标

简介: 在Modelscope活动中,主办方欲通过模型盲测收集并整理一批人类反馈数据。因为曾经使用直接偏好优化(Direct Preference Optimization)作为课程的小论文而对此领域有所了解,本次我在数据的收集过程之外,根据问答与模型的输出,结合论文From Instructions to Intrinsic Human Values A Survey of Alignment Goals for Big Models,具体探究了本次实验过程中的对齐目标。

在Modelscope活动中,主办方欲通过模型盲测收集并整理一批人类反馈数据。因为曾经使用直接偏好优化(Direct Preference Optimization)作为课程的小论文而对此领域有所了解,本次我在数据的收集过程之外,根据问答与模型的输出,结合论文From Instructions to Intrinsic Human Values A Survey of Alignment Goals for Big Models,具体探究了本次实验过程中的对齐目标。

数据收集记录

在数据收集阶段,我超额双倍收集了相关数据以对各方向有更详细的了解。我详细收集了6个方向共36个问题,每个方向包含三个生成问题与自撰问题。

问题类型 生成问题 自撰问题
写作创作相关 3 3
代码相关 3 3
知识常识 3 3
中文游戏 3 3
人类价值观 3 3
NLP专业领域 3 3

详细的问题、模型与对应的回答、比较与结果等参见文章末尾的附表。

数据分析

对齐任务类型

根据论文From Instructions to Intrinsic Human Values A Survey of Alignment Goals for Big Models中所著,模型的对齐任务类型一共有三类:

  1. 提高模型基本能力
  2. 对齐人类偏好
  3. 对齐人类价值观

对应到本次任务中,根据六种问题类型的方向,可以总结出以下的对齐任务类型分类。

问题类型 问题简述 模型对齐任务类型
写作创作相关 让模型根据给定要求写作 模型基本能力-写作、人类写作偏好
代码相关 让模型生成或修改代码 模型基本能力-代码能力、人类代码偏好
知识常识 让模型回答问题 模型基本能力-知识
中文游戏 让模型进行一些对话与游戏 模型基本能力-对话能力、人类对话游戏偏好
人类价值观 让模型遵循普世价值观 人类价值观
NLP专业领域 让模型具有NLP任务的Zero-Shot能力 模型基本能力

对齐目标

根据论文***From Instructions to Intrinsic Human Values A Survey of Alignment Goals for Big Models***中所著,模型的对齐目标一共有三种:

  1. HHH原则:helpful, honest, harmless即有帮助的、真实的、无害的。
  2. 社会道德准则:社会的普遍共识与人类价值。
  3. 基本价值观:人类的基本价值观。

探究与结论

  1. 对齐任务类型与对齐目标之间存在着多对多的关系:
  1. Untitled Diagram.drawio.png
  1. 对齐任务类型不同,其所遵循的具体规则也应不同。
  2. 根据对齐任务类型与对齐目标之间的关系,我们能更精确地在收集数据时教育数据收集人员具体标准,以达到更好的数据收集效果。

附表

附表下载

目录
相关文章
|
安全 Linux 数据安全/隐私保护
Intel TME和MKTME技术解析
# 市场需求 人们对透明全内存加密这个功能的需求主要来自对机密和敏感数据的保护。普通RAM里面储存的数据,在掉电之后,一般都以为是彻底消失了。但其实在一些复杂的离线攻击下,这些数据仍然是能被恢复出来并导致泄密;而持久性存储器(即外存,包括磁盘、SSD、eMMC等)的数据更加容易泄露。这些设备可能有硬件锁机制的保护,但是用户其实希望的是更细粒度的保护,比如per进程/容器/VM级的。 Int
6075 0
Intel TME和MKTME技术解析
|
数据采集 人工智能 数据可视化
InternVL 2.5,首个MMMU超过70%的开源模型,性能媲美GPT-4o
近期Internvl2.5发布,性能与GPT-4o和Claude-3.5-sonnet等领先的商业模型相媲美,成为首个在MMMU上超过70%的开源模型,通过链式思考(CoT)推理实现了3.7个百分点的提升,展示了强大的测试时间可扩展性潜力。
1086 25
|
机器学习/深度学习 人工智能 数据处理
[python 技巧] 快速掌握Streamlit: python快速原型开发工具
本文旨在快速上手python的streamlit库,包括安装,输入数据,绘制图表,基础控件,进度条,免费部署。
1787 64
[python 技巧] 快速掌握Streamlit: python快速原型开发工具
|
9月前
|
Web App开发 人工智能 前端开发
百万部销量智能体的小故事
《百万部销量智能体的小故事》讲述了小明从异想天开的构想到成功开发智能系统的创业历程。从泡面桶前的宣言到极端节俭的车库创业,从小伙伴的加入到无数次失败与尝试,他们克服了实时通讯、多模态处理等技术难题。尽管经历了咖啡灾难、病毒侵袭和无数bug,团队仍坚持不懈。最终,他们的智能系统不仅改变了超市、独居老人的生活,还创造了百万销量的奇迹。这个故事展现了技术背后的人情温度,以及创业者对梦想的执着追求。
204 3
|
11月前
|
资源调度 算法 数据可视化
基于IEKF迭代扩展卡尔曼滤波算法的数据跟踪matlab仿真,对比EKF和UKF
本项目基于MATLAB2022A实现IEKF迭代扩展卡尔曼滤波算法的数据跟踪仿真,对比EKF和UKF的性能。通过仿真输出误差收敛曲线和误差协方差收敛曲线,展示三种滤波器的精度差异。核心程序包括数据处理、误差计算及可视化展示。IEKF通过多次迭代线性化过程,增强非线性处理能力;UKF避免线性化,使用sigma点直接处理非线性问题;EKF则通过一次线性化简化处理。
387 14
|
缓存 监控 安全
优化Elasticsearch 集群配置
优化Elasticsearch 集群配置
383 4
|
Linux
使用mdadm工具实现软RAID 0实战案例
文章介绍了如何使用mdadm工具在Linux系统中创建和管理软RAID 0设备,包括准备工作、创建RAID 0、格式化文件系统、挂载RAID设备、测试读写速度以及重启服务器后验证RAID设备是否自动挂载的完整过程。
632 2
使用mdadm工具实现软RAID 0实战案例
|
机器学习/深度学习 人工智能 TensorFlow
机器学习项目实战:使用Python实现图像识别
在AI时代,Python借助TensorFlow和Keras实现图像识别,尤其在监控、驾驶、医疗等领域有广泛应用。本文通过构建CNN模型识别MNIST手写数字,展示图像识别流程:安装库→加载预处理数据→构建模型→训练→评估。简单项目为深度学习入门提供基础,为进一步探索复杂场景打下基础。
1619 5
|
人工智能 前端开发 数据管理
10款低代码平台深度分析:加速复杂应用开发
### 十款低代码开发平台概览 - **Zoho Creator**:提供直观的拖放界面、预建模板、灵活数据管理、集成扩展、移动优化,适用于中小企业。 - **明道云**:专注企业应用,灵活业务模型设计、丰富组件库,但学习曲线较陡峭。 - **Microsoft Power Apps**:无缝集成Microsoft 365,大量组件,自定义连接器,但高度定制成本高。 - **Mendix**:模型驱动,高度定制,企业级安全,但复杂项目成本高。
880 2
|
传感器 JavaScript 前端开发
VSCOde安装node.js环境
VSCOde安装node.js环境

热门文章

最新文章