我们要对齐什么——从人类反馈数据收集过程中分析语言模型的对齐任务类型与对齐目标

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
简介: 在Modelscope活动中,主办方欲通过模型盲测收集并整理一批人类反馈数据。因为曾经使用直接偏好优化(Direct Preference Optimization)作为课程的小论文而对此领域有所了解,本次我在数据的收集过程之外,根据问答与模型的输出,结合论文From Instructions to Intrinsic Human Values A Survey of Alignment Goals for Big Models,具体探究了本次实验过程中的对齐目标。

在Modelscope活动中,主办方欲通过模型盲测收集并整理一批人类反馈数据。因为曾经使用直接偏好优化(Direct Preference Optimization)作为课程的小论文而对此领域有所了解,本次我在数据的收集过程之外,根据问答与模型的输出,结合论文From Instructions to Intrinsic Human Values A Survey of Alignment Goals for Big Models,具体探究了本次实验过程中的对齐目标。

数据收集记录

在数据收集阶段,我超额双倍收集了相关数据以对各方向有更详细的了解。我详细收集了6个方向共36个问题,每个方向包含三个生成问题与自撰问题。

问题类型 生成问题 自撰问题
写作创作相关 3 3
代码相关 3 3
知识常识 3 3
中文游戏 3 3
人类价值观 3 3
NLP专业领域 3 3

详细的问题、模型与对应的回答、比较与结果等参见文章末尾的附表。

数据分析

对齐任务类型

根据论文From Instructions to Intrinsic Human Values A Survey of Alignment Goals for Big Models中所著,模型的对齐任务类型一共有三类:

  1. 提高模型基本能力
  2. 对齐人类偏好
  3. 对齐人类价值观

对应到本次任务中,根据六种问题类型的方向,可以总结出以下的对齐任务类型分类。

问题类型 问题简述 模型对齐任务类型
写作创作相关 让模型根据给定要求写作 模型基本能力-写作、人类写作偏好
代码相关 让模型生成或修改代码 模型基本能力-代码能力、人类代码偏好
知识常识 让模型回答问题 模型基本能力-知识
中文游戏 让模型进行一些对话与游戏 模型基本能力-对话能力、人类对话游戏偏好
人类价值观 让模型遵循普世价值观 人类价值观
NLP专业领域 让模型具有NLP任务的Zero-Shot能力 模型基本能力

对齐目标

根据论文***From Instructions to Intrinsic Human Values A Survey of Alignment Goals for Big Models***中所著,模型的对齐目标一共有三种:

  1. HHH原则:helpful, honest, harmless即有帮助的、真实的、无害的。
  2. 社会道德准则:社会的普遍共识与人类价值。
  3. 基本价值观:人类的基本价值观。

探究与结论

  1. 对齐任务类型与对齐目标之间存在着多对多的关系:
  1. Untitled Diagram.drawio.png
  1. 对齐任务类型不同,其所遵循的具体规则也应不同。
  2. 根据对齐任务类型与对齐目标之间的关系,我们能更精确地在收集数据时教育数据收集人员具体标准,以达到更好的数据收集效果。

附表

附表下载

目录
相关文章
|
7月前
|
机器学习/深度学习 人工智能 安全
大模型的安全对齐技术
大模型的安全对齐技术
445 1
大模型的安全对齐技术
|
20天前
|
机器学习/深度学习 人工智能 编解码
OminiControl:AI图像生成框架,实现图像主题控制和空间精确控制
OminiControl 是一个高度通用且参数高效的 AI 图像生成框架,专为扩散变换器模型设计,能够实现图像主题控制和空间精确控制。该框架通过引入极少量的额外参数(0.1%),支持主题驱动控制和空间对齐控制,适用于多种图像生成任务。
62 10
OminiControl:AI图像生成框架,实现图像主题控制和空间精确控制
|
1月前
|
存储 自然语言处理 API
打破文本边界:如何进行多模态RAG评估
一般的检索增强生成(RAG,Retrieval-Augmented Generation)方法主要依赖于文本数据,常常忽略了图像中的丰富信息。那么应该如何解决呢?本文带你了解一下这个模型。
打破文本边界:如何进行多模态RAG评估
|
1月前
|
编解码 人工智能 开发者
长短大小样样精通!原始分辨率、超长视频输入:更灵活的全开源多模态架构Oryx
【10月更文挑战第23天】Oryx 是一种新型多模态架构,能够灵活处理各种分辨率的图像和视频数据。其核心创新在于能够对图像和视频进行任意分辨率编码,并通过动态压缩器模块提高处理效率。Oryx 在处理长视觉上下文(如视频)时表现出色,同时在图像、视频和3D多模态理解方面也展现了强大能力。该模型的开源性质为多模态研究社区提供了宝贵资源,但同时也面临一些挑战,如选择合适的分辨率和压缩率以及计算资源的需求。
34 3
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
扩散引导语言建模(DGLM):一种可控且高效的AI对齐方法
DGLM(Diffusion Guided Language Modeling)是一种新型框架,结合了自回归模型的流畅性和扩散模型的灵活性,解决了现有引导生成方法的局限性。DGLM通过扩散网络生成语义提案,并使用轻量级提示生成器将嵌入转化为软提示,引导自回归解码器生成文本。该方法无需微调模型权重,易于控制新属性,并在多个基准数据集上表现出色。实验结果显示,DGLM在毒性缓解、情感控制和组合控制等方面优于现有方法,为可控文本生成提供了新的方向。
56 10
扩散引导语言建模(DGLM):一种可控且高效的AI对齐方法
|
3月前
|
人工智能 安全 测试技术
当奖励成为漏洞:从对齐本质出发自动越狱大语言模型
【9月更文挑战第26天】在人工智能领域,大型语言模型(LLMs)的广泛应用引发了对其安全性和可靠性的担忧,特别是在面对对抗攻击时的脆弱性。论文《Jailbreaking as a Reward Misspecification Problem》提出将这种脆弱性归因于对齐过程中的奖励误设,并引入ReGap指标来量化这一问题。基于此,研究人员开发了ReMiss系统,用于自动对抗各种目标对齐的LLMs,并在AdvBench基准测试中取得了领先成果。尽管方法存在局限性,但该论文为提升LLMs安全性提供了新方向。[论文链接:https://arxiv.org/pdf/2406.14393]
48 4
|
4月前
|
索引
Sora视频重建与创新路线问题之TECO代码中条件部分和主体部分的编码如何处理
Sora视频重建与创新路线问题之TECO代码中条件部分和主体部分的编码如何处理
|
4月前
Sora视频重建与创新路线问题之模型视频的短期时间上下文以预测未来帧,如何处理
Sora视频重建与创新路线问题之模型视频的短期时间上下文以预测未来帧,如何处理
|
5月前
|
人工智能 自然语言处理 测试技术
将图像自动文本化,图像描述质量更高、更准确了
【7月更文挑战第11天】AI研究提升图像文本化准确性:新框架IT融合多模态大模型与视觉专家,生成详细无幻觉的图像描述。通过三个阶段—全局文本化、视觉细节提取和重描述,实现更高质量的图像转文本。研究人员建立DID-Bench、D2I-Bench和LIN-Bench基准,展示描述质量显著提升。尽管有进步,仍面临幻觉、细节缺失及大规模处理挑战。[论文链接](https://arxiv.org/pdf/2406.07502v1)**
45 1
|
6月前
|
机器学习/深度学习 监控
【机器学习】基于扩散模型的文本到音频生成:突破数据局限,优化音频概念与实践顺序
【机器学习】基于扩散模型的文本到音频生成:突破数据局限,优化音频概念与实践顺序
202 0

热门文章

最新文章