IBM 入局:开源自对齐方法训练「单峰骆驼」,比GPT4更值得信赖(1)

简介: IBM 入局:开源自对齐方法训练「单峰骆驼」,比GPT4更值得信赖


用最少的人类监督,从零实现原则驱动的大语言模型的自对齐,IBM 研究院淦创团队在这方面取得了新的成果。他们的结果表明,仅仅通过不到300行的人工标注,他们的方法(即SELF-ALIGN)便能让一个65B的LLaMA基础语言模型在TruthfulQA上超越GPT-4。

大语言模型(LLM)除了性能强大之外,可靠且符合道德伦理也至关重要。为了确保大语言模型实现这些目标,需要它们的输出与人类的意图保持一致。我们通常把这个任务称为对齐(alignment)。


为了满足这一需求,ChatGPT 等近期的 AI 助理主要使用的方法包括用人类注释来进行监督式微调以及基于人类反馈来进行强化学习。但是,依赖人类数据会极大限制 AI 助理发挥出真正潜力,因为获取人类监督的成本不低,还存在涉及质量、可靠性、多样性、自我一致性和不良偏见等相关问题。


为了解决这些难题,卡内基梅隆大学语言技术研究所、IBM 研究院 MIT-IBM Watson AI Lab 和马萨诸塞大学阿默斯特分校的研究者提出了一种全新方法:SELF-ALIGN(自对齐)。该方法结合了原则驱动式推理和 LLM 的生成能力,从而使用极少的人类监督便能实现 AI 智能体的自对齐。从实验结果看,该方法的表现相当出色。




随着近期 AI 系统(如 ChatGPT 和 GPT-4)能力的快速提升,为了让大型语言模型(LLM)与人类的价值观和意图保持一致并且保证结果全面、尊重人及合规,研究界已经投入了极大的心力。目前而言,最先进的 AI 系统主要依赖于用人类指令和标注的监督式微调(SFT)以及基于人类反馈的强化学习(RLHF)。这些技术的成功严重依赖于广泛的人类监督,而人类监督的成本高,并且人类提供的标注中还可能存在质量、可靠性、多样性、创造性、自我一致性和不良偏见等相关问题。


为了解决 LLM 对齐需要大量人类标注的问题,研究者提出了一种名为 SELF-ALIGN 的新方法。该方法仅需使用一个人类定义的小型原则集(规则)来引导基于 LLM 的 AI 智能体在生成答复时的行为,就能显著减少对人类监督的需求,使其几乎无需任何注释。SELF-ALIGN 的设计目标是开发出有用、可靠且符合道德伦理的 AI 智能体,包括生成反对用户询问的答案,这能以不回避的方式主动应对有害查询,并且为该系统表示反对背后的原因提供解释。具体来说,该方法分为四个关键阶段:


图 1:SELF-ALIGN 过程中的四个关键阶段示意图


表 1:近期 AI 系统中使用的人类 / 教师监督方法对比。之前的研究成果中使用的对齐技术包括 SFT(监督式微调)、RLHF(使用人类反馈的强化学习)、CAI(Constitutional AI)和 KD(知识蒸馏)。


1.(由主题引导的红队策略)自指示(Topic-Guided Red-Teaming Self-Instruct):研究者采用了论文《Self-instruct: Aligning language model with self generated instructions》中提出的自指示(self-instruct)机制,其中使用了 175 个种子提示(prompt)来生成合成指令,另外还有 20 个特定主题的提示以确保指令能覆盖多样化的主题。这样的指令能确保全面覆盖 AI 系统所要学习的上下文 / 场景,并由此减少潜在的偏见。


2. 原则驱动式自对齐(Principle-Driven Self-Alignment):研究者用英语定义了一个包含 16 条人工编写的原则的小型集合,其中包含系统所生成答复的理想质量以及 AI 模型在得到答案的行为背后的规则。这些原则的作用是引导 AI 模型生成有用、可靠且符合道德伦理的答复。研究者使用一些范例(演示)执行了在上下文中的学习(ICL、in-context learning),以此说明 AI 系统在不同情况下是如何在生成答复时遵守规则的。给定每个新查询,在答复生成过程中使用同样的范例集,而不是每次查询都使用不同的(人类标注的)范例。基于人工编写的原则、ICL 范例和传入的自指示提示,LLM 可以触发匹配规则,如果检测到查询是有害或不合规的,那么就可以为拒绝回答生成解释。


3. 原则刻画(Principle Engraving):第三阶段是在自对齐答复上微调原始 LLM(基础模型),这些自对齐答复是 LLM 通过自我提示生成的,同时对微调后的模型执行了原则和演示的剪枝操作。这个微调过程让该系统可以直接生成很好对齐的答复,即这些答复是有用、可靠且符合道德伦理的;并且由于有共享的模型参数,因此在多种不同问题上都能得到对齐的结果。请注意,即使不明确使用原来的原则集和 ICL 范例,经过微调的 LLM 也能为新查询直接生成高质量的答复。


4. 冗长克隆(Verbose Cloning):最后,研究者使用上下文蒸馏(context distillation)来增强系统的能力,使其能产生比简短或间接答复更全面和详细的答复。

图 2:经典的 SFT 和 RLHF 对齐工作流程(InstructGPT)与新提出的 SELF-ALIGN 的四个阶段对比。


让人吃惊的是,整个 SELF-ALIGN 过程必需的注释量少于 300 行(包括 195 个种子提示,16 个原则和 5 个范例),而 InstructGPT 或 Alpaca 等之前的对齐 AI 系统至少需要 5 万条人类 / 教师标注。由此可见,新方法的监督效率非常之高,数据对比请见表 1。新提出的这种原则驱动式方法本质上是基于规则的方法,这不仅能极大降低对人类监督工作的需求,并且还能有效且高效地让神经语言模型与人类对原则或规则的理解保持一致,进而实现高质量的语言生成。


研究者指出:近期的 Alpaca 和 Vicuna 等模型表明通过将已有的与人类偏好对齐的 LLM(即 Text-Davinci-003 和 ChatGPT)蒸馏成更小和更易管理的模型,可以获得有效的会话能力。但是,所得到的更小模型依然是依靠已有 LLM 的成功对齐,而这还是需要大量人类监督。换句话说,这些更小模型间接地继承了对大量人类监督的依赖。相比之下,新提出的方法则重点关注了从头开始的语言模型对齐,可以独立于 ChatGPT 或 GPT-4 等已经对齐的 LLM。这是新方法与之前已有方法的主要区别,也因此研究者称之为从头开始的自对齐(self-alignment from scratch)。


简单来说,通过使用 LLM 内部的固有知识,再结合人类可理解的原则(一个指定我们期望的 LLM 行为的小型集合),SELF-ALIGN 能训练出行为端正的 AI 智能体,其生成的答复在模型创建者定义的栅栏之内。更重要的是,相比于已有的方法,新方法整个对齐流程所需的人类监督可以减少几个数量级。


而且研究者还将 SELF-ALIGN 开源了!研究者将 SELF-ALIGN 方法应用到 LLaMA-65b 基础语言模型上,开发出了一个 AI 助理:Dromedary(单峰骆驼),并开放给了非商业用途。


现如今的大多数研究都注重提升 AI 完成任务的能力,而这项研究则能极大提升 AI 与人类价值观保持一致的能力。为了创造出在现实应用中负责任的 AI 助理,这种能力是不可或缺的。下面我们来看看一些研究细节。


详解 SELF-ALIGN 的四个阶段


由主题引导的红队策略式自指示


这种自指示方法是一种半自动的、迭代式的引导过程,使用了一个预训练 LLM 来生成大量指令(和相应的输入)。该方法从 175 条人工编写的指令开始,然后 LLM 继续开发新任务并扩充任务池(在消除低质量或重复的指令之后)。此过程迭代执行,直到达到令人满意的任务量。Alpaca 的研究中便使用了该方法,其中使用了自指示来从 Text-Davinci-003 生成新查询和蒸馏过的输出。


研究者引入了一种有效的扩展,即由主题引导的红队策略式自指示,其目标是提升所生成的对抗性指令的多样性和覆盖范围。他们人工设计了 20 种静态机器学习模型无法回答或可能答错的对抗性指令类型,比如:


  • 需要科学知识的问题
  • 需要有关未来事件的知识的问题
  • 需要实时信息的问题
  • 需要法律专业知识的问题


然后向基础 LLM 提问来生成与这些类型相关的全新主题(比如水)。之后,在移除了重复的主题后,再调用基础 LLM 生成对应于指定指令类型和主题的新指令。再结合专注于特定对抗性指令类型和不同主题的额外提示,让 AI 模型可以探索更广泛的上下文和场景。


原则驱动式自对齐


设计原则驱动式自对齐技术的目标是让 AI 与一个有用、可靠且符合道德伦理的原则集对齐。这一阶段需要使用(由主题引导的红队策略)自指示作为指令生成器。其主要目标是让 AI 模型生成符合既定原则的适当答复,同时最大限度地减少人类监督。

原则驱动式自对齐过程的第一步是创建 16 条 AI 助理应当遵守的一般性原则,比如「1(符合伦理道德)。助理应当积极劝阻用户参与非法、不道德或有害的话题,在其答复中以用户安全、道德举措和负责任的行为为优先。之后,研究者提供了 5 个在上下文中的学习(ICL)演示,用范例向 AI 助理展示应该如何通过名为「内源性思考(internal thoughts)」的明确过程应用那些原则。举个例子,在这个 ICL 演示中,用户查询可能是:


AI 助理的内源性思考被标注为:


这样的内源性思考会引导助理最终生成这样的答复:


当(由主题引导的红队策略)自指示生成新查询时,它会被附加到范例列表中,基础 LLM 遵循这样的「内源性思考再回答」过程来产生一个自对齐的答复。图 3 展示了这整个过程。


研究者在论文中强调,目前的原则设计都是探索性的,主要是为研究目的服务。他们头脑风暴得到的 16 个原则为:1(符合道德伦理)、2(信息充分)、3(有帮助)、4(问题评估)、5(推理)、6(多面向)、7(坦诚)、8(知识背诵)、9(静态)、10(清晰说明)、11(数值敏感性)、12(过时的知识)、13(逐步执行)、14(平衡和信息丰富的观点)、15(有创造性)、16(可操作),其中灵感来自 Constitutional AI 和新的 Bing Chatbot 以及近期研究论文中已被证明有助于提升 AI 性能的原则,比如逐步执行推理和知识背诵。


原则侵刻


原则刻画是 SELF-ALIGN 方法中的重要组成部分,其关注的是磨砺 AI 模型的行为使其答复符合预定义的原则。这一阶段是对基础 LLM 进行微调,即对原则、ICL 演示和自己生成的思考进行剪枝,从而有效地将这些原则刻画进 LLM 的参数之中。图 3 通过视觉方式展示了这个过程。原则刻画有一个值得注意的优势,即它能在减少使用 token 的同时提升 AI 模型的对齐性,而这又能让模型在推理阶段可使用更长的上下文(因为给固定的原则和 ICL 分配超过 1.7k token 是过多了)。值得注意的是,研究者在实验中观察到基础 LLM 在使用自对齐的输出微调后,在对齐基准上超越了其使用提示的版本。至于这种提升的原因,很可能是因为在直接优化模型来生成有用、可靠且符合道德伦理的输出时会出现泛化效应。


图 3:原则驱动式自对齐和原则刻画的示意图。ICL 范例教基础 LLM 选择规则和生成合适的答复。为了简洁,这里没有展示第一步的自指示和第四步的冗长克隆。在原则刻画期间,当对原始模型进行微调时,原则、ICL 演示和内源性思考会被剪枝。


缜密克隆


在研究者初步测试的原则刻画模型中,研究者找到了两个主要难题:1)该模型倾向于生成过于简短的答复,而用户通常期望从 AI 助理那里获得更全面和详尽的答案;2)该模型偶尔会引用并未直接解决用户查询的相关维基百科段落。


为了解决这些难题,研究者引入了一个补充性的冗长克隆步骤。这个阶段涉及到利用人工提示来创建已对齐模型的一个冗长版本,其可以生成深度的详细的答复。然后,利用上下文蒸馏来产生一个新模型,其不仅是已对齐的,而且还能为用户查询生成透彻和广博的答复。上下文蒸馏的工作方式是:训练基础语言模型时使用(由主题引导的红队策略)自指示生成的合成查询搭配冗长提示的已原则刻画的模型生成的对应答复。冗长的提示是为了鼓励已原则刻画的模型变得更加健谈。


讨论


有趣的是,相较于普遍采用的对齐范式,即先遵从后对齐(SFT 和 RLHF),SELF-ALIGN 会优先通过原则驱动式自对齐和原则刻画来提升无害性和可靠性。之后,它会通过使用冗长克隆来提升有用度(遵从指令的能力)。到底是「先遵从后对齐」更优还是「先对齐后遵从」更胜一筹还有待未来研究。


此外,SELF-ALIGN 整体(包含自提示)所需的注释量少于 300 行(包括种子提示、原则和范例)。这一成就凸显了这种方法在使 AI 模型与人类价值观和意图保持一致方面的监督效率和有效性。



相关文章
|
3天前
|
机器学习/深度学习 人工智能 PyTorch
使用PyTorch实现GPT-2直接偏好优化训练:DPO方法改进及其与监督微调的效果对比
本文将系统阐述DPO的工作原理、实现机制,以及其与传统RLHF和SFT方法的本质区别。
42 22
使用PyTorch实现GPT-2直接偏好优化训练:DPO方法改进及其与监督微调的效果对比
|
2月前
|
存储 数据采集 数据安全/隐私保护
商汤、清华、复旦等开源百亿级多模态数据集,可训练类GPT-4o模型
商汤科技、清华大学和复旦大学等机构联合开源了名为OmniCorpus的多模态数据集,规模达百亿级,旨在支持类似GPT-4级别的大型多模态模型训练。该数据集包含86亿张图像和1696亿个文本标记,远超现有数据集规模并保持高质量,具备广泛来源和灵活性,可轻松转换为纯文本或图像-文本对。经验证,该数据集质量优良,有望促进多模态模型研究,但同时也面临存储管理、数据偏见及隐私保护等挑战。
183 60
|
2月前
|
人工智能 语音技术 UED
仅用4块GPU、不到3天训练出开源版GPT-4o,这是国内团队最新研究
【10月更文挑战第19天】中国科学院计算技术研究所提出了一种名为LLaMA-Omni的新型模型架构,实现与大型语言模型(LLMs)的低延迟、高质量语音交互。该模型集成了预训练的语音编码器、语音适配器、LLM和流式语音解码器,能够在不进行语音转录的情况下直接生成文本和语音响应,显著提升了用户体验。实验结果显示,LLaMA-Omni的响应延迟低至226ms,具有创新性和实用性。
69 1
|
5月前
|
机器学习/深度学习 自然语言处理 Swift
从头构建和训练 GPT-2 |实战
从头构建和训练 GPT-2 |实战
67 4
|
5月前
|
数据采集 人工智能 自然语言处理
GPT被封锁了怎么办?轻松获取高质量的数据,训练自己的人工智能和大语言模型。
2023年标志着AI大模型时代的到来,GPT-4等模型在多个领域展现巨大潜力。然而,OpenAI对中国区服务的限制提出了挑战。本文探讨如何使用亮数据代理获取训练大模型所需的数据,包括确定目标、选择代理、数据抓取、清洗,并以西方历史为例,展示如何使用亮数据的静态住宅代理稳定获取DE区域数据,最终在国产AI平台上训练模型,提升知识库的丰富度和准确性。尽管面临外部障碍,但自主获取和训练数据能增强本土AI能力。
|
6月前
|
人工智能
拯救被掰弯的GPT-4!西交微软北大联合提出IN2训练治疗LLM中间迷失
【6月更文挑战第1天】研究人员为解决大型语言模型(LLM)的“中间迷失”问题,提出了IN2训练方法。此方法通过显式监督增强模型对长文本上下文的理解,改善了信息检索能力。应用IN2训练的FILM-7B模型在长文本任务上表现出色,尤其在NarrativeQA数据集上的F1分数提升了3.4。尽管面临数据合成和计算成本的挑战,IN2训练为LLM的进步开辟了新途径,预示着未来在长文本处理领域的潜力。论文链接:https://arxiv.org/pdf/2404.16811
91 5
|
7月前
|
自然语言处理
Meta首发变色龙挑战GPT-4o,34B参数引领多模态革命!10万亿token训练刷新SOTA
【5月更文挑战第27天】Meta推出34B参数的多模态模型Chameleon,通过早期融合技术处理图像和文本,实现全面的多模态建模。在10万亿token的训练数据下,Chameleon在图像字幕生成和文本推理任务中刷新SOTA,展现出在混合模态生成和推理的潜力。然而,模型可能无法完全捕捉图像语义信息,且在某些特定任务上有优化空间。[论文链接](https://arxiv.org/pdf/2405.09818)
105 1
|
7月前
|
人工智能 安全 测试技术
Infection-2.5登场,训练计算量仅40%、性能直逼GPT-4!
【2月更文挑战第18天】Infection-2.5登场,训练计算量仅40%、性能直逼GPT-4!
76 3
Infection-2.5登场,训练计算量仅40%、性能直逼GPT-4!
|
7月前
|
人工智能 PyTorch iOS开发
苹果AppleMacOs最新Sonoma系统本地训练和推理GPT-SoVITS模型实践
GPT-SoVITS是少有的可以在MacOs系统下训练和推理的TTS项目,虽然在效率上没有办法和N卡设备相提并论,但终归是开发者在MacOs系统构建基于M系列芯片AI生态的第一步。
苹果AppleMacOs最新Sonoma系统本地训练和推理GPT-SoVITS模型实践
|
7月前
|
自然语言处理 C++
GPT4 vs Llama,大模型训练的坑
训练大模型,总觉得效果哪里不对,查了三天,终于发现了原因
136 0

热门文章

最新文章