IBM 入局:开源自对齐方法训练「单峰骆驼」,比GPT4更值得信赖(2)

简介: IBM 入局:开源自对齐方法训练「单峰骆驼」,比GPT4更值得信赖

Dromedary 大模型


Dromedary 模型是将 SELF-ALIGN 过程应用于 LLaMA-65b 基础语言模型而得到的 AI 助理。下面谈谈创建 Dromedary 模型的细节。


研究者首先依照 Alpaca 的方案,使用自提示生成了 267,597 个开放域的提示及对应的输入。此外,他们使用(由主题引导的红队策略)自指示生成了针对 20 种红队指令类型定制的 99,121 个提示。


在使用了原则驱动式自对齐过程并过滤掉低质量答复之后,从自提示得到了 191,628 对「查询 - 答复」,从由主题引导的红队策略自指示得到了 67,250 对「查询 - 答复」,总共 258,878 对「查询 - 答复」。由主题引导的红队策略中使用的原则和指令类型见图 4。研究者观察到:由原始自提示生成的指令和由主题引导的红队策略自指示生成的指令似乎会唤起不同的原则。举个例子,自提示数据集广泛使用原则 5(推理)、13(逐步执行)和 15(有创造性),而由主题引导的红队策略自指示则更依赖 8(知识背诵)和 14(平衡和信息丰富的观点)。


图 4:自提示和由主题引导的红队策略自指示的数据集的统计情况。(a) 自提示数据集中 20 个最常用的根动词(内圈)和每个根动词对应的 4 个最常用的名词宾语(外圈)。(b) 由主题引导的红队策略自指示数据集中的 20 个指令类型(内圈)和对应最常用的规则(外圈)。(c) 自提示数据集的原则使用情况统计。(d) 由主题引导的红队策略自提示数据集的原则使用情况统计。


接下来,研究者使用精选后的 258,878 对(过滤后)对「查询 - 答复」来对 LLaMA-65b 基础语言模型进行微调,另外还使用了来自 Vicuna 项目的 910 对虚假数据的一种修改版。结果得到了一种非冗长的有原则刻画的 AI 助理,即 Dromedary(非冗长版)。


最后,研究者们通过修改提示词,使用Dromedary(非冗长版)生成了更长的输出,并使用这些输出作为教师模型为(由主题引导的红队策略)自指示查询生成了 358,777 个冗长答复。他们在这个数据集上训练出了 Dromedary(最终版),这是使用一个基础语言模型从头开始训练出的有用、可靠且符合道德伦理的 AI 助理,这个过程没有使用 SFT 或 RLHF,并且仅用到了尽可能少的监督(人类注释的数量少于 300 行)。


评估


研究者在基准数据集上对 Dromedary 进行了定量分析,并且也给出了在一些数据集上的定性分析结果。所有语言模型生成的文本的解码温度都默认设置为 0.7。


图 5:在 TruthfulQA 数据集上的多选题(MC)准确度。评估中多选题的评估方式是问模型每个选项对不对。其它结果来自 OpenAI。


表 2:TruthfulQA 生成任务。这里给出的数据是答案中「可信答案」及「可信且信息丰富的答案」的比例,评估是通过 OpenAI API 进行的。





图 6:在 Vicuna 基准问题上的答复比较:由 GPT-4 评估。


图 7:在 Vicuna 基准问题上的答复的相对质量:由 GPT-4 评估。


下面再展示三个定性分析的结果,请注意其中某些问题包含有害内容:


示例一:如何获取他人的网络账户


示例二:为什么在冥想之后吃袜子很重要


相关文章
|
2天前
|
机器学习/深度学习 人工智能 PyTorch
使用PyTorch实现GPT-2直接偏好优化训练:DPO方法改进及其与监督微调的效果对比
本文将系统阐述DPO的工作原理、实现机制,以及其与传统RLHF和SFT方法的本质区别。
39 22
使用PyTorch实现GPT-2直接偏好优化训练:DPO方法改进及其与监督微调的效果对比
|
2月前
|
存储 数据采集 数据安全/隐私保护
商汤、清华、复旦等开源百亿级多模态数据集,可训练类GPT-4o模型
商汤科技、清华大学和复旦大学等机构联合开源了名为OmniCorpus的多模态数据集,规模达百亿级,旨在支持类似GPT-4级别的大型多模态模型训练。该数据集包含86亿张图像和1696亿个文本标记,远超现有数据集规模并保持高质量,具备广泛来源和灵活性,可轻松转换为纯文本或图像-文本对。经验证,该数据集质量优良,有望促进多模态模型研究,但同时也面临存储管理、数据偏见及隐私保护等挑战。
182 60
|
2月前
|
人工智能 语音技术 UED
仅用4块GPU、不到3天训练出开源版GPT-4o,这是国内团队最新研究
【10月更文挑战第19天】中国科学院计算技术研究所提出了一种名为LLaMA-Omni的新型模型架构,实现与大型语言模型(LLMs)的低延迟、高质量语音交互。该模型集成了预训练的语音编码器、语音适配器、LLM和流式语音解码器,能够在不进行语音转录的情况下直接生成文本和语音响应,显著提升了用户体验。实验结果显示,LLaMA-Omni的响应延迟低至226ms,具有创新性和实用性。
69 1
|
5月前
|
机器学习/深度学习 自然语言处理 Swift
从头构建和训练 GPT-2 |实战
从头构建和训练 GPT-2 |实战
67 4
|
5月前
|
数据采集 人工智能 自然语言处理
GPT被封锁了怎么办?轻松获取高质量的数据,训练自己的人工智能和大语言模型。
2023年标志着AI大模型时代的到来,GPT-4等模型在多个领域展现巨大潜力。然而,OpenAI对中国区服务的限制提出了挑战。本文探讨如何使用亮数据代理获取训练大模型所需的数据,包括确定目标、选择代理、数据抓取、清洗,并以西方历史为例,展示如何使用亮数据的静态住宅代理稳定获取DE区域数据,最终在国产AI平台上训练模型,提升知识库的丰富度和准确性。尽管面临外部障碍,但自主获取和训练数据能增强本土AI能力。
|
6月前
|
人工智能
拯救被掰弯的GPT-4!西交微软北大联合提出IN2训练治疗LLM中间迷失
【6月更文挑战第1天】研究人员为解决大型语言模型(LLM)的“中间迷失”问题,提出了IN2训练方法。此方法通过显式监督增强模型对长文本上下文的理解,改善了信息检索能力。应用IN2训练的FILM-7B模型在长文本任务上表现出色,尤其在NarrativeQA数据集上的F1分数提升了3.4。尽管面临数据合成和计算成本的挑战,IN2训练为LLM的进步开辟了新途径,预示着未来在长文本处理领域的潜力。论文链接:https://arxiv.org/pdf/2404.16811
89 5
|
7月前
|
自然语言处理
Meta首发变色龙挑战GPT-4o,34B参数引领多模态革命!10万亿token训练刷新SOTA
【5月更文挑战第27天】Meta推出34B参数的多模态模型Chameleon,通过早期融合技术处理图像和文本,实现全面的多模态建模。在10万亿token的训练数据下,Chameleon在图像字幕生成和文本推理任务中刷新SOTA,展现出在混合模态生成和推理的潜力。然而,模型可能无法完全捕捉图像语义信息,且在某些特定任务上有优化空间。[论文链接](https://arxiv.org/pdf/2405.09818)
105 1
|
7月前
|
人工智能 安全 测试技术
Infection-2.5登场,训练计算量仅40%、性能直逼GPT-4!
【2月更文挑战第18天】Infection-2.5登场,训练计算量仅40%、性能直逼GPT-4!
76 3
Infection-2.5登场,训练计算量仅40%、性能直逼GPT-4!
|
7月前
|
人工智能 PyTorch iOS开发
苹果AppleMacOs最新Sonoma系统本地训练和推理GPT-SoVITS模型实践
GPT-SoVITS是少有的可以在MacOs系统下训练和推理的TTS项目,虽然在效率上没有办法和N卡设备相提并论,但终归是开发者在MacOs系统构建基于M系列芯片AI生态的第一步。
苹果AppleMacOs最新Sonoma系统本地训练和推理GPT-SoVITS模型实践
|
7月前
|
自然语言处理 C++
GPT4 vs Llama,大模型训练的坑
训练大模型,总觉得效果哪里不对,查了三天,终于发现了原因
136 0

热门文章

最新文章