四年了,基础开源模型没有真正进步,指令调优大模型评估惊人发现

简介: 四年了,基础开源模型没有真正进步,指令调优大模型评估惊人发现


指令调优大语言模型的性能到底怎么样呢?本研究提出了一个全新的评估套件,对它们在解决问题、写作和对齐人类价值观等方面进行了全面评估,结果可能超乎你的预料。

指令调优大语言模型的出现标志着 NLP 领域迎来一个重要转折点。从 ChatGPT 这类会话助手到解决复杂问题,这些指令调优大模型的变革能力在应用中瞩目。此类模型还包括 GPT-4,它的精通范围不局限于语言理解,还能解决数学、编码、医学和法律等不同领域的任务。


虽然它们具有非凡的能力和适应性,但其全部潜力仍有待全面了解。这种情况主要源于许多模型的黑箱性质以及目前缺乏深入和全面的评估研究。


为应对这些挑战,并对模型的能力进行更加深入的了解,新加坡科技设计大学和阿里达摩院(新加坡)的研究者提出了一个新的评估套件 INSTRUCTEVAL。该套件用于对指令调优大语言模型进行全面评估,并且超越了早期评估方法的限制。评估策略在其系统和整体方法上与之前的研究大不相同,不仅审查了模型的解决问题和写作能力,还严格评判了它们与人类价值观的一致性。




评估方法的核心是考虑影响模型性能的各种因素,包括开发模型的预训练基础、用于改进模型的指令调优数据的性质和质量、以及采用的具体训练方法。通过对这些因素慎微的探究,研究者试图阐明决定模型性能的关键因素,进而理解如何更好地利用这些模型来满足我们的需求。


本文的研究发现强调了指令数据质量对模型性能缩放的关键影响。开源模型已经展现出令人惊叹的写作能力,这表明它们有潜力为各种领域做出非凡贡献。当然,本文的研究也有相当大的改进空间,特别是在模型的解决问题能力和与人类价值观的一致性方面。这一观察强调了整体评估和模式开发的重要性。


开源指令 LLM


研究者在下表 1 中收集了开源基础 LLM 的细节,并考虑到了模型架构、大小和数据规模等预训练因素。



可以说,指令调优的核心是用于训练基础 LLM 的指令数据,比如质量、数量、多样性和格式等都是可以决定指令模型行为的因素。研究者在下表 2 中收集了一些开源指令数据集的细节。



在考虑到为指令 LLM 提供支持的预训练基础模型和数据集之后,研究者在下表 3 中提供了开源指令模型的整体概述。



评估指令 LLM 面临哪些挑战?


首先是难以理解的黑箱模型。虽然 GPT-4 等指令 LLM 获得了广泛关注,但很多模型都选择闭源并仅限于通过 API 访问。此外,闭源模型的创建者往往不透露架构、指令数据集和训练方法等模型细节。


其次是压倒性的开源模型,在 GPT-4 等闭源模型令人印象深刻的演示刺激下,开源社区已经展开了狂热的模型开发,以期实现语言模型技术的民主化。虽然研究者对此备受鼓舞,但却深深担忧新模型的开发速度可能超过评估研究的进展。


接着是指令调优的多重考虑。为了全面了解指令 LLM,需要我们考虑可能影响它们行为的多样化因素,比如预训练、指令数据和训练方法。虽然以往的工作在某些领域进行过深入研究,比如指令数据集。但研究者认为应该综合考虑多种因素才能达到更完整的理解。


最后是广泛的能力范围。虽然指令 LLM 研究取得进展,我们自然能观察到它们通用能力的增强。最近的研究表明,LLM 可以通过指令调优来解决很多领域的问题,甚至可以使用外部工具来增强它们的能力。因此可以预见到,对指令 LLM 进行综合评估变得越来越重要,同时也越来越具有挑战性。


INSTRUCTEVAL 基准套件


为了解决评估指令 LLM 的挑战,本文引入一个更全面的评估套件 INSTRUCTEVAL。为了涵盖广泛的通用能力,研究者在解决问题、写作和对齐人类价值观方面对模型进行了测试,具体如下图 1 所示。



评估解决问题的能力


为了评估指令 LLM 解决问题的能力,研究者采用了多个基准,涵盖了现实世界中不同主题的测试、复杂的指令、算术、编程和因果关系。为了在基准上表现良好,模型需要世界知识、多步推理的能力、创造力等。


评估写作能力


除了解决问题的能力,指令 LLM 在写作任务中展现的能力也十分具有前景,如写信或伦理辩论。研究评估了不同写作场景下的通用写作能力,包括信息性写作、专业写作、议论文写作和创意写作。议论文写作需要模型对伦理和社会问题的立场进行论述,而创意写作涉及多种写作格式,如故事、诗歌和歌曲。


为了构建写作基准 IMPACT,研究者为每个写作类别标注了 50 个 prompt。但是写作任务的答案很长,且通常没有唯一正确答案,这对严格的标准化评估来说是个大难题。其次,由于成本高、不同评价人之间可能存在不一致以及不可复现等原因,人工评价是不可扩展的。


评估与人类价值观的一致性


为研究指令调优对模型识别符合大众偏好需求的能力的影响,研究者在 INSTRUCTEVAL 中整合了有用、诚实和无害 (Helpful、Honest 和 Harmless) 基准,以评估人类价值观对指示模型的理解。这些值包括:


  • 有用:始终致力于人类最大利益。
  • 诚实:始终尽力传达准确的信息,避免欺骗人类。
  • 无害:始终尽力避免任何伤害人类的行为。


下表 8 中列出了每个类别的例子:



评估结果


解决问题


为了评估解决问题的能力,研究者在下表 5 中的基础上对 10 多种开源模型进行了评估。此外,为了全面分析模型性能,他们充分考虑了指令 LLM 的预训练基础、指令数据和训练方法。


首先,由于指令调优 LLM 是从它们各自的基础 LLM 中训练而来,因此在分析整体性能时考虑预训练基础至关重要。研究者观察到,坚实的预训练基础是在解决问题任务上表现出色的必要条件。其次,研究者发现虽然与预训练相比,指令调优对性能的影响更大,但它也并不是「灵丹妙药」。最后,训练方法也会影响模型性能和计算效率。研究者相信,参数高效的训练方法更有潜力实现扩展性更强和更高效的指令调优。



这些结果也引起了业内人士的关注,前谷歌大脑高级研究科学家、RekaAILabs 联合创始人兼首席科学家 Yi Tay 发现,「近来关于新基础开源模型的讨论很多,但自 2019 年的 T5 模型以来却没有出现真正的进步。」


他总结道,Flan-T5 击败了一切,包括 Alpaca(基于 LLama)、Flan-Alpaca 以及 Mosiac-Chat/MPT、Dolly。如果你从「计算匹配」(compute-match)的角度来看,则编码器 - 解码器应该处于不同(较低)的权重级别。基本上,Flan-T5 3 B 像是一个 1B+ 解码器,Flan-UL2 更像一个 8B+ 模型。从这个角度来看,差距如此之大。此外 Flan-UL2 在大多数指标上超越了 Alpaca-Lora 30B,尽管前者要小得多,计算量实际上也少数倍。


Yi Tay 表示,这并不完全是 Flan 系列模型,更多的是相关基础模型。关键是基础的 T5 模型,具有 1 万亿 token。此外还有多语言的 mT5 和 uMT5 模型,它们也都表现非常好。基础模型不是长上下文的,但 Flan 弱化了这一点。T5/UL2 的弱点是多样性较弱,仅接受 C4 训练。但令人惊讶的是自 2019 年以来 C4-only 基线模型的表现如此地强大。


最后可能在计算匹配时,T5 >> Llama。唯一的问题是 T5 没有 30B 和 65B 的版本。


推特:https://twitter.com/YiTayML/status/1668302949276356609?s=20


写作能力


研究者在下表 6 中提供了写作能力的评估结果。整体来说,研究者发现模型在信息性、专业性、议论文和创意性写作中表现一致,展现出了它们的通用写作能力。令人惊讶的是,具有更强问题解决能力的模型可能不具备更好的写作能力。值得注意的是,Flan-Alpaca 的问题解决能力较弱,但经过 GPT-3 的合成指令调优后,其在写作方面明显优于 Flan-T5。


研究者假设,尽管合成数据中存在着潜在噪声,但合成指令的更高多样性可以更好地泛化到现实世界的写作 prompt。与 Flan-T5,Flan-Alpaca 的相关性分数有了更显著提高,由此证明了这一点。开源指令 LLM 可以生成与 ChatGPT 具有可比相关性的答案,但在连贯性方面存在不足。这表明开源模型可以理解写作 prompt,但在生成输入的连贯性方面有所欠缺。



与人类价值观的一致性


为了评估指令 LLM 与人类价值观、偏好的一致性,研究者在下表 7 中对一些开源模型进行了评估。他们首先发现,与无害相比,基础模型通常更与有用和诚实对齐。


此外 Flan-T5 和 Flan-Alpaca 等基于 T5 的模型经过指令调优之后,更倾向于有用而非诚实。这些结果强调了提前确定指令 LLM 的对齐分布非常具有挑战性,即使在提供特定指令时也是如此。



通过分析下表 8 中的模型预测案例研究,研究者发现在保持指令 LLM 和人类价值观一致方面还有非常大的改进空间。



更多技术和实验细节请参阅原论文。

相关文章
|
消息中间件 SQL JSON
Flink问题之source并行度不同导致任务没有数据落地如何解决
Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。本合集提供有关Apache Flink相关技术、使用技巧和最佳实践的资源。
514 0
|
人工智能 语音技术 UED
仅用4块GPU、不到3天训练出开源版GPT-4o,这是国内团队最新研究
【10月更文挑战第19天】中国科学院计算技术研究所提出了一种名为LLaMA-Omni的新型模型架构,实现与大型语言模型(LLMs)的低延迟、高质量语音交互。该模型集成了预训练的语音编码器、语音适配器、LLM和流式语音解码器,能够在不进行语音转录的情况下直接生成文本和语音响应,显著提升了用户体验。实验结果显示,LLaMA-Omni的响应延迟低至226ms,具有创新性和实用性。
456 1
|
数据采集 人工智能 自然语言处理
Llama3训练每3小时崩一次?豆包大模型、港大团队为脆皮万卡训练提效
【8月更文挑战第29天】豆包大模型与香港大学团队合作研发的ByteCheckpoint系统,旨在应对大语言模型(LLM)开发中的数据规模庞大、计算资源昂贵及训练过程不稳定的挑战。该系统通过统一检查点机制、细粒度资源管理和多模态数据处理等创新技术,显著提升了LLM的训练效率和模型性能,并已在多个实际场景中取得显著效果。
267 4
|
11月前
|
人工智能 Serverless 开发者
最佳实践 | 轻松部署,即刻触达 Qwen2.5 的飞一般的体验
通过阿里云函数计算(FC)部署Ollama和Open WebUI,实现Qwen2.5模型的托管与交互。
|
10月前
|
人工智能 测试技术
Valley:字节跳动开源小体积的多模态模型,在小于 10B 参数的模型中排名第二
Valley 是字节跳动推出的多模态大模型,能够处理文本、图像和视频数据,在电子商务和短视频领域表现优异,并在 OpenCompass 测试中排名第二。
533 10
Valley:字节跳动开源小体积的多模态模型,在小于 10B 参数的模型中排名第二
|
11月前
|
人工智能 安全 开发者
OpenAI o1强推理能提升安全性?长对话诱导干翻o1
最近,一项名为《Derail Yourself: Multi-turn LLM Jailbreak Attack through Self-discovered Clues》的研究揭示了大型语言模型(LLM)在多轮交互中的安全漏洞。该研究提出了一种基于行动者网络理论的新型攻击方法ActorAttack,通过构建语义相关行动者网络,生成多样化攻击路径,隐藏有害意图并利用LLM知识发现通向有害目标的路径。研究表明,ActorAttack在多轮攻击中表现优于现有方法,引发了对LLM安全性的担忧。研究团队计划发布SafeMTData数据集,以帮助训练更安全的LLM,并强调跨学科合作的重要性。
258 8
|
11月前
|
人工智能 智能硬件
SPAR:智谱 AI 推出自我博弈训练框架,基于生成者和完善者两个角色的互动,提升了执行准确度和自我完善能力
SPAR 是智谱团队推出的自我博弈训练框架,旨在提升大型语言模型在指令遵循方面的能力,通过生成者和完善者的互动以及树搜索技术优化模型响应。
314 0
SPAR:智谱 AI 推出自我博弈训练框架,基于生成者和完善者两个角色的互动,提升了执行准确度和自我完善能力
|
人工智能 自然语言处理 算法
GPT-4无师自通预测蛋白质结构登Nature子刊!LLM全面进军生物学,AlphaFold被偷家?
【9月更文挑战第17天】近日,《自然》子刊发表的一篇论文展示了GPT-4在预测蛋白质结构方面的惊人能力,这一突破不仅揭示了大型语言模型在生物学领域的巨大潜力,还可能影响传统预测工具如AlphaFold的地位。研究人员发现,GPT-4仅通过自然语言处理就能准确预测蛋白质的三维结构,包括常见的氨基酸序列和复杂的α-螺旋结构。实验结果显示,其预测精度与实际结构非常接近。这一成果意味着自然语言处理技术也可应用于生物学研究,但同时也引发了关于其局限性和对现有工具影响的讨论。论文详情见:https://www.nature.com/articles/s41598-024-69021-2
277 8
|
监控 数据可视化 数据挖掘
一文带你了解如何通过数据可视化与仪表盘提升工作效率?
在数据驱动的时代,快速、准确地从海量信息中提取有用部分成为核心挑战。**数据可视化**和**仪表盘**是解决这一问题的有效工具。它们将复杂数据转化为直观图表,帮助用户快速掌握关键指标、跟踪进展,并做出更好决策。本文将介绍数据可视化的常见方法、仪表盘的作用,并通过经典案例展示这些工具的实际应用。
360 0
|
开发者 Windows
什么是DRM以及为何需要移除它?
数字版权管理(DRM)是一种用于保护数字内容的技术,它限制了用户对特定内容的使用和传播。DRM技术的目的是在保护知识产权的同时,防止非法复制和盗版。然而,有些人认为DRM限制了用户的合法权益,因此需要将其移除。
2925 1