用自洽性提升大模型推理能力,谷歌解答基准中75%数学问题,比GPT-3提升20%

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 用自洽性提升大模型推理能力,谷歌解答基准中75%数学问题,比GPT-3提升20%

近日,谷歌研究者提出一种名为「self-consistency」(自洽性)的简单策略,不需要额外的人工注释、训练、辅助模型或微调,可直接用于大规模预训练模型。


尽管语言模型在一系列 NLP 任务中取得了显著的成功,但它们的推理能力往往不足,仅靠扩大模型规模不能解决这个问题。基于此,Wei et al. (2022) 提出了思维提示链(chain of thought prompting),提示语言模型生成一系列短句,这些短句模仿一个人在解决推理任务时可能采用的推理过程。


现在来自 Google Research 的研究者们提出了一种称为「自洽性(self-consistency)」的简单策略,它显著提高了大型语言模型的推理准确率。


论文地址:https://arxiv.org/pdf/2203.11171.pdf


该论文的作者之一、Google Brain 的创始成员 Quoc Le 今天在推特上发文表示:这种自洽方法能够解决 GSM8K 基准中 75% 的数学问题,大幅超越现有方法。


图源:https://twitter.com/quocleix/status/1513632492124663808


简单来说,复杂的推理任务通常有多个能得到正确答案的推理路径,自洽方法通过思维提示链从语言模型中采样一组不同的推理路径,然后返回其中最自洽的答案。


该方法在一系列算术和常识推理基准上评估自洽性,可以稳健地提高各种语言模型的准确性,而无需额外的训练或辅助模型。当与最近的大型语言模型 PaLM-540B 结合使用时,自洽方法将多个基准推理任务的性能提高到 SOTA 水平。


该方法是完全无监督的,预训练语言模型直接可用,不需要额外的人工注释,也不需要任何额外的训练、辅助模型或微调。


该研究在三种大型语言模型上评估一系列算术推理和常识推理任务的自洽性,包括 LaMDA-137B (Thoppilan et al., 2022)、PaLM-540B (Chowdhery et al., 2022) 和 GPT-3 175B (Brown et al., 2020)。研究者发现,对于这几种规模不同的语言模型,自洽方法都能显著提高其推理能力。与通过贪心解码(Wei et al., 2022)生成单一思维链相比,自洽方法有助于在所有推理任务中显著提高准确性,如下图 2 所示。


多样化推理路径上的自洽


人类的一个突出特征是思维方式不同。人们会很自然地假设,在需要深思熟虑的任务中,可能有几种解决方法,所有这些方法都会得出相同的正确答案。因此,研究者建议可以通过从语言模型解码器采样以在语言模型中模拟这一过程。


如下表 1 所示,一个模型可以为一个数学问题生成多个可能的回答,这些回答最终得出相同的正确答案(如输出 2、4 和 5)。由于语言模型不是完美的推理器,模型也可能产生错误的推理路径或者在某一个推理步骤中出错(例如输出 1 和 3 中),这种解决方案不太可能得出相同的答案( 表 1 中的 26 和 14)。


也就是说,当假设推理过程正确,即使它们是多样化的,在最终答案中往往比不正确的推理过程具有更高的一致性。


研究者提出通过一种自洽(self-consistency)方法来利用这种直觉。具体步骤如下:


首先,使用一组手动编写的思维链示例对语言模型进行提示;

接着,从语言模型的解码器中采样一组候选输出,生成一组不同的候选推理路径;

最后,通过在生成的答案中选择最自洽的答案来集成结果。


在实验调查中,研究者发现思维链提示与相结合,会比单独使用仅考虑单一生成路径的思维链产生好得多的结果。


实验结果


研究者进行了一系列实验,以在不同的算术和常识推理基准上将提出的自洽方法与现有方法进行比较。结果发现,该方法极大地提高了每种语言模型的推理准确性,涵盖了广泛的模型尺度。


具体地,他们评估了不同推理路径上的自洽性,即自洽性(多路径)(Multipath)。结果取 10 次运行的平均值,在每次运行中独立于解码器对 40 个输出进行采样。比较的基线是贪心解码单个思想链,称为贪心解码(Single-path),之前已被用于大型语言模型中的解码。


算术推理结果如下表 2 所示。对于 LaMDA-137B,自洽性策略在每个任务上较贪心解码(Single-path)均实现了显著的性能提升,在 AddSub、ASDiv、AQuA 和 GSM8K 任务上获得接近 10% 绝对准确率提升,在 MultiArith 和 SVAMP 任务上分别提升了 23.9% 和 14.4%。


对于更大的 PaLM540B 模型,自洽性策略显著提升性能,在 ASDiv、AQuA、SVAMP 和 GSM8K 上实现了 7.9%、12.5%、7.6% 和 17.9% 的显著增益。


常识推理结果如下表 3 所示。对于 LaMDA-137B 模型,自洽性策略显著提升所有任务的准确率,其中 StrategyQA 和 CommonsenseQA 的绝对准确率提升了 2%-5%,ARC easy set 和 ARC challenge set 的绝对准确率分别提升了 4.0% 和 4.7%。


同样地,更大的 PaLM540B 模型也实现了持续收益,StrategyQA 上提升了 6.3%,ARC-challenge 上提升了 3.5%。


下图 3 中通过对来自解码器的不同数量的推理路径进行采样,展示了自洽性与贪心解码(Single-path)的性能比较。可以看到,采样更多数量(如 40 个)的推理路径始终会产生更好的性能,再次强调了在推理路径中引入多样性的重要性。


该研究将自洽方法和基于集成的方法进行小样本学习来比较二者的性能。结果如下表 5 所示,与自洽方法相比,基于集成的方法获得的增益要小得多。


另一种提高生成质量的常用方法是采样排序(sample-and-rank),其中从解码器中采样多个序列,然后根据每个序列的对数概率或基于额外训练的重排序器进行排序。


该研究使用 GPT-3 模型得到了如下图 4 所示的结果。虽然采样排序方法通过额外的采样序列和排序提高了准确性,但与自洽方法相比,增益要小得多。


更多细节内容请参阅论文原文。

相关文章
|
1月前
|
负载均衡 测试技术 调度
大模型分布式推理:张量并行与流水线并行技术
本文深入探讨大语言模型分布式推理的核心技术——张量并行与流水线并行。通过分析单GPU内存限制下的模型部署挑战,详细解析张量并行的矩阵分片策略、流水线并行的阶段划分机制,以及二者的混合并行架构。文章包含完整的分布式推理框架实现、通信优化策略和性能调优指南,为千亿参数大模型的分布式部署提供全面解决方案。
469 4
|
1月前
|
机器学习/深度学习 缓存 监控
大模型推理优化技术:KV缓存机制详解
本文深入探讨了大语言模型推理过程中的关键技术——KV缓存(Key-Value Cache)机制。通过对Transformer自注意力机制的分析,阐述了KV缓存的工作原理、实现方式及其对推理性能的显著优化效果。文章包含具体的代码实现和性能对比数据,为开发者理解和应用这一关键技术提供实践指导。
807 8
|
3月前
|
并行计算 PyTorch 调度
大模型推理显存优化系列(4):eLLM-大模型推理中的弹性显存管理和优化
本文简要介绍eLLM相关技术挑战、总体设计和初步性能评估
|
3月前
|
负载均衡 并行计算 异构计算
大模型训练推理优化(5): FlexLink —— NVLink 带宽无损提升27%
本期我们将介绍蚂蚁集团ASystem团队在大模型通信优化上的新工作FlexLink,旨在通过动态聚合多路通信(NVLink,PCIe,RDMA),在H800等典型硬件上将典型通信算子如(AllReduce, All Gather)吞吐提升最高达27%,尤其适合大模型长序列推理(Prefill阶段),及训练等通信密集的带宽bound场景。方案对精度无影响。
|
1月前
|
机器学习/深度学习 缓存 自然语言处理
【万字长文】大模型训练推理和性能优化算法总结和实践
我们是阿里云公共云 AI 汽车行业大模型技术团队,致力于通过专业的全栈 AI 技术推动 AI 的落地应用。
1314 38
【万字长文】大模型训练推理和性能优化算法总结和实践
|
4月前
|
消息中间件 人工智能 资源调度
云上AI推理平台全掌握 (5):大模型异步推理服务
针对大模型推理服务中“高计算量、长时延”场景下同步推理的弊端,阿里云人工智能平台 PAI 推出了一套基于独立的队列服务异步推理框架,解决了异步推理的负载均衡、实例异常时任务重分配等问题,确保请求不丢失、实例不过载。
|
4月前
|
存储 机器学习/深度学习 缓存
阿里云AirCache技术实现多模态大模型高效推理加速,入选国际顶会ICCV2025
阿里云研发的AirCache技术被计算机视觉顶会ICCV2025收录,该技术通过激活跨模态关联、优化KV缓存压缩策略,显著提升视觉语言模型(VLMs)的推理效率与存储性能。实验表明,在保留仅10%视觉缓存的情况下,模型性能下降小于1%,解码延迟最高降低66%,吞吐量提升达192%。AirCache无需修改模型结构,兼容主流VLMs,已在教育、医疗、政务等多个行业落地应用,助力多模态大模型高效赋能产业智能化升级。
410 1
|
4月前
|
人工智能 缓存 资源调度
云上AI推理平台全掌握 (4):大模型分发加速
为应对大模型服务突发流量场景,阿里云人工智能平台 PAI 推理服务 PAI-EAS 提供本地目录内存缓存(Memory Cache)的大模型分发加速功能,有效解决大量请求接入情况下的推理延迟。PAI-EAS 大模型分发加速功能,零代码即可轻松完成配置。
|
1月前
|
机器学习/深度学习 存储 并行计算
大模型推理加速技术:FlashAttention原理与实现
本文深入解析大语言模型推理加速的核心技术——FlashAttention。通过分析传统注意力机制的计算瓶颈,详细阐述FlashAttention的IO感知算法设计、前向反向传播实现,以及其在GPU内存层次结构中的优化策略。文章包含完整的CUDA实现示例、性能基准测试和实际部署指南,为开发者提供高效注意力计算的全套解决方案。
336 10

热门文章

最新文章