NeurIPS 2024:杜克大学&谷歌提出SLED解码框架,无需外部数据与额外训练,有效缓解大语言模型幻觉,提高事实准确性

简介: 在NeurIPS 2024上,杜克大学和谷歌团队提出Self Logits Evolution Decoding(SLED),旨在提高大语言模型(LLMs)的事实准确性。SLED通过对比模型早期层和最终层的logits,利用内部潜在知识增强输出准确性,无需外部知识库或额外微调。实验显示,SLED能显著提升多选题、开放生成等任务的准确性,最高提升达20%,且延迟开销极低。该方法具有创新性和有效性,但也存在实现复杂、计算开销等挑战。

在近期的NeurIPS 2024会议上,杜克大学和谷歌研究团队提出了一种名为Self Logits Evolution Decoding(SLED)的新型解码框架,该框架旨在提高大语言模型(LLMs)的事实准确性,同时无需依赖外部知识库或进行额外的微调。

大语言模型在近年来取得了显著的突破,在各种领域展现出了卓越的性能。然而,这些模型的输出有时可能不可靠或与事实不符,这在实际应用中削弱了它们的可信度和实用性。

为了解决这一问题,研究团队提出了SLED解码框架。该框架通过对比最终层和早期层的输出logits,利用模型内部嵌入的潜在知识来增强输出的准确性。具体而言,SLED通过一种近似梯度的方法,使潜在知识能够指导输出的自我完善,从而有效地提高事实准确性。

SLED的工作原理可以概括为以下几个步骤:

  1. Logits Evolution:SLED首先通过对比早期层和最终层的logits,来估计模型的潜在知识。这一过程基于一个假设,即最终层的logits更接近真实世界的事实分布。

  2. Estimate 𝒫𝑟𝑒𝑎𝑙:通过跟踪logits的演变方向,SLED能够估计出真实世界的事实分布𝒫𝑟𝑒𝑎𝑙。这一估计基于早期层和最终层logits的差异,以及它们与真实世界事实分布的接近程度。

  3. Self Logits Evolution:基于上述估计,SLED通过一个类似于“单步梯度下降”的操作,对最终层的logits进行自我进化。这一操作旨在最小化潜在知识分布和输出分布之间的Kullback-Leibler(KL)散度,从而平衡两者并减轻潜在的偏差。

研究团队在多个基准测试上对SLED进行了广泛的实验,包括LLaMA 2、LLaMA 3和Gemma等不同模型家族,以及从2B到70B的不同规模的模型。实验结果显示,SLED在各种任务上都能够显著提高事实准确性,包括多选题、开放生成和链式思维推理等。

具体而言,SLED在多选题任务上能够将事实准确性提高多达20%,同时保持自然语言的流畅性和几乎可以忽略不计的延迟开销。此外,SLED还能够与其他解码方法灵活结合,进一步增强它们的表现。

正面评价:

  • 创新性:SLED提出了一种新颖的解码方法,通过利用模型内部嵌入的潜在知识来提高输出的准确性,而无需依赖外部知识库或进行额外的微调。
  • 有效性:实验结果显示,SLED在各种任务上都能够显著提高事实准确性,包括多选题、开放生成和链式思维推理等。
  • 灵活性:SLED能够与其他解码方法灵活结合,进一步增强它们的表现。

反面评价:

  • 复杂性:SLED的实现可能相对复杂,需要对模型的内部机制有深入的理解。
  • 计算开销:虽然SLED的延迟开销几乎可以忽略不计,但在实际应用中,其计算开销可能仍然是一个需要考虑的因素。
  • 局限性:SLED的性能可能受到模型规模和配置的影响,对于某些特定任务或模型,其效果可能不如预期。

论文地址:https://arxiv.org/pdf/2411.02433

目录
相关文章
|
人工智能 搜索推荐 算法
爱思唯尔的KBS——模板、投稿、返修、接收的总结
爱思唯尔的KBS——模板、投稿、返修、接收的总结
5725 3
|
Ubuntu Unix Linux
Linux Ubuntu man文档的图文安装教程
Linux Ubuntu man文档的图文安装教程
573 0
|
机器学习/深度学习 人工智能 算法
人工智能中数据组合采样、特征层、算法层的讲解(图文详解)
人工智能中数据组合采样、特征层、算法层的讲解(图文详解)
540 0
|
算法 机器人 定位技术
ROS中阶笔记(八):机器人SLAM与自主导航—机器人自主导航
ROS中阶笔记(八):机器人SLAM与自主导航—机器人自主导航
2113 0
ROS中阶笔记(八):机器人SLAM与自主导航—机器人自主导航
|
5月前
|
IDE Go 开发工具
JetBrains GoLand 2025.3 发布 - 为 Go 开发者打造的完整 IDE
JetBrains GoLand 2025.3 (macOS, Linux, Windows) - 为 Go 开发者打造的完整 IDE
251 0
|
10月前
|
人工智能 测试技术 编译器
Python语言从2.7到3.14的能力变化与演进逻辑
Python自2008年进入3.0时代以来,经历了持续演进与革新。十六年间,从语言设计、标准库优化到性能提升、虚拟机改进,Python不断适应人工智能、云计算和微服务等技术的发展需求。本文全面梳理了Python 3发布以来的重要变化,涵盖编程风格现代化、类型系统完善、类库生态调整、性能优化突破以及虚拟机技术创新等多个维度,展示了Python如何在保持简洁易用的同时,实现高效、稳定和可扩展的工程能力。未来,Python将在性能、类型安全和云原生等方面持续进化,进一步巩固其在现代软件开发中的核心地位。
656 30
|
机器学习/深度学习 测试技术
强化学习让大模型自动纠错,数学、编程性能暴涨,DeepMind新作
【10月更文挑战第18天】Google DeepMind提出了一种基于强化学习的自动纠错方法SCoRe,通过自我修正提高大型语言模型(LLMs)的纠错能力。SCoRe在数学和编程任务中表现出色,分别在MATH和HumanEval基准测试中提升了15.6%和9.1%的自动纠错性能。
444 4
|
机器学习/深度学习 人工智能 自然语言处理
多模态AI核心技术:CLIP与SigLIP技术原理与应用进展
近年来,多模态表示学习在人工智能领域取得显著进展,CLIP和SigLIP成为里程碑式模型。CLIP由OpenAI提出,通过对比学习对齐图像与文本嵌入空间,具备强大零样本学习能力;SigLIP由Google开发,采用sigmoid损失函数优化训练效率与可扩展性。两者推动了多模态大型语言模型(MLLMs)的发展,如LLaVA、BLIP-2和Flamingo等,实现了视觉问答、图像描述生成等复杂任务。这些模型不仅拓展了理论边界,还为医疗、教育等领域释放技术潜力,标志着多模态智能系统的重要进步。
2471 13
多模态AI核心技术:CLIP与SigLIP技术原理与应用进展
|
Java Nacos Sentinel
Spring Cloud Alibaba:一站式微服务解决方案
Spring Cloud Alibaba(简称SCA) 是一个基于 Spring Cloud 构建的开源微服务框架,专为解决分布式系统中的服务治理、配置管理、服务发现、消息总线等问题而设计。
3088 13
Spring Cloud Alibaba:一站式微服务解决方案
|
存储 算法 C语言
C 408—《数据结构》算法题基础篇—链表(上)
408考研——《数据结构》算法题基础篇之链表(上)。
791 25

热门文章

最新文章