NeurIPS 2024:杜克大学&谷歌提出SLED解码框架,无需外部数据与额外训练,有效缓解大语言模型幻觉,提高事实准确性

简介: 在NeurIPS 2024上,杜克大学和谷歌团队提出Self Logits Evolution Decoding(SLED),旨在提高大语言模型(LLMs)的事实准确性。SLED通过对比模型早期层和最终层的logits,利用内部潜在知识增强输出准确性,无需外部知识库或额外微调。实验显示,SLED能显著提升多选题、开放生成等任务的准确性,最高提升达20%,且延迟开销极低。该方法具有创新性和有效性,但也存在实现复杂、计算开销等挑战。

在近期的NeurIPS 2024会议上,杜克大学和谷歌研究团队提出了一种名为Self Logits Evolution Decoding(SLED)的新型解码框架,该框架旨在提高大语言模型(LLMs)的事实准确性,同时无需依赖外部知识库或进行额外的微调。

大语言模型在近年来取得了显著的突破,在各种领域展现出了卓越的性能。然而,这些模型的输出有时可能不可靠或与事实不符,这在实际应用中削弱了它们的可信度和实用性。

为了解决这一问题,研究团队提出了SLED解码框架。该框架通过对比最终层和早期层的输出logits,利用模型内部嵌入的潜在知识来增强输出的准确性。具体而言,SLED通过一种近似梯度的方法,使潜在知识能够指导输出的自我完善,从而有效地提高事实准确性。

SLED的工作原理可以概括为以下几个步骤:

  1. Logits Evolution:SLED首先通过对比早期层和最终层的logits,来估计模型的潜在知识。这一过程基于一个假设,即最终层的logits更接近真实世界的事实分布。

  2. Estimate 𝒫𝑟𝑒𝑎𝑙:通过跟踪logits的演变方向,SLED能够估计出真实世界的事实分布𝒫𝑟𝑒𝑎𝑙。这一估计基于早期层和最终层logits的差异,以及它们与真实世界事实分布的接近程度。

  3. Self Logits Evolution:基于上述估计,SLED通过一个类似于“单步梯度下降”的操作,对最终层的logits进行自我进化。这一操作旨在最小化潜在知识分布和输出分布之间的Kullback-Leibler(KL)散度,从而平衡两者并减轻潜在的偏差。

研究团队在多个基准测试上对SLED进行了广泛的实验,包括LLaMA 2、LLaMA 3和Gemma等不同模型家族,以及从2B到70B的不同规模的模型。实验结果显示,SLED在各种任务上都能够显著提高事实准确性,包括多选题、开放生成和链式思维推理等。

具体而言,SLED在多选题任务上能够将事实准确性提高多达20%,同时保持自然语言的流畅性和几乎可以忽略不计的延迟开销。此外,SLED还能够与其他解码方法灵活结合,进一步增强它们的表现。

正面评价:

  • 创新性:SLED提出了一种新颖的解码方法,通过利用模型内部嵌入的潜在知识来提高输出的准确性,而无需依赖外部知识库或进行额外的微调。
  • 有效性:实验结果显示,SLED在各种任务上都能够显著提高事实准确性,包括多选题、开放生成和链式思维推理等。
  • 灵活性:SLED能够与其他解码方法灵活结合,进一步增强它们的表现。

反面评价:

  • 复杂性:SLED的实现可能相对复杂,需要对模型的内部机制有深入的理解。
  • 计算开销:虽然SLED的延迟开销几乎可以忽略不计,但在实际应用中,其计算开销可能仍然是一个需要考虑的因素。
  • 局限性:SLED的性能可能受到模型规模和配置的影响,对于某些特定任务或模型,其效果可能不如预期。

论文地址:https://arxiv.org/pdf/2411.02433

目录
相关文章
|
Ubuntu Unix Linux
Linux Ubuntu man文档的图文安装教程
Linux Ubuntu man文档的图文安装教程
516 0
|
机器学习/深度学习 人工智能 算法
人工智能中数据组合采样、特征层、算法层的讲解(图文详解)
人工智能中数据组合采样、特征层、算法层的讲解(图文详解)
495 0
|
3月前
|
IDE Go 开发工具
JetBrains GoLand 2025.3 发布 - 为 Go 开发者打造的完整 IDE
JetBrains GoLand 2025.3 (macOS, Linux, Windows) - 为 Go 开发者打造的完整 IDE
170 0
|
算法 机器人 定位技术
ROS中阶笔记(八):机器人SLAM与自主导航—机器人自主导航
ROS中阶笔记(八):机器人SLAM与自主导航—机器人自主导航
1886 0
ROS中阶笔记(八):机器人SLAM与自主导航—机器人自主导航
|
机器学习/深度学习 测试技术
强化学习让大模型自动纠错,数学、编程性能暴涨,DeepMind新作
【10月更文挑战第18天】Google DeepMind提出了一种基于强化学习的自动纠错方法SCoRe,通过自我修正提高大型语言模型(LLMs)的纠错能力。SCoRe在数学和编程任务中表现出色,分别在MATH和HumanEval基准测试中提升了15.6%和9.1%的自动纠错性能。
393 4
|
Java Nacos Sentinel
Spring Cloud Alibaba:一站式微服务解决方案
Spring Cloud Alibaba(简称SCA) 是一个基于 Spring Cloud 构建的开源微服务框架,专为解决分布式系统中的服务治理、配置管理、服务发现、消息总线等问题而设计。
2860 13
Spring Cloud Alibaba:一站式微服务解决方案
|
存储 算法 C语言
C 408—《数据结构》算法题基础篇—链表(上)
408考研——《数据结构》算法题基础篇之链表(上)。
637 25
|
机器学习/深度学习 人工智能 编解码
MV-Adapter:上交大、北航和 VAST 等联合开源多视图一致图像生成模型,将预训练的文生图扩散模型转为多视图生成器
MV-Adapter是由北京航空航天大学、VAST和上海交通大学联合开发的多视图一致图像生成模型。该模型能够将预训练的文本到图像扩散模型转化为多视图图像生成器,支持生成高分辨率的多视角图像。
908 18
MV-Adapter:上交大、北航和 VAST 等联合开源多视图一致图像生成模型,将预训练的文生图扩散模型转为多视图生成器
|
机器学习/深度学习 并行计算 异构计算
WINDOWS安装eiseg遇到的问题和解决方法
通过本文的详细步骤和问题解决方法,希望能帮助你顺利在 Windows 系统上安装和运行 EISeg。
756 2
|
算法 安全 网络协议
政务网站使用的国密SSL证书申请
国密SSL证书采用我国自主研发的SM2公钥算法体系及国密SSL安全协议,符合国家政策与法规要求,提供身份验证、数据加密和完整性保护,广泛应用于政府机构的信息系统,确保政务数据安全。以下是申请步骤简介。
政务网站使用的国密SSL证书申请

热门文章

最新文章