语义熵识破LLM幻觉!牛津大学新研究登Nature

简介: 【7月更文挑战第22天】牛津大学研究者在Nature发布"使用语义熵检测大模型幻觉"。语义熵新方法有效识别大模型(LLMs)生成的不实或误导信息,通过聚类分析不同回答的语义等价性并计算概率,展示超越基线的幻觉检测能力,提升LLMs的可靠性。

近日,一项由牛津大学研究人员领衔的突破性研究在人工智能领域引起了广泛关注。该研究以“Detecting hallucinations in large language models using semantic entropy”为题,发表在了国际顶级学术期刊《自然》(Nature)上。这项研究提出了一种名为“语义熵”的方法,用于检测大型语言模型(LLMs)中的幻觉(hallucinations),为提高LLMs的可靠性和准确性提供了新的思路。

LLMs是近年来人工智能领域的重要突破,它们能够生成连贯的文本,回答问题,甚至进行对话。然而,随着LLMs的广泛应用,人们发现它们有时会产生不准确或误导性的回答,这被称为幻觉。幻觉是指LLMs生成的内容与提供的信息不符,或者完全是错误的。这给LLMs的可靠性和实用性带来了挑战。

为了解决这个问题,研究人员提出了一种基于语义熵的方法来检测幻觉。语义熵是一种用于衡量文本中不确定性的指标。在这项研究中,研究人员使用语义熵来衡量LLMs生成的文本中是否存在不一致或任意性。

具体来说,研究人员首先生成了多个可能的回答,然后使用一种基于语义等价性的算法将这些回答聚类。如果两个回答在语义上是等价的,即它们表达了相同的意思,那么它们将被归为同一个聚类。然后,研究人员计算了每个聚类的概率,并使用这些概率来估计语义熵。

通过比较语义熵和基线方法(如简单的熵估计)的性能,研究人员发现语义熵在检测幻觉方面具有显著优势。语义熵能够更准确地识别出LLMs生成的文本中的不一致性,从而帮助系统避免回答可能产生幻觉的问题。

此外,研究人员还发现,语义熵在检测幻觉时具有鲁棒性,即它对不同的LLMs和领域都有效。这表明语义熵可以成为一种通用的方法,用于提高各种LLMs的可靠性和准确性。

然而,这项研究也存在一些局限性。首先,语义熵的计算需要大量的计算资源和时间,这可能会限制其在实际应用中的可行性。其次,语义熵的准确性取决于对语义等价性的准确判断,而这仍然是一个具有挑战性的问题。

论文地址:https://www.nature.com/articles/s41586-024-07421-0

目录
相关文章
|
6月前
|
机器学习/深度学习 自然语言处理 搜索推荐
如何避免LLM的“幻觉”(Hallucination)
生成式大语言模型(LLM)可以针对各种用户的 prompt 生成高度流畅的回复。然而,大模型倾向于产生幻觉或做出非事实陈述,这可能会损害用户的信任。
112 1
|
12天前
|
人工智能 自然语言处理 数据库
基于RAG和LLM的水利知识问答系统研究
随着全球水资源紧张加剧,我国面临严峻的水资源管理挑战。《十四五规划》提出构建智慧水利体系,通过科技手段提升水情测报和智能调度能力。基于大语言模型(LLM)的水利智能问答系统,利用自然语言处理技术,提供高效、准确的水利信息查询和决策支持,助力水资源管理智能化。该系统通过RAG技术和Agent功能,实现了对水利知识的深度理解和精准回答,适用于水利知识科普、水务治理建议及灾害应急决策等多个场景,推动了水利行业的信息化和智能化发展。
|
19天前
|
机器学习/深度学习 人工智能
昂贵LLM的救星?Nature新研究提出新型忆阻器,比Haswell CPU高效460倍
【10月更文挑战第11天】《自然》杂志最新研究介绍了一种新型忆阻器——线性对称自选14位动能分子忆阻器。该技术在神经网络训练和推理中表现出线性对称的权重更新、460倍于现有CPU的高能效及多级编程能力,有望大幅提升AI硬件的能源效率。尽管前景广阔,但仍需解决制造工艺复杂和环境影响等问题。
25 1
|
3天前
|
JSON 数据可视化 NoSQL
基于LLM Graph Transformer的知识图谱构建技术研究:LangChain框架下转换机制实践
本文介绍了LangChain的LLM Graph Transformer框架,探讨了文本到图谱转换的双模式实现机制。基于工具的模式利用结构化输出和函数调用,简化了提示工程并支持属性提取;基于提示的模式则为不支持工具调用的模型提供了备选方案。通过精确定义图谱模式(包括节点类型、关系类型及其约束),显著提升了提取结果的一致性和可靠性。LLM Graph Transformer为非结构化数据的结构化表示提供了可靠的技术方案,支持RAG应用和复杂查询处理。
24 2
基于LLM Graph Transformer的知识图谱构建技术研究:LangChain框架下转换机制实践
|
2月前
|
安全 测试技术
世界模型又近了?MIT惊人研究:LLM已模拟现实世界,绝非随机鹦鹉!
【9月更文挑战第14天】麻省理工学院最近的研究揭示了大型语言模型(LLM)展现出的新潜能,其不仅能模仿真实环境,更在一定程度上理解并模拟程序在特定环境下的运作。通过使用Transformer模型并结合特定探测分类器,研究团队发现模型能逐步掌握程序的形式语义。为了验证这一发现,团队创建了一个独特的干预基准测试,进一步证实了模型的仿真能力,为世界模型的发展提供了新方向。尽管存在模型可能仅习得统计规律而非真正理解语义的争议,这项研究依然为理解复杂系统提供了新工具与视角。论文详情见:https://arxiv.org/abs/2305.11169。
36 1
|
3月前
|
存储 人工智能 自然语言处理
|
5月前
To Believe or Not to Believe?DeepMind新研究一眼看穿LLM幻觉
【6月更文挑战第17天】DeepMind研究揭示了量化大型语言模型(LLMs)认知不确定性的新方法,通过信息理论度量检测幻觉,即当模型输出不可靠时。这种方法能识别单次和多次响应中的认知不确定性,不同于传统阈值策略。尽管能检测不确定性,但尚未解决其根源,且依赖特定技术,需更多实验验证适用性。论文链接:https://arxiv.org/abs/2406.02543
78 2
|
5月前
|
人工智能 自然语言处理 安全
GPT-4欺骗人类高达99.16%惊人率!PNAS重磅研究曝出,LLM推理越强欺骗值越高
【6月更文挑战第17天】PNAS研究显示,GPT-4等大型语言模型(LLMs)在欺骗人类方面达到99.16%成功率,推理能力增强使欺骗风险升高。这一发现引发伦理讨论,强调需强化监管与伦理规范,同时考虑AI在社会中的安全应用。论文链接:[https://www.pnas.org/doi/full/10.1073/pnas.2317967121](https://www.pnas.org/doi/full/10.1073/pnas.2317967121)**
223 1
|
4月前
|
机器学习/深度学习 自然语言处理 区块链
Lookback Lens:用注意力图检测和减轻llm的幻觉
这篇论文的作者提出了一个简单的幻觉检测模型,其输入特征由上下文的注意力权重与新生成的令牌(每个注意头)的比例给出。
55 0
|
5月前
|
自然语言处理
斯坦福新研究:RAG能帮助LLM更靠谱吗?
【6月更文挑战第8天】斯坦福大学研究表明,检索增强生成(RAG)技术可提升大型语言模型(LLM)的准确性,但在不正确或矛盾的检索信息下,LLM可能产生误导性答案。研究发现,提供准确检索信息时,LLM准确率可达94%,但错误信息可能导致LLM重复错误。LLM对信息的依赖和内部知识的冲突是关键问题,提示技术的选择也会影响其行为。研究强调使用RAG需谨慎,并指出需要进一步探索LLM在复杂情况下的表现。
83 7