大模型与大模型的幻觉问题

简介: 大模型与大模型的幻觉问题

参考

大模型中的涌现

OpenAI 科学家:幻觉是大模型与生俱来的特性,而非缺陷

大模型「幻觉」,看这一篇就够了|哈工大华为出品

大模型

什么是大模型

大语言模型(LLM)是基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本,还能够深入理解文本含义,处理各种自然语言任务,如文本摘要、问答、翻译等。

2023年,大语言模型及其在人工智能领域的应用已成为全球科技研究的热点,其在规模上的增长尤为引人注目,参数量已从最初的十几亿跃升到如今的一万亿。

大模型的模型发展如下图

涌现

参考:大模型中的涌现

什么是涌现?先从蚂蚁开始说起。蚂蚁是自然界中一种个体非常简单,但是群体能力非常强大的生物。单只蚂蚁的行为模式很简单,但是蚂蚁群体可以发挥出惊人的智慧,能完成非常复杂的任务,比如建造庞大的蚁穴、合作捕猎等。

一只蚂蚁的智能是有限的,但是一群蚂蚁结合起来,会形成一个有智能的群体。这种集体智慧并不是蚂蚁个体简单相加得到的。蚂蚁集合在一起,产生了一加一大于二的效果。这就是涌现现象。

涌现的定义

涌现的定义

涌现是一个描述在复杂系统中出现的新的、无法简单从其组成部分推导出的性质或结构的术语。它通常用于指代当系统的各个部分相互作用时,产生的新的、通常是不可预测的整体特性。这些特性不能还原为单个组成部分的简单总和,而是在系统层面上“突现”的。

在历史上,涌现这一概念由不同的学者以不同的方式定义。例如,哲学家乔治·亨利·刘易斯在19世纪创造了这个词,以描述那些不能仅仅通过组合各个部分来理解的复杂现象。而现代学者,如杰弗里·戈斯坦和彼得·科宁,进一步细化了涌现的定义,强调它是在系统自组织过程中出现的新的、连贯的结构、模式或性质。

涌现可以分为几个不同的类别,包括弱涌现和强涌现。弱涌现指的是系统中的新特性虽然不能从单个组成部分推导出来,但仍然可以还原为这些组成部分的某种组合。相比之下,强涌现则认为新特性是完全无法还原的,它们是超越组成部分总和的。

在现实世界中,涌现现象的例子包括天气系统、生态系统、经济市场、以及社会行为等。在这些系统中,单个元素(如空气分子、生物个体、交易或个人)的相互作用会产生新的、宏观层面上的性质(如风暴、生态平衡、经济周期或社会运动),这些性质在单个元素层面上是无法预见的。

涌现理论对于多个领域,如物理学、生物学、经济学、社会学和计算机科学等,都具有重要的启发意义。它提醒我们,当研究复杂系统时,需要考虑到各个组成部分之间的相互作用,并且要意识到整体可能会呈现出无法从部分推导出的新特性。

总结下:涌现即大量个体组成的整体,表现出个体不具备的能力。

什么是大模型中的涌现?在较小的模型中不出现,而在较大的模型中出现的能力,称为涌现。

我们看这张图片,它包含8张子图。分别在是八个不同的子任务下测试大模型的few-shot的能力。横轴是模型的规模(注意这里是用training FLOPs来衡量,而不是用参数量来衡量),纵轴的模型的表现,用一些评估指标来衡量,比如accuracy。可以很明显地看到,training FLOPs在10的22次方处,是一个发生涌现的临界点。在这个数之前,模型的表现平平无奇,和随机猜测差不多。而在这个数之后,模型的效果得到了突飞猛进般的提升。

第一篇整体分析LLM涌现能力的人是jason wei,在此之前,他先后发表了instruction tuning和CoT(思维链)的论文。这个顺序关系很自然,先是instruction tuning,然后是思维链,最后上升到了涌现的高度。关于instruction tuning和CoT,也是值得讲的内容,后面看有没有机会分享这些方面的内容。

涌现,是复杂科学下的一个概念。

复杂科学

什么是复杂科学?复杂科学,就是运用跨学科方法,研究不同复杂系统之中的涌现行为和统一性规律的学科。复杂科学关键词如下:混沌、分形、复杂网络、自由意志、熵增。

复杂科学的很多概念,起初不被主流科学界认可。很多人认为复杂科学里的很多概念是伪科学,是因为它无法用科学里流行的还原论来解释。

还原论是说“如果你理解了整体的各个部分,以及把这些部分整合起来的机制,你就能够理解这个整体”。但涌现不是这样,涌现指的是,整体拥有个体不具备的特征。

我再举个简单的例子:假如时间回到20年前,我们不知道怎么造航空母舰。突然间我们获得了一艘退役的航空母舰,于是我们把航空母舰拆开,每个部分每个零件都去研究透彻。然后我们依葫芦画瓢,可以造出一艘几乎一样的航空母舰。这就是还原论。还原论的对立面是什么?是即使你研究透每一个零件,拼在一起仍然不能组成航空母舰。这是坏的情况。或者另外一个极端情况是,你拼接好了,组成一艘航空母舰之后,不仅成功造了一艘航空母舰,而且这艘航空母舰竟然还会说话。这就是涌现。

如何解决大模型的「幻觉」问题?

方向一:什么是大模型「幻觉」

大模型出现幻觉,简而言之就是“胡说八道”。

用文中的话来讲,是指模型生成的内容与现实世界事实或用户输入不一致的现象。

研究人员将大模型的幻觉分为事实性幻觉(Factuality Hallucination)和忠实性幻觉(Faithfulness Hallucination)。

△左,事实性幻觉;右,忠实性幻觉

事实性幻觉,是指模型生成的内容与可验证的现实世界事实不一致。

比如问模型“第一个在月球上行走的人是谁?”,模型回复“Charles Lindbergh在1951年月球先驱任务中第一个登上月球”。实际上,第一个登上月球的人是Neil Armstrong。

事实性幻觉又可以分为事实不一致(与现实世界信息相矛盾)和事实捏造(压根没有,无法根据现实信息验证)。

忠实性幻觉,则是指模型生成的内容与用户的指令或上下文不一致。

比如让模型总结今年10月的新闻,结果模型却在说2006年10月的事。

忠实性幻觉也可以细分,分为指令不一致(输出偏离用户指令)、上下文不一致(输出与上下文信息不符)、逻辑不一致三类(推理步骤以及与最终答案之间的不一致)。

OpenAI 科学家 Andrej Karpathy关于大模型幻觉

在 Karpathy 看来:

从某种意义上说,大语言模型的全部工作恰恰就是制造幻觉,大模型就是「造梦机」。

另外,Karpathy 的另一句话,更是被许多人奉为经典。他认为,与大模型相对的另一个极端,便是搜索引擎。

「大模型 100% 在做梦,因此存在幻觉问题。搜索引擎则是完全不做梦,因此存在创造力问题」。

总而言之,LLM 不存在「幻觉问题」。而且幻觉不是错误,而是 LLM 最大的特点。只有大模型助手存在幻觉问题。

方向二:造成大模型「幻觉」的原因

那么致使大模型产生幻觉的原因都有哪些?

方向三:大模型幻觉的检测基准

方向四:大模型幻觉解决该问题的方法

论文链接:https://arxiv.org/abs/2311.05232

相关文章
|
14天前
|
机器学习/深度学习 算法框架/工具 网络架构
深度学习中的正则化技术及其对模型性能的影响
本文深入探讨了深度学习领域中正则化技术的重要性,通过分析L1、L2以及Dropout等常见正则化方法,揭示了它们如何帮助防止过拟合,提升模型的泛化能力。文章还讨论了正则化在不同类型的神经网络中的应用,并指出了选择合适正则化策略的关键因素。通过实例和代码片段,本文旨在为读者提供关于如何在实际问题中有效应用正则化技术的深刻见解。
|
7月前
|
机器学习/深度学习 数据可视化
如何解决大语言模型的幻觉问题
如何解决大语言模型的幻觉问题
|
2月前
|
机器学习/深度学习 数据采集 人工智能
深度学习之稳健的模型推理与不确定性建模
基于深度学习的稳健模型推理与不确定性建模,是现代AI系统中至关重要的研究方向。随着深度学习在各类应用中的成功,如何保证模型在面对未知或不确定性输入时仍能做出稳健的推理,并能够量化这种不确定性,成为关键问题。稳健性与不确定性建模可以提高模型的安全性、可靠性,尤其在自动驾驶、医疗诊断等高风险领域。
54 0
|
4月前
|
机器学习/深度学习 人工智能 算法
ChatGPT 等相关大模型问题之人工智能的过拟合 / 欠拟合的定义如何解决
ChatGPT 等相关大模型问题之人工智能的过拟合 / 欠拟合的定义如何解决
|
7月前
|
机器学习/深度学习 编解码 PyTorch
训练Sora模型,你可能需要这些(开源代码,模型,数据集及算力评估)
在之前的文章《复刻Sora有多难?一张图带你读懂Sora的技术路径》,《一文看Sora技术推演》我们总结了Sora模型上用到的一些核心技术和论文,今天这篇文章我们将整理和总结现有的一些开源代码、模型、数据集,以及初步训练的算力评估,希望可以帮助到国内的创业公司和个人开发者展开更深的研究。
|
7月前
微调真的能让LLM学到新东西吗:引入新知识可能让模型产生更多的幻觉
研究表明,大型语言模型通过微调获取新知识可能引发幻觉,降低性能,尤其是当处理未知事实时。模型倾向于利用已有知识而非真正学习新知识。已知事实能提升性能,而未知事实则在后期微调中损害性能。使用“我不知道”来标记未知知识可减轻负面影响。最佳结果来自处理可能已知的事实,而非极其知名的事实。微调对模型知识的更新存在风险,需谨慎处理新旧知识的融合问题。建议使用RAG和策略来克服微调限制。[阅读完整论文以了解更多](https://avoid.overfit.cn/post/21daac41f99042be804b381a6a9700fb)。
105 3
|
6月前
|
Python
技术心得:判别式模型vs.生成式模型
技术心得:判别式模型vs.生成式模型
30 0
|
7月前
|
机器学习/深度学习 数据采集 算法
|
7月前
|
机器学习/深度学习 自然语言处理 计算机视觉
【大模型】小样本学习的概念及其在微调 LLM 中的应用
【5月更文挑战第5天】【大模型】小样本学习的概念及其在微调 LLM 中的应用
|
7月前
|
机器学习/深度学习 自然语言处理 算法
【大模型】关于减轻 LLM 训练数据和算法中偏差的研究
【5月更文挑战第6天】【大模型】关于减轻 LLM 训练数据和算法中偏差的研究