大模型与大模型的幻觉问题

简介: 大模型与大模型的幻觉问题

参考

大模型中的涌现

OpenAI 科学家:幻觉是大模型与生俱来的特性,而非缺陷

大模型「幻觉」,看这一篇就够了|哈工大华为出品

大模型

什么是大模型

大语言模型(LLM)是基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本,还能够深入理解文本含义,处理各种自然语言任务,如文本摘要、问答、翻译等。

2023年,大语言模型及其在人工智能领域的应用已成为全球科技研究的热点,其在规模上的增长尤为引人注目,参数量已从最初的十几亿跃升到如今的一万亿。

大模型的模型发展如下图

涌现

参考:大模型中的涌现

什么是涌现?先从蚂蚁开始说起。蚂蚁是自然界中一种个体非常简单,但是群体能力非常强大的生物。单只蚂蚁的行为模式很简单,但是蚂蚁群体可以发挥出惊人的智慧,能完成非常复杂的任务,比如建造庞大的蚁穴、合作捕猎等。

一只蚂蚁的智能是有限的,但是一群蚂蚁结合起来,会形成一个有智能的群体。这种集体智慧并不是蚂蚁个体简单相加得到的。蚂蚁集合在一起,产生了一加一大于二的效果。这就是涌现现象。

涌现的定义

涌现的定义

涌现是一个描述在复杂系统中出现的新的、无法简单从其组成部分推导出的性质或结构的术语。它通常用于指代当系统的各个部分相互作用时,产生的新的、通常是不可预测的整体特性。这些特性不能还原为单个组成部分的简单总和,而是在系统层面上“突现”的。

在历史上,涌现这一概念由不同的学者以不同的方式定义。例如,哲学家乔治·亨利·刘易斯在19世纪创造了这个词,以描述那些不能仅仅通过组合各个部分来理解的复杂现象。而现代学者,如杰弗里·戈斯坦和彼得·科宁,进一步细化了涌现的定义,强调它是在系统自组织过程中出现的新的、连贯的结构、模式或性质。

涌现可以分为几个不同的类别,包括弱涌现和强涌现。弱涌现指的是系统中的新特性虽然不能从单个组成部分推导出来,但仍然可以还原为这些组成部分的某种组合。相比之下,强涌现则认为新特性是完全无法还原的,它们是超越组成部分总和的。

在现实世界中,涌现现象的例子包括天气系统、生态系统、经济市场、以及社会行为等。在这些系统中,单个元素(如空气分子、生物个体、交易或个人)的相互作用会产生新的、宏观层面上的性质(如风暴、生态平衡、经济周期或社会运动),这些性质在单个元素层面上是无法预见的。

涌现理论对于多个领域,如物理学、生物学、经济学、社会学和计算机科学等,都具有重要的启发意义。它提醒我们,当研究复杂系统时,需要考虑到各个组成部分之间的相互作用,并且要意识到整体可能会呈现出无法从部分推导出的新特性。

总结下:涌现即大量个体组成的整体,表现出个体不具备的能力。

什么是大模型中的涌现?在较小的模型中不出现,而在较大的模型中出现的能力,称为涌现。

我们看这张图片,它包含8张子图。分别在是八个不同的子任务下测试大模型的few-shot的能力。横轴是模型的规模(注意这里是用training FLOPs来衡量,而不是用参数量来衡量),纵轴的模型的表现,用一些评估指标来衡量,比如accuracy。可以很明显地看到,training FLOPs在10的22次方处,是一个发生涌现的临界点。在这个数之前,模型的表现平平无奇,和随机猜测差不多。而在这个数之后,模型的效果得到了突飞猛进般的提升。

第一篇整体分析LLM涌现能力的人是jason wei,在此之前,他先后发表了instruction tuning和CoT(思维链)的论文。这个顺序关系很自然,先是instruction tuning,然后是思维链,最后上升到了涌现的高度。关于instruction tuning和CoT,也是值得讲的内容,后面看有没有机会分享这些方面的内容。

涌现,是复杂科学下的一个概念。

复杂科学

什么是复杂科学?复杂科学,就是运用跨学科方法,研究不同复杂系统之中的涌现行为和统一性规律的学科。复杂科学关键词如下:混沌、分形、复杂网络、自由意志、熵增。

复杂科学的很多概念,起初不被主流科学界认可。很多人认为复杂科学里的很多概念是伪科学,是因为它无法用科学里流行的还原论来解释。

还原论是说“如果你理解了整体的各个部分,以及把这些部分整合起来的机制,你就能够理解这个整体”。但涌现不是这样,涌现指的是,整体拥有个体不具备的特征。

我再举个简单的例子:假如时间回到20年前,我们不知道怎么造航空母舰。突然间我们获得了一艘退役的航空母舰,于是我们把航空母舰拆开,每个部分每个零件都去研究透彻。然后我们依葫芦画瓢,可以造出一艘几乎一样的航空母舰。这就是还原论。还原论的对立面是什么?是即使你研究透每一个零件,拼在一起仍然不能组成航空母舰。这是坏的情况。或者另外一个极端情况是,你拼接好了,组成一艘航空母舰之后,不仅成功造了一艘航空母舰,而且这艘航空母舰竟然还会说话。这就是涌现。

如何解决大模型的「幻觉」问题?

方向一:什么是大模型「幻觉」

大模型出现幻觉,简而言之就是“胡说八道”。

用文中的话来讲,是指模型生成的内容与现实世界事实或用户输入不一致的现象。

研究人员将大模型的幻觉分为事实性幻觉(Factuality Hallucination)和忠实性幻觉(Faithfulness Hallucination)。

△左,事实性幻觉;右,忠实性幻觉

事实性幻觉,是指模型生成的内容与可验证的现实世界事实不一致。

比如问模型“第一个在月球上行走的人是谁?”,模型回复“Charles Lindbergh在1951年月球先驱任务中第一个登上月球”。实际上,第一个登上月球的人是Neil Armstrong。

事实性幻觉又可以分为事实不一致(与现实世界信息相矛盾)和事实捏造(压根没有,无法根据现实信息验证)。

忠实性幻觉,则是指模型生成的内容与用户的指令或上下文不一致。

比如让模型总结今年10月的新闻,结果模型却在说2006年10月的事。

忠实性幻觉也可以细分,分为指令不一致(输出偏离用户指令)、上下文不一致(输出与上下文信息不符)、逻辑不一致三类(推理步骤以及与最终答案之间的不一致)。

OpenAI 科学家 Andrej Karpathy关于大模型幻觉

在 Karpathy 看来:

从某种意义上说,大语言模型的全部工作恰恰就是制造幻觉,大模型就是「造梦机」。

另外,Karpathy 的另一句话,更是被许多人奉为经典。他认为,与大模型相对的另一个极端,便是搜索引擎。

「大模型 100% 在做梦,因此存在幻觉问题。搜索引擎则是完全不做梦,因此存在创造力问题」。

总而言之,LLM 不存在「幻觉问题」。而且幻觉不是错误,而是 LLM 最大的特点。只有大模型助手存在幻觉问题。

方向二:造成大模型「幻觉」的原因

那么致使大模型产生幻觉的原因都有哪些?

方向三:大模型幻觉的检测基准

方向四:大模型幻觉解决该问题的方法

论文链接:https://arxiv.org/abs/2311.05232

相关文章
|
7月前
|
机器学习/深度学习 数据可视化
如何解决大语言模型的幻觉问题
如何解决大语言模型的幻觉问题
|
3月前
|
机器学习/深度学习
什么是领域大模型?
什么是领域大模型?
177 0
|
7月前
|
机器学习/深度学习 编解码 PyTorch
训练Sora模型,你可能需要这些(开源代码,模型,数据集及算力评估)
在之前的文章《复刻Sora有多难?一张图带你读懂Sora的技术路径》,《一文看Sora技术推演》我们总结了Sora模型上用到的一些核心技术和论文,今天这篇文章我们将整理和总结现有的一些开源代码、模型、数据集,以及初步训练的算力评估,希望可以帮助到国内的创业公司和个人开发者展开更深的研究。
|
5月前
|
机器学习/深度学习 自然语言处理 前端开发
大模型问题之神经语言模型与大模型的关系是什么
大模型问题之神经语言模型与大模型的关系是什么
|
7月前
微调真的能让LLM学到新东西吗:引入新知识可能让模型产生更多的幻觉
研究表明,大型语言模型通过微调获取新知识可能引发幻觉,降低性能,尤其是当处理未知事实时。模型倾向于利用已有知识而非真正学习新知识。已知事实能提升性能,而未知事实则在后期微调中损害性能。使用“我不知道”来标记未知知识可减轻负面影响。最佳结果来自处理可能已知的事实,而非极其知名的事实。微调对模型知识的更新存在风险,需谨慎处理新旧知识的融合问题。建议使用RAG和策略来克服微调限制。[阅读完整论文以了解更多](https://avoid.overfit.cn/post/21daac41f99042be804b381a6a9700fb)。
105 3
|
6月前
|
Python
技术心得:判别式模型vs.生成式模型
技术心得:判别式模型vs.生成式模型
30 0
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
论文介绍:自我对弈微调——将弱语言模型转化为强语言模型的新方法
【5月更文挑战第17天】论文《自我对弈微调》提出了一种新方法,名为SPIN,用于在无需额外人工标注数据的情况下增强大型语言模型(LLM)。SPIN利用自我对弈机制,让模型通过与自身历史版本交互生成自我训练数据,实现性能提升。该方法在多个基准数据集上表现出色,超越了传统监督微调和直接偏好优化。SPIN还为生成对抗网络研究提供了新思路,展示了自我对弈在强化学习和深度学习中的潜力。实验表明,SPIN有效提升了模型性能,为未来研究奠定了基础。[[arxiv](https://arxiv.org/abs/2401.01335v1)]
72 3
|
7月前
|
机器学习/深度学习 自然语言处理 计算机视觉
【大模型】小样本学习的概念及其在微调 LLM 中的应用
【5月更文挑战第5天】【大模型】小样本学习的概念及其在微调 LLM 中的应用
|
计算机视觉
SplitMask:大规模数据集是自我监督预训练的必要条件吗?
自监督预训练需要大规模数据集吗?这是2021年发布的一篇论文,它在自监督预训练场景中使用小数据集,如Stanford Cars, Sketch或COCO,它们比ImageNet小几个数量级。并提出了一种类似于BEiT的去噪自编码器的变体SplitMask,它对预训练数据的类型和大小具有更强的鲁棒性。
78 0
|
7月前
|
机器学习/深度学习 自然语言处理 算法
【大模型】关于减轻 LLM 训练数据和算法中偏差的研究
【5月更文挑战第6天】【大模型】关于减轻 LLM 训练数据和算法中偏差的研究