世界的参数倒影：为何GPT通过Next Token Prediction可以产生智能（4）-阿里云开发者社区

「回路竞争」视角下的 In Context Learning 及 Chain of Thought (COT)

从回路竞争的视角看 ICL，这里可能涉及到两种回路：任务回路以及 Attention 回路，两者竞争或合作，来决定 ICL 任务的表现，COT 是一种特殊的 ICL，机制应类似。

我们先看下任务回路的作用，其实好理解。In Context Learning 会先给 LLM 模型几个任务相关的例子，之后输入，期待模型可以输出对应的正确结果输入中给出的个例子的作用，在于激活了 LLM 模型对应的在预训练阶段学到的任务回路，然后再输入，就容易沿着这条被激活的通路走，形成正确输出。COT 作用应该类似，也就是说，如果你不用 COT，可能 LLM 激活的是某个简单结构的任务回路，而如果用了 COT 例子，则容易激活了有很多细节表征的复杂推理回路，导致之后的输入也沿着这个子通路走，于是形成详细推理步骤。由此可见，在 ICL 场景下，任务回路总是对产生正确答案，起到积极作用。

再来看 Attention 回路，不过这里也是设想（In-context Learning and Induction Heads 这个工作的目的是通过 Induction Head 来解释 ICL 现象，不过我觉得 Induction Head 机制过于简单，可能需要再稍微强化下）。假设存在一个加强版本的 Induction Head 回路，比如我们可以称之为「Enhanced Induction Head，EIH」，它的运行机制很可能是这样的（如上图所示）：EIH 回路会依据当前输入与 ICL 各个例子中的的语义相似性，去拷贝对应的，与相似性越高，越大概率拷贝对应的。这个过程有点类似由 EIH 回路构成的 KNN 模型，只需根据输入例子之间的相似性和对应标签就可以投票得到正确答案，并不需要模型通过修改参数来学会到之间的映射函数。算是一种有条件的 Induction Head 拷贝操作，条件触发因素是输入的例子之间的 Attention 相似性。可以看出，影响输出哪个标签，应该主要取决于 ICL 中这几种类型的例子：和越相似的例子影响越大；ICL 中出现次数越多的影响越大；以及距离越近的例子影响越大 (Position embedding 编码的位置信息及 NLP 中大量存在的局部相关性大概会导致此结果)。

若真存在 EIH 回路，根据上述运行机制，我们可以推断出在以下三种情况下，Attention 回路对正确预测结果的影响：

情况一：如果 ICL 中到输入例子对应的标签是 Ground Truth Label，很明显，EIH 回路是正向积极影响作用，类似如上所述 KNN 机制依据到例子对应的来做判断；

情况二：如果 ICL 中例子的标签不是 Ground Truth Label，而是在 label 空间内随机选择赋予。很明显，EIH 回路对于得到正确答案应该起到负面作用，因为会从前面到的例子中，寻找跟它比较像的内容去拷贝对应标签，但是这个标签是随机赋予的，所以大概率是错的，导致这种情况 EIH 应该是负面效果。

情况三：如果 ICL 中例子的标签是 label 空间之外的另外一套标签，但是和存在对应的映射关系。这种情况下，EIH 回路应该是正面影响作用，这跟第一种情况道理类似，KNN 机制可以学习这种映射关系，因此得到正确的，无非现在用的是而不是而已。当然，若你仍然是看标签下的表现，那 ICL 肯定是负面作用。

如果联合考虑 LLM 的内在任务回路，以及 EIH 这种纯 Attention 回路，两者有时协同发力方向相同，有时则竞争发力方向相反。比如上述三种情形中，第一种情况两者是协同作用，都起到促进正确答案的作用，第二和第三种情况则是竞争作用，任务回路对给出正确答案起到促进作用，EIH 回路则起到负向作用。

按照这种思路，大致可以解释目前我们看到的，在 ICL 研究中出现的很多貌似不可解释的各种现象。这里举个例子，比如目前研究表明，假设 ICL 的标签空间包含两个标签：和，如果我们把 ICL 里例子的标签反转，就是原来标签是的换成，原来是的换成，则 ICL 任务效果会变差 (可参考：Overthinking the Truth: Understanding how Language Models process False Demonstrations)。假设对应的正确标签是，从任务回路和 EIH 回路的角度来看，任务回路会倾向于给出标签，EIH 回路在这种情况下，其实对应上面说的情况三，标签反转是种特殊的另换标签，因为和的对应关系仍然存在。所以此时，EIH 回路看似会学习到的映射关系，会倾向于给出标签。此时两者一个正向，一个负向，起到竞争关系，所以会降低模型效果。

其它很多现象其实大都可以在这个框架里得到解释，文章长度原因就不展开了，感兴趣的同学可以在这个思考框架下自己推导一下。

「回路竞争」视角下的领域任务 Fine-Tuning

我们可以在「回路竞争」视角下，重新审视利用领域数据对通用模型进行 Fine-tuning 操作，可能带来的影响。我们现在已知的事实是，利用领域数据 Fine-tuning，会造成基础模型的「灾难遗忘」问题。就是说，因为后续 Fine-tuning 修正模型参数，导致模型遗忘了之前学会的某些知识。而且我的判断是：目前看，在基础模型之上，任何形式的 Tuning 操作，都会造成基础模型某些能力的损失，这也包括 ChatGPT 为了听懂命令及遵循人类价值观所做的 Instruct tuning，也应该一样会损害基础模型的某些能力，只是目前我们说不清损害的是哪些能力而已。这是目前技术条件下，需要对模型做 Tuning 所必须付出的代价。

但是为何对基础模型进行 Fine-tuning 会造成能力损害呢？其内在原理如何？我们可以在「回路竞争」视角下，分析 Fine-tuning 带来的影响。我猜大致有两种影响，这两种影响也许是某种单独起作用，也许两者共同发生作用。第一种影响是：Fine-tuning 操作通过大量领域数据，强化了大语言模型解决这个任务的响应回路。这对于模型底层知识点影响估计不大，因为底层更多的是通用性比较强的特征，这个任务也需要，它修正的应该更多是上层的抽象知识节点，以及底层知识点到上层抽象知识点建立激发连接的通路。另外一种可能的影响：很可能通过 Fine-tuning 操作，在模型内部建立起了 Shortcut 捷径，导致输入信息后，信息传输直接走了捷径，而绕过了很多本该要走的通路。比如文本分类任务，这种任务内部逻辑应该很简单，估计就是建立起底层具体领域词汇知识点，到上层抽象类别概念知识点的激发通路，所以很可能直接从最底层的知识点，到高层的类别概念知识点，建立起了一个很短的 Shortcut 捷径，其它的复杂回路都被这个捷径给 pass 掉了，倒不一定是上层抽象知识点被改写了，很可能是通过走捷径被绕过去了。

不论是上述哪个原因，造成的后果是：对于新的输入，尽管可能是要做其它任务的，就很容易激发这个被特殊强化过的回路。也就是说，这个被强化过的回路容易在不该竞争胜利的时候也容易竞争胜利，导致其它任务效果变差。

「回路竞争」视角下的 Instruct Tuning

Instruct Tuning 本质上是为了实现和人类行为对齐而做的一种特殊的 Fine-tuning。GPT 4 的技术报告也指出了：Instruct tuning 并不会增强基础模型的知识和能力，相反可能存在某种能力损害作用。高质量的 Instruct Tuning 肯定是很重要的，但它只是让大语言模型「看着好像」效果更好了而已，这只是使用者主观感受上的，而非模型基础能力层面的更好。

那么，如果在「回路竞争」视角下，如何理解 Instruct Tuning 是在干什么事情呢？我觉得可以这么理解：Instruct Tuning 的作用，建立起了一个特殊的激活回路，就是说从输入命令自身形成的激活回路，建立起和对应任务回路的连接。根据 Instruct 训练好模型后，当输入命令时，有利于激活对应的任务回路，所以看似大语言模型就理解了命令的含义。这有点类似于巴浦洛夫生物实验里的「条件反射作用」的运行机制，等于在用户命令和对应任务通路建立起了一个条件反射通路。

利用「回路竞争」猜想，除了可以用来对上述目前未知内部运行机制的现象，给出看着还算合理的解释外，也可以用来解释一些其它现象。比如大模型经常出现的「一本正经的胡说八道」问题，可以认为是在回路竞争过程中，正确回路竞争失败，或者正确回路和某个错误回路被激发的强度差不多，导致给出混合两者的结果，就是看着合理但事实错误的答案。诸如此类吧。

世界的参数倒影：从现实世界到可能世界

物理世界自有支配其运行的 Hidden Rules，概念上我们可以理解存在一个简洁的 Hidden world，由它产生了五彩缤纷的表象世界，若对世界诸现象归类，大致可有自然现象、社会现象、心理现象几大类。人是构成物理世界的一分子，通过观察世界表象、试图理解世界运行规律，以更好维持种群及个体在这个世界里生存。

从种群角度而言，千万年进化过程中的优胜劣汰即人类模型预训练过程，其优化目标为「Next Person’s survival Prediction」，其 Loss 越小，种群中生存个体数量越多。基因编码即模型参数，基因编码表征出的个体，适应环境者生存，不适应环境者淘汰。生存者之所以可生存，是因为基因编码表征出的某些特征适配生存环境，于是这些匹配生存环境的基因编码在种群中得以加强，人类预训练模型完成一次模型参数更新。外部物理世界生存环境的不断变化驱动着种群基因编码的变化，以此推动种群在变动环境下的生存。而我们生来即得到的基因编码预训练模型，则记录了千万年来学到的各种生存策略，形成了大脑中无意识快速反应的系统 1，它代表了种群的集体记忆。

从个体角度而言，除了通过基因编码预训练模型获得天生的生存策略外，为了维护个体自身在特定环境下的生存，在整个生命历程中会进行「继续预训练 (Continual Pre-training)」。其优化目标为「Next Action Prediction」，追求在环境中输出正确行为以维持生存。采取类似 LoRA 的模型参数更新策略：对于个体而言，天生的基因编码是无力改动的基础模型，决定了我们的很多行为模式，但大脑中有一部分可修正区域，可以通过修正这部分区域里神经元之间的联系方式，来学会新的知识和技能。如果输出行为对继续生存造成负面影响，则调整模型参数以将来更好应对生存环境，这部分脑区功能形成了有意识慢决策的系统 2，它代表了个人的个性化生存经验。「天生基因编码 + 个人生存微调」塑造出了形形色色的不同个体行为，有共性有个性，共性来自于种群集体记忆，个性来自于独有的生存经验。

语言最初作为人类个体间的沟通协作工具，有利于促进种群存续。随着技术发展，逐步将之记录在龟背、竹简、纸张、电子信号形成文字。每个人都可看成独立的「编码 - 解码器」，个体对物理世界观察与感受，并编码在大脑中形成知识和思维，解码输出则形成文字，记录的是个人视角对世界的感受和思考，有主观感受也有客观记录。人群则形成分布式的「编码 - 解码器」，解码输出产生了大量包含各种世界运转的客观事实以及主观冲突观念的文字记录。所以，文字只是表象，内在记录的是从人类角度形成的对物理世界的认知与对这个世界的主观感受（物理知识、社会知识、事件记录、个体感受、个体想象等各种类型），其背后隐藏着人类视角下的世界模型。而 GPT 通过 Next Token Prediction 任务试图正确复现人类产生的文字，本质上是对隐藏在文字表象之后的世界模型进行解码复原，并存储在 GPT 的模型参数里，形成了物理世界的参数倒影。

如果我们进行更深入思考，有可能会发现；GPT 从大量文字中，不仅仅学会了如何生成符合我们现实世界事实的内容，可能还学会成为一个「可能世界」生成器。它从文字模拟我们的现实世界开始，并进而泛化抽象，尽管遵循我们这个世界的物理法则，但是它不仅可以产生符合我们感知到的世界中真实的知识与内容，也可以产生其它符合物理法则及人类理解逻辑的可能世界。也许你不能因它产生的内容不符合现实世界，就说它是错的，只能说它有能力把符合逻辑的可能世界全部展示给你，必然有很多情况未必吻合现实，毕竟现有世界只是可能世界的一种已经发生的现实选择而已，而它有能力给你呈现各种合理的可能性。

世界尽头与冷酷仙境：「数字缸中之脑」思想实验

「一个疯狂科学家进行了一项手术，他将一个人的大脑切下来并将其放入充满营养液的容器中。营养液中的养分足以维持大脑的正常运作，而大脑的神经末梢连接到电线上，电线的另一端则连接到一台计算机。计算机模拟真实世界的参数，并通过电线向大脑传递信息，让大脑感到一切都完全正常，好像周围认识的人、熟悉的事情还照常进行，没有任何异样。

有一天，营养液中的大脑突发奇想，想到了一个很有趣的思想实验，在他／她的现实感知里，此刻正在上班的地铁上或自己办公工位前，耳边传来别人轻微的脚步声，他／她掏出手机把想法写在备忘录里，内容是这样的：

「OpenAI 推出了一个新的 LLM 模型，叫 GPT 4，功能很强大，这很可能预示着 AGI 时代的到来，我身边每个人都在热烈地讨论它。今天我读到了一篇分析它可能工作机制的文章，题目是《世界的参数倒影：为何 GPT 通过 Next Token Prediction 可以产生智能》，读完很有启发，引起了我的思考。我们可以设想一下：如果将来 AGI 能力足够强大，它能通过阅读我书写的内容、我的照片和视频，甚至可以扫描复制我的大脑反应模式，重构一个和我在物理世界一摸一样的数字大脑。那么，另一个我自己就会生活在数字空间中，而 AGI 接管我的数字大脑的各种感知信号，模拟我的工作和生活场景，让大脑感到一切都完全正常，好像周围认识的人、熟悉的事情还照常进行，没有任何异样。那么，这个数字大脑里的我，或者现实生活里的我，能区分现在是生活在数字空间，还是物理空间吗？我把这个思想实验称为：数字缸中之脑。这个思想实验，是不是很有意思？」

我把这个思想实验称为：数字缸中之脑。这个思想实验，是不是很有意思？」

世界的参数倒影：为何GPT通过Next Token Prediction可以产生智能（4）

「回路竞争」视角下的 In Context Learning 及 Chain of Thought (COT)

世界的参数倒影：从现实世界到可能世界

热门文章

最新文章

相关电子书

相关实验场景