随着大型语言模型(LLMs)的崛起,一个有趣的问题浮出水面:这些模型是否在处理多语言数据时存在内部偏好?特别是,它们是否会将英语作为内部中转语言,从而影响其在非英语语言上的输出?最近,一项由EPFL的研究人员领导的研究,对这个问题进行了深入研究,并提供了一些有趣的见解。
这项研究的重点是Llama-2系列的Transformer模型,这些模型是在多语言语料库上训练的,其中英语占主导地位。为了测试这些模型是否将英语作为内部中转语言,研究人员设计了一系列精心构造的非英语提示,每个提示都有一个唯一的正确单字延续。然后,他们通过模型的层级跟踪了这些提示的中间表示,以观察它们是如何逐渐映射到输出表示的。
他们的发现揭示了三个不同的阶段。在第一阶段,中间表示与输出表示相距甚远。在第二阶段,中间表示已经允许在中间层解码出语义上正确的下一个单词,但在输入语言中的概率高于其英语版本。最后,在第三阶段,中间表示最终移动到嵌入空间中的输入语言特定区域。
基于这些结果,研究人员构建了一个概念模型,其中三个阶段在“输入空间”、“概念空间”和“输出空间”中运行。至关重要的是,他们的证据表明,“概念空间”更接近英语而不是其他语言,这可能对多语言语言模型持有的偏见产生重要影响。
这项研究的发现对理解LLMs的功能和潜在偏见具有重要意义。一方面,如果LLMs确实将英语作为内部中转语言,这可能会导致它们对盎格鲁中心模式产生偏见,从而倾向于某些语言元素(词汇、语法、隐喻等)。另一方面,如果LLMs不使用英语作为中转语言,那么它们在处理非英语数据时表现如此出色的原因就值得进一步研究。
然而,这项研究也存在一些局限性。首先,它只关注于Llama-2系列的模型,因此其发现可能不适用于其他英语主导的模型。其次,这项研究只关注于简单的文本完成任务,因此可能无法推广到更广泛的任务范围。最后,研究人员对“概念空间”的理解仍然有限,因此需要进一步的研究来更好地理解这个空间的结构。