在人工智能领域,Transformer模型因其在各种复杂任务中的出色表现而备受关注。然而,尽管它们在许多方面取得了成功,但这些模型在处理一些对人类来说简单直观的数学问题时仍然存在困难,例如加法。
对于人类来说,学习基本的加法规则并应用于任何长度的新问题是相对容易的。然而,Transformer模型在执行相同操作时却遇到了困难。相反,它们可能会依赖在训练语料库中看到的类似情况来解决问题。
为了探索Transformer模型在数学问题上的推理机制,研究人员提出了两种不同的推理机制:“基于规则的推理”和“基于样例的推理”。基于规则的推理对于获得系统泛化能力至关重要,因此研究人员旨在确定Transformer模型在数学问题上使用的是哪种推理机制。
通过在五个数学任务上进行精心设计的干预实验,研究人员证实了Transformer模型在使用基于样例的推理,无论是否使用了草稿纸。这与之前的观察结果一致,即Transformer模型使用子图匹配/快捷学习来进行推理。
为了减轻这个问题,研究人员提出了一种称为规则遵循微调(Rule-Following Fine-Tuning,RFFT)的技术,以教授Transformer模型进行基于规则的推理。具体而言,他们向输入中提供明确的规则,然后指导Transformer模型逐步背诵和遵循这些规则。
通过RFFT,研究人员成功地使在1-5位加法上微调的大型语言模型(LLMs)能够泛化到最多12位加法,准确率超过95%。这比使用草稿纸的方法提高了40%以上。这一显著的改进表明,明确教授LLMs使用规则可以帮助它们学习基于规则的推理,并在长度上更好地泛化。
该研究还讨论了Transformer模型在其他数学任务上的表现,并提出了未来的研究方向,以进一步提高这些模型在数学问题上的推理能力。