在人类认知理论中,人类思考过程由两个系统主导:快速且直观的System 1和较慢但更深思熟虑的System 2。近年来,将System 2过程融入Transformer,包括大型语言模型(LLMs),可以显著提高其推理能力。然而,纯粹模仿System 2思考的模型需要更高的计算成本,并且响应速度较慢。为了解决这一挑战,田渊栋团队提出了Dualformer,一个单一的Transformer模型,它无缝地整合了快速和慢速的推理模式。
Dualformer的创新之处在于它能够同时具备快速和慢速的推理能力。通过在训练中使用随机化的推理轨迹数据,Dualformer能够学习到如何在不同情况下选择合适的推理模式。在推理过程中,Dualformer可以被配置为仅输出解决方案(快速模式),或同时输出推理链和最终解决方案(慢速模式),也可以自动决定使用哪种模式(自动模式)。
在性能方面,Dualformer在所有模式下都表现出色。在慢速模式下,Dualformer能够以97.6%的准确率解决未见过的30×30迷宫导航任务,超过了Searchformer(一种在完整推理轨迹数据上训练的模型)93.3%的准确率,同时仅使用了45.5%的推理步骤。在快速模式下,Dualformer能够以80%的准确率完成这些任务,显著优于Solution-Only模型(一种在仅包含解决方案数据上训练的模型)30%的准确率。在自动模式下,Dualformer能够以96.6%的准确率完成任务,同时使用了59.9%的推理步骤,比Searchformer更少。
Dualformer的应用前景非常广阔。首先,它可以用于解决各种规划和推理任务,如迷宫导航和Sokoban游戏。在这些任务中,Dualformer能够生成更准确和高效的解决方案,同时保持较高的多样性。其次,Dualformer还可以用于大型语言模型的微调,以改善其在数学问题解答等任务中的表现。通过使用Dualformer的训练技巧,LLMs能够更好地处理复杂的数学问题,并提供更准确的答案。
Dualformer的提出为Transformer模型在规划和推理任务中的应用提供了新的思路和方法。它通过整合快速和慢速的推理模式,提高了模型的准确性和效率,同时保持了较高的多样性。然而,Dualformer也存在一些局限性。首先,它的训练过程需要大量的计算资源和时间,这可能限制了它的广泛应用。其次,Dualformer的自动模式在实际应用中可能需要更多的调试和优化,以确保其在各种情况下都能够做出最佳的决策。