谷歌DeepMind的研究人员最近提出了一个新的名为ToT(Test of Time)的基准,用于全面评估大型语言模型(LLMs)的时间推理能力。这项研究旨在填补当前研究的空白,即缺乏能够有效衡量LLMs在各种时间推理任务中表现的统一标准。
ToT基准由两个主要任务组成:ToT-Semantic和ToT-Arithmetic。ToT-Semantic是一个基于合成数据的任务,旨在评估LLMs在理解和应用时间逻辑和语义方面的能力。它包括各种问题类型,如事件的时间、事件之间的时间关系、时间间隔内的事件数量等。这些问题要求LLMs能够正确地推理和操作时间信息,而不仅仅是依赖它们在预训练期间可能已经学习到的知识。
ToT-Arithmetic是一个基于真实世界数据的任务,旨在评估LLMs在执行时间计算方面的能力。它包括各种问题类型,如日期和时间的加减、日期和时间的比较、时间间隔的计算等。这些问题要求LLMs能够正确地应用数学运算来解决与时间相关的问题。
为了评估LLMs在ToT基准上的表现,研究人员使用了三个当前最先进的模型:Claude-3-Sonnet、GPT-4和Gemini 1.5 Pro。他们发现,这些模型在ToT-Semantic任务上的表现存在显著差异,这表明不同的模型在理解和应用时间逻辑和语义方面存在不同的优势和劣势。
具体来说,Gemini 1.5 Pro在ToT-Semantic任务上表现出色,尤其是在处理需要多个事实的复杂问题时。这可能是因为Gemini 1.5 Pro在多模态推理方面进行了优化,使其能够更好地处理需要综合多个信息源的问题。
相比之下,GPT-4在ToT-Semantic任务上的表现相对较弱,尤其是在处理需要时间计算的问题时。这可能是因为GPT-4在数学推理方面进行了优化,而时间计算问题通常需要更具体的数学知识。
在ToT-Arithmetic任务上,所有三个模型都表现出色,尤其是在处理涉及不同时区的问题时。这可能是因为这些问题通常需要更少的推理,而更多地依赖于对不同时区规则的记忆。