谷歌DeepMind全新ToT基准:全面评估LLM时间推理能力

简介: 【7月更文挑战第10天】DeepMind的ToT基准测试了大型语言模型的时间推理能力,分为ToT-Semantic(合成数据,评估时间逻辑理解)和ToT-Arithmetic(真实数据,检查时间计算)。研究使用Claude-3-Sonnet、GPT-4和Gemini 1.5 Pro进行评估,发现模型在时间逻辑理解上表现各异,而时间计算上均较强。 Gemini 1.5 Pro在复杂问题上表现出色,而GPT-4在数学相关问题上较弱。[[1](https://arxiv.org/pdf/2406.09170)]

谷歌DeepMind的研究人员最近提出了一个新的名为ToT(Test of Time)的基准,用于全面评估大型语言模型(LLMs)的时间推理能力。这项研究旨在填补当前研究的空白,即缺乏能够有效衡量LLMs在各种时间推理任务中表现的统一标准。

ToT基准由两个主要任务组成:ToT-Semantic和ToT-Arithmetic。ToT-Semantic是一个基于合成数据的任务,旨在评估LLMs在理解和应用时间逻辑和语义方面的能力。它包括各种问题类型,如事件的时间、事件之间的时间关系、时间间隔内的事件数量等。这些问题要求LLMs能够正确地推理和操作时间信息,而不仅仅是依赖它们在预训练期间可能已经学习到的知识。

ToT-Arithmetic是一个基于真实世界数据的任务,旨在评估LLMs在执行时间计算方面的能力。它包括各种问题类型,如日期和时间的加减、日期和时间的比较、时间间隔的计算等。这些问题要求LLMs能够正确地应用数学运算来解决与时间相关的问题。

为了评估LLMs在ToT基准上的表现,研究人员使用了三个当前最先进的模型:Claude-3-Sonnet、GPT-4和Gemini 1.5 Pro。他们发现,这些模型在ToT-Semantic任务上的表现存在显著差异,这表明不同的模型在理解和应用时间逻辑和语义方面存在不同的优势和劣势。

具体来说,Gemini 1.5 Pro在ToT-Semantic任务上表现出色,尤其是在处理需要多个事实的复杂问题时。这可能是因为Gemini 1.5 Pro在多模态推理方面进行了优化,使其能够更好地处理需要综合多个信息源的问题。

相比之下,GPT-4在ToT-Semantic任务上的表现相对较弱,尤其是在处理需要时间计算的问题时。这可能是因为GPT-4在数学推理方面进行了优化,而时间计算问题通常需要更具体的数学知识。

在ToT-Arithmetic任务上,所有三个模型都表现出色,尤其是在处理涉及不同时区的问题时。这可能是因为这些问题通常需要更少的推理,而更多地依赖于对不同时区规则的记忆。

论文地址:https://arxiv.org/pdf/2406.09170

目录
相关文章
|
2月前
|
存储 机器学习/深度学习 算法
​​LLM推理效率的范式转移:FlashAttention与PagedAttention正在重塑AI部署的未来​
本文深度解析FlashAttention与PagedAttention两大LLM推理优化技术:前者通过分块计算提升注意力效率,后者借助分页管理降低KV Cache内存开销。二者分别从计算与内存维度突破性能瓶颈,显著提升大模型推理速度与吞吐量,是当前高效LLM系统的核心基石。建议收藏细读。
610 125
|
1月前
|
人工智能 自然语言处理 TensorFlow
134_边缘推理:TensorFlow Lite - 优化移动端LLM部署技术详解与实战指南
在人工智能与移动计算深度融合的今天,将大语言模型(LLM)部署到移动端和边缘设备已成为行业发展的重要趋势。TensorFlow Lite作为专为移动和嵌入式设备优化的轻量级推理框架,为开发者提供了将复杂AI模型转换为高效、低功耗边缘计算解决方案的强大工具。随着移动设备硬件性能的不断提升和模型压缩技术的快速发展,2025年的移动端LLM部署已不再是遥远的愿景,而是正在成为现实的技术实践。
|
2月前
|
机器学习/深度学习 人工智能 前端开发
解决推理能力瓶颈,用因果推理提升LLM智能决策
从ChatGPT到AI智能体,标志着AI从对话走向自主执行复杂任务的能力跃迁。AI智能体可完成销售、旅行规划、外卖点餐等多场景任务,但其发展受限于大语言模型(LLM)的推理能力。LLM依赖统计相关性,缺乏对因果关系的理解,导致在非确定性任务中表现不佳。结合因果推理与内省机制,有望突破当前AI智能体的推理瓶颈,提升其决策准确性与自主性。
289 6
解决推理能力瓶颈,用因果推理提升LLM智能决策
|
1月前
|
机器学习/深度学习 缓存 PyTorch
131_推理加速:ONNX与TensorRT深度技术解析与LLM模型转换优化实践
在大语言模型(LLM)时代,高效的推理加速已成为部署高性能AI应用的关键挑战。随着模型规模的不断扩大(从BERT的数亿参数到GPT-4的数千亿参数),推理过程的计算成本和延迟问题日益突出。ONNX(开放神经网络交换格式)和TensorRT作为业界领先的推理优化框架,为LLM的高效部署提供了强大的技术支持。本文将深入探讨LLM推理加速的核心原理,详细讲解PyTorch模型转换为ONNX和TensorRT的完整流程,并结合2025年最新优化技术,提供可落地的代码实现与性能调优方案。
|
1月前
|
人工智能 自然语言处理 安全
43_PaLM与Gemma:谷歌LLM演进
在人工智能发展的浪潮中,谷歌一直扮演着关键的技术引领者角色。从最初的神经机器翻译到如今的通用人工智能,谷歌通过持续的技术创新推动着自然语言处理领域的边界不断拓展。2022年,谷歌推出了革命性的PaLM(Pathways Language Model),这一模型不仅在规模上达到了前所未有的5400亿参数,更重要的是其采用了创新的Pathways训练方法,为大型语言模型的发展开辟了新路径。随后,谷歌又推出了Gemma系列开源模型,将先进的AI技术普惠给更广泛的开发者社区。
|
1月前
|
缓存 监控 安全
80_离线环境搭建:无互联网LLM推理
在当今大语言模型(LLM)蓬勃发展的时代,许多组织和个人面临着一个共同的挑战:如何在无互联网连接的环境中高效部署和使用LLM?这一需求源于多方面的考量,包括数据安全、隐私保护、网络限制、极端环境作业等。2025年,随着企业对数据主权意识的增强和边缘计算的普及,离线LLM部署已成为AI应用落地的关键场景之一。
|
1月前
|
人工智能 自然语言处理 监控
09_LLM评估方法:如何判断模型性能的好坏
在2025年的今天,大语言模型(LLM)已经成为人工智能领域的核心技术,它们能够理解和生成人类语言,执行复杂的认知任务。然而,随着模型能力的不断提升,如何科学、全面地评估这些模型的性能,成为了一个至关重要的问题。
|
2月前
|
存储 缓存 负载均衡
LLM推理成本直降60%:PD分离在大模型商业化中的关键价值
在LLM推理中,Prefill(计算密集)与Decode(访存密集)阶段特性不同,分离计算可提升资源利用率。本文详解vLLM框架中的PD分离实现及局限,并分析Dynamo、Mooncake、SGLang等主流方案,探讨KV缓存、传输机制与调度策略,助力LLM推理优化。建议点赞收藏,便于后续查阅。
1447 1
|
4月前
|
人工智能 自然语言处理 数据可视化
AI-Compass LLM评估框架:CLiB中文大模型榜单、OpenCompass司南、RAGas、微软Presidio等构建多维度全覆盖评估生态系统
AI-Compass LLM评估框架:CLiB中文大模型榜单、OpenCompass司南、RAGas、微软Presidio等构建多维度全覆盖评估生态系统
 AI-Compass LLM评估框架:CLiB中文大模型榜单、OpenCompass司南、RAGas、微软Presidio等构建多维度全覆盖评估生态系统

热门文章

最新文章