米开朗基罗怎么说?谷歌DeepMind推出长上下文评估新框架

简介: 谷歌DeepMind团队提出了一种名为“米开朗基罗”(Michelangelo)的新型评估框架,通过潜在结构查询(LSQ)来全面评估大型语言模型(LLM)的长上下文理解能力。相比传统方法,米开朗基罗框架不仅评估模型的检索能力,还能更深入地验证其对上下文的理解和推理能力。

在人工智能领域,大型语言模型(LLM)的长上下文理解能力一直备受关注。然而,如何准确评估这种能力却是一个挑战。近日,谷歌DeepMind团队提出了一种名为"米开朗基罗"(Michelangelo)的新型评估框架,旨在通过潜在结构查询(Latent Structure Queries,LSQ)来更全面地评估LLM的长上下文理解能力。

传统的长上下文评估方法通常依赖于"干草堆"(haystack)类任务,即在大量文本中检索特定信息。然而,这种方法只能评估模型的检索能力,而无法全面评估其对上下文的理解和推理能力。因此,谷歌DeepMind团队提出了米开朗基罗框架,旨在通过更复杂的任务来评估模型的长上下文理解能力。

米开朗基罗框架的核心思想是潜在结构查询(LSQ)。LSQ通过构建需要模型"雕刻"掉上下文中无关信息的任务,以揭示上下文中的潜在结构。然后,通过查询模型关于该结构的细节,来验证其对潜在结构的理解。

具体来说,LSQ包括以下几个步骤:

  1. 任务构建:设计一个需要模型在长上下文中进行推理的任务,例如在一段代码中找到错误,或者在一篇文章中总结关键观点。
  2. 上下文提供:向模型提供包含相关信息和无关信息的长上下文。
  3. 雕刻过程:模型需要通过逐步去除上下文中的无关信息,来揭示潜在结构。
  4. 查询验证:通过查询模型关于潜在结构的细节,来验证其对结构的理解。

米开朗基罗框架相比传统评估方法具有以下优势:

  1. 全面性:米开朗基罗框架不仅评估模型的检索能力,还评估其对上下文的理解和推理能力。
  2. 可解释性:通过LSQ,可以更清楚地了解模型在长上下文中的行为和决策过程。
  3. 可扩展性:米开朗基罗框架可以应用于各种领域和任务,包括代码和自然语言。

为了验证米开朗基罗框架的有效性,谷歌DeepMind团队在代码和自然语言领域进行了实证研究。他们设计了三个诊断性长上下文评估任务,并使用LSQ对多个最先进的LLM进行了评估。

结果表明,米开朗基罗框架能够提供高信号的评估结果,即能够准确区分不同模型的长上下文理解能力。同时,研究还发现,目前的LLM在合成长上下文信息方面仍存在显著改进空间。

米开朗基罗框架的提出为长上下文评估提供了一种新颖且有效的方法。它不仅能够更全面地评估LLM的长上下文理解能力,还能够提供更深入的洞察和解释。然而,该框架也存在一些潜在的挑战和限制。

首先,米开朗基罗框架的任务设计需要专业知识和经验,以确保任务的合理性和有效性。其次,LSQ的雕刻过程和查询验证可能需要大量的计算资源和时间。此外,米开朗基罗框架目前主要关注代码和自然语言领域,对于其他领域的适用性还有待进一步研究。

尽管如此,米开朗基罗框架仍然为长上下文评估提供了一种有前途的方法,并有望推动LLM在长上下文理解能力方面的进一步研究和发展。

论文地址:https://arxiv.org/abs/2409.12640

目录
相关文章
|
10月前
|
人工智能 自然语言处理 算法
谷歌推出”自我发现“框架,极大增强GPT-4等大模型推理能力
【4月更文挑战第20天】谷歌DeepMind团队推出了SELF-DISCOVER框架,让大型语言模型能自我发现并构建推理结构,提升在复杂任务中的性能。该框架模仿人类解决问题方式,分两阶段选择和适应原子推理模块,以解决挑战。在多任务测试中,SELF-DISCOVER相比传统方法表现出色,性能提升42%,计算量减少10至40倍。它具有跨模型应用的普适性,并与人类思维方式相通。然而,它在某些任务类型上仍有优化空间,且需解决计算成本问题。论文链接:https://arxiv.org/abs/2402.03620
134 1
|
10月前
|
人工智能 自然语言处理 UED
微软最新 Sora 分析论文,从中可以看到 Sora 有哪些局限?
【2月更文挑战第17天】微软最新 Sora 分析论文,从中可以看到 Sora 有哪些局限?
114 2
微软最新 Sora 分析论文,从中可以看到 Sora 有哪些局限?
|
10月前
|
机器学习/深度学习 vr&ar 决策智能
创新性3D数据合成模型,微软推出EgoGen
【2月更文挑战第6天】创新性3D数据合成模型,微软推出EgoGen
85 2
创新性3D数据合成模型,微软推出EgoGen
|
16天前
|
人工智能 自然语言处理 测试技术
AxBench:斯坦福大学推出评估语言模型控制方法的基准测试框架
AxBench 是由斯坦福大学推出,用于评估语言模型可解释性方法的基准测试框架,支持概念检测和模型转向任务,帮助研究者系统地比较不同控制技术的有效性。
41 5
AxBench:斯坦福大学推出评估语言模型控制方法的基准测试框架
|
18天前
|
机器学习/深度学习 存储 人工智能
Satori:快速体验MIT与哈佛推出7B参数的推理专家模型,具备自回归搜索和自我纠错能力
Satori 是由 MIT 和哈佛大学等机构联合推出的 7B 参数大型语言模型,专注于提升推理能力,具备强大的自回归搜索和自我纠错功能。
40 5
|
10月前
|
机器学习/深度学习 物联网 数据处理
社区供稿 | 封神榜团队提出首个引入视觉细化器的多模态大模型Ziya-Visual-Lyrics,多个任务SOTA
封神榜大模型团队基于在多模态领域积累的先进技术,首次在多模态大模型上加入图像标记、目标检测、语义分割模块,推出了多模态大模型Ziya-Visual-Lyrics。
|
9月前
|
机器学习/深度学习 语音技术
多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再压缩
【6月更文挑战第12天】谷歌DeepMind的Zipper架构解决了多模态大模型灵活性问题,通过分解为单模态模型并用“压缩”过程组合,实现多模态生成。该方法允许独立训练每个模态,提升灵活性和可扩展性,适用于数据有限或领域特定的模态。Zipper利用交叉注意力机制融合模态输出,适用于图像描述、语音识别等任务。尽管需要更多计算资源且性能受限于单模态模型质量,但已在ASR和TTS领域展现潜力。论文链接:https://arxiv.org/pdf/2405.18669
103 3
|
10月前
|
人工智能
谷歌重磅发布AlphaFold 3,增强人类发现新药方法!
【5月更文挑战第19天】谷歌DeepMind推出AlphaFold 3,这是人工智能在生物分子结构预测上的新里程碑,有望革新药物发现。相较于前代,AlphaFold 3采用新扩散基架构,提升预测复杂结构的准确性,并在蛋白质-配体、蛋白质-核酸及抗体-抗原相互作用预测上展现优越性能。然而,科学家对其预测误差和可能对现有预测工具的影响持谨慎态度。论文链接:[Nature](https://www.nature.com/articles/s41586-024-07487-w#citeas)
81 9
|
10月前
|
人工智能
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
【4月更文挑战第16天】研究人员集成12个大型语言模型(LLM)组成“硅基群体”,在预测比赛中与925名人类预测者对比。研究发现,LLM群体的预测准确性与人类群体无显著差异,且通过集成可抵消个体模型的偏差,提高预测准确。GPT-4和Claude 2等模型结合人类预测后,准确度提升17%至28%。然而,个别LLM预测精度不一,模型选择和校准度是提升预测性能的关键,同时LLM在时间跨度和现实场景适应性方面仍有挑战。
131 6
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
|
10月前
|
人工智能 自动驾驶 机器人
Sora是世界模拟器吗?全球首篇综述全面解析通用世界模型
【5月更文挑战第23天】Sora模型是通用世界模拟器的里程碑,展示出在物理法则理解及多领域应用的潜力,尤其在视频生成和自动驾驶中。然而,它仍面临预测能力、模拟复杂物理现象、计算效率及评估体系的挑战。未来研究将聚焦3D模拟、智能体现和安全问题,旨在提升机器对物理世界的理解和适应性,同时应对信息失真、偏见和隐私问题。[论文链接](https://arxiv.org/abs/2405.03520)
180 2