长上下文能力只是吹牛?最强GPT-4o正确率仅55.8%,开源模型不如瞎蒙

简介: 【8月更文挑战第10天】新研究NoCha挑战显示,即使是顶级的大型语言模型GPT-4o,在处理长篇幅文本时正确率仅55.8%,低于人类直观水平。该挑战基于近作英文小说,检验模型对整本书信息的理解与推理能力。结果显示,模型在全局推理上的表现不佳,倾向于依赖局部信息而非整体上下文,尤其是在复杂推理需求高的科幻小说上表现更弱。这一发现揭示了当前模型在处理长上下文任务上的局限性。论文链接: [https://arxiv.org/pdf/2406.16264](https://arxiv.org/pdf/2406.16264)。

近年来,大型语言模型(LLM)的上下文处理能力得到了显著提升。然而,最近一项研究却对这些模型在处理长上下文任务时的实际表现提出了质疑。这篇论文的作者们设计了一个名为NoCha的挑战,旨在评估LLM在处理长达一本书长度的文本时,是否能够真正理解和推理其中的信息。

NoCha是一个包含1001对关于67本最近出版的英语小说的真实和虚假声明的数据集。这些声明需要对整本书进行全局推理才能验证。研究者们发现,尽管人类读者能够轻松完成这个任务,但对于他们评估的所有十个长上下文LLM来说,这个任务却极具挑战性。

在实验中,没有一个开源模型的性能能够超过随机猜测的水平,而最强的GPT-4o模型也只能达到55.8%的正确率。这表明,尽管这些模型在处理短文本时表现出色,但在处理长文本时,它们的能力仍然有限。

进一步的分析揭示了一些有趣的发现。首先,模型在需要进行句子级别检索的任务上表现得更好,而在需要进行全局推理的任务上表现得较差。这表明,这些模型在处理长文本时,可能更依赖于局部信息,而忽视了全局的上下文。

其次,模型生成的解释其决策的理由往往是不准确的,即使对于正确标记的声明也是如此。这表明,这些模型可能没有真正理解它们所处理的信息,而是依赖于一些表面的模式匹配。

最后,模型在处理包含大量世界构建的推测性小说时表现得更差。这表明,这些模型可能在处理需要更复杂推理的文本时存在困难。

尽管这些发现令人失望,但研究者们也指出,他们的研究方法可以用于未来模型的评估和改进。他们的方法允许数据集的演变和对未来模型的轻松分析。

然而,我们也应该认识到,这项研究只评估了LLM在处理小说文本时的能力。在其他领域,如科学文献或法律文件,这些模型可能表现得更好。此外,这项研究只评估了十个模型,这可能无法代表所有LLM的能力。

因此,我们需要更多的研究来全面评估LLM在处理长文本时的能力。这将有助于我们更好地理解这些模型的局限性,并指导未来的改进工作。

在未来,我们可以考虑使用更多样化的数据集来评估LLM的能力,包括不同领域和不同类型的文本。我们还可以探索不同的评估方法,以更准确地衡量模型的理解和推理能力。

此外,我们还可以考虑将人类的知识和推理能力与LLM的能力相结合,以创建更强大的语言处理系统。这可以通过将人类的知识编码到模型中,或通过让人类与模型协同工作来实现。

论文地址:https://arxiv.org/pdf/2406.16264

目录
相关文章
|
11天前
|
机器学习/深度学习 人工智能 自然语言处理
当语言遇见智慧火花:GPT家族历代模型大起底,带你见证从平凡到卓越的AI进化奇迹!
【10月更文挑战第6天】随着自然语言处理技术的进步,GPT系列模型(Generative Pre-trained Transformers)成为该领域的明星。从GPT-1的开创性工作,到GPT-2在规模与性能上的突破,再到拥有1750亿参数的GPT-3及其无需微调即可执行多种NLP任务的能力,以及社区驱动的GPT-NeoX,这些模型不断进化。虽然它们展现出强大的语言理解和生成能力,但也存在如生成错误信息或偏见等问题。本文将对比分析各代GPT模型的特点,并通过示例代码展示其部分功能。
48 2
|
8天前
|
数据采集 API 决策智能
华为诺亚联合中科大发布工具调用模型ToolACE,效果持平GPT-4获开源第一
 【10月更文挑战第10天】华为诺亚方舟实验室与中国科学技术大学合作推出ToolACE,一种自进化合成过程的工具调用模型。ToolACE通过多智能体交互和双重验证系统生成准确、复杂、多样化的工具学习数据,显著提升大型语言模型(LLM)的功能调用能力。实验结果显示,使用ToolACE数据训练的80亿参数模型性能媲美GPT-4,在伯克利功能调用排行榜上获得开源第一。
29 4
|
1月前
|
API 云栖大会
通义千问升级旗舰模型Qwen-Max,性能接近GPT-4o
通义旗舰模型Qwen-Max全方位升级,性能接近GPT-4o
525 10
|
19天前
|
存储 数据采集 数据安全/隐私保护
商汤、清华、复旦等开源百亿级多模态数据集,可训练类GPT-4o模型
商汤科技、清华大学和复旦大学等机构联合开源了名为OmniCorpus的多模态数据集,规模达百亿级,旨在支持类似GPT-4级别的大型多模态模型训练。该数据集包含86亿张图像和1696亿个文本标记,远超现有数据集规模并保持高质量,具备广泛来源和灵活性,可轻松转换为纯文本或图像-文本对。经验证,该数据集质量优良,有望促进多模态模型研究,但同时也面临存储管理、数据偏见及隐私保护等挑战。
110 60
|
13天前
|
人工智能 编解码 文字识别
阿里国际AI开源Ovis1.6,多项得分超GPT-4o-mini!
阿里国际AI团队提出了一种名为Ovis (Open VISion)的新型多模态大模型的架构。
|
1月前
|
数据可视化 Swift
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!
旗舰端侧模型面壁「小钢炮」系列进化为全新 MiniCPM 3.0 基座模型,再次以小博大,以 4B 参数,带来超越 GPT-3.5 的性能。并且,量化后仅 2GB 内存,端侧友好。
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!
|
14天前
|
API
2024-05-14 最新!OpenAI 新模型 GPT-4 omni 简单测试,4o速度确实非常快!而且很便宜!
2024-05-14 最新!OpenAI 新模型 GPT-4 omni 简单测试,4o速度确实非常快!而且很便宜!
31 0
|
15天前
|
开发工具 git
LLM-03 大模型 15分钟 FineTuning 微调 GPT2 模型 finetuning GPT微调实战 仅需6GB显存 单卡微调 数据 10MB数据集微调
LLM-03 大模型 15分钟 FineTuning 微调 GPT2 模型 finetuning GPT微调实战 仅需6GB显存 单卡微调 数据 10MB数据集微调
32 0
|
1月前
|
人工智能 自然语言处理 数据挖掘
【通义】AI视界|性能超越GPT-4o?最强大的开源AI模型来了……
本文介绍了五项最新AI技术动态,包括性能超越GPT-4o的开源AI模型Reflection70B、智谱清言App限时免费的视频通话功能、哈佛医学院研发的癌症诊断AI模型CHIEF、Replit推出的AI编程助手,以及英特尔与日本AIST合作设立的芯片制造研发中心。这些进展展示了AI领域的快速创新与广泛应用。更多详情,请访问通义官网体验。
|
1月前
|
测试技术 人机交互
没有等来OpenAI开源GPT-4o,等来了开源版VITA
【9月更文挑战第9天】近日,论文《Towards Open-Source Interactive Omni Multimodal LLM》介绍了VITA,一种基于Mixtral 8×7B的新型开源多模态大语言模型,能处理视频、图像、文本和音频等多模态数据,并提供先进的人机交互体验,填补了开源模型在多模态能力上的空白。经多任务学习及指令微调,VITA在多个基准测试中表现出色,但仍存在基础能力和嘈杂音频处理等方面的局限。更多详情见论文:https://arxiv.org/pdf/2408.05211
43 3

热门文章

最新文章