长上下文能力只是吹牛?最强GPT-4o正确率仅55.8%,开源模型不如瞎蒙

简介: 【8月更文挑战第10天】新研究NoCha挑战显示,即使是顶级的大型语言模型GPT-4o,在处理长篇幅文本时正确率仅55.8%,低于人类直观水平。该挑战基于近作英文小说,检验模型对整本书信息的理解与推理能力。结果显示,模型在全局推理上的表现不佳,倾向于依赖局部信息而非整体上下文,尤其是在复杂推理需求高的科幻小说上表现更弱。这一发现揭示了当前模型在处理长上下文任务上的局限性。论文链接: [https://arxiv.org/pdf/2406.16264](https://arxiv.org/pdf/2406.16264)。

近年来,大型语言模型(LLM)的上下文处理能力得到了显著提升。然而,最近一项研究却对这些模型在处理长上下文任务时的实际表现提出了质疑。这篇论文的作者们设计了一个名为NoCha的挑战,旨在评估LLM在处理长达一本书长度的文本时,是否能够真正理解和推理其中的信息。

NoCha是一个包含1001对关于67本最近出版的英语小说的真实和虚假声明的数据集。这些声明需要对整本书进行全局推理才能验证。研究者们发现,尽管人类读者能够轻松完成这个任务,但对于他们评估的所有十个长上下文LLM来说,这个任务却极具挑战性。

在实验中,没有一个开源模型的性能能够超过随机猜测的水平,而最强的GPT-4o模型也只能达到55.8%的正确率。这表明,尽管这些模型在处理短文本时表现出色,但在处理长文本时,它们的能力仍然有限。

进一步的分析揭示了一些有趣的发现。首先,模型在需要进行句子级别检索的任务上表现得更好,而在需要进行全局推理的任务上表现得较差。这表明,这些模型在处理长文本时,可能更依赖于局部信息,而忽视了全局的上下文。

其次,模型生成的解释其决策的理由往往是不准确的,即使对于正确标记的声明也是如此。这表明,这些模型可能没有真正理解它们所处理的信息,而是依赖于一些表面的模式匹配。

最后,模型在处理包含大量世界构建的推测性小说时表现得更差。这表明,这些模型可能在处理需要更复杂推理的文本时存在困难。

尽管这些发现令人失望,但研究者们也指出,他们的研究方法可以用于未来模型的评估和改进。他们的方法允许数据集的演变和对未来模型的轻松分析。

然而,我们也应该认识到,这项研究只评估了LLM在处理小说文本时的能力。在其他领域,如科学文献或法律文件,这些模型可能表现得更好。此外,这项研究只评估了十个模型,这可能无法代表所有LLM的能力。

因此,我们需要更多的研究来全面评估LLM在处理长文本时的能力。这将有助于我们更好地理解这些模型的局限性,并指导未来的改进工作。

在未来,我们可以考虑使用更多样化的数据集来评估LLM的能力,包括不同领域和不同类型的文本。我们还可以探索不同的评估方法,以更准确地衡量模型的理解和推理能力。

此外,我们还可以考虑将人类的知识和推理能力与LLM的能力相结合,以创建更强大的语言处理系统。这可以通过将人类的知识编码到模型中,或通过让人类与模型协同工作来实现。

论文地址:https://arxiv.org/pdf/2406.16264

相关文章
|
1天前
|
Web App开发 人工智能 自然语言处理
GPT-5涌现能力可预测?UC伯克利仅使用当前模型检查点预测未来模型
加州大学伯克利分校的一项新研究提出了一种基于微调大型语言模型(LLM)的方法,以预测未来模型的涌现能力。通过在特定任务上微调现有模型并拟合参数化函数,研究团队能够在四个NLP基准测试中准确预测未来模型的能力。该方法为模型开发者和政策制定者提供了重要工具,但也存在局限性,如仅能预测4倍计算资源内的涌现现象。论文地址:https://arxiv.org/pdf/2411.16035。
15 1
|
6天前
|
机器学习/深度学习 人工智能 编解码
R1-Onevision:开源多模态推理之王!复杂视觉难题一键解析,超越GPT-4V
R1-Onevision 是一款开源的多模态视觉推理模型,基于 Qwen2.5-VL 微调,专注于复杂视觉推理任务。它通过整合视觉和文本数据,能够在数学、科学、深度图像理解和逻辑推理等领域表现出色,并在多项基准测试中超越了 Qwen2.5-VL-7B 和 GPT-4V 等模型。
57 0
R1-Onevision:开源多模态推理之王!复杂视觉难题一键解析,超越GPT-4V
|
7天前
|
人工智能 算法 测试技术
OctoTools:斯坦福开源AI推理神器!16项测试准确率碾压GPT-4o,一键搞定复杂任务
OctoTools 是斯坦福大学推出的开源智能体框架,通过标准化工具卡片和自动化工具集优化算法,显著提升复杂推理任务的解决效率,支持多领域应用。
47 3
OctoTools:斯坦福开源AI推理神器!16项测试准确率碾压GPT-4o,一键搞定复杂任务
|
18天前
|
机器学习/深度学习 人工智能 自然语言处理
通古大模型:古籍研究者狂喜!华南理工开源文言文GPT:AI自动断句+写诗翻译,24亿语料喂出来的学术神器
通古大模型由华南理工大学开发,专注于古籍文言文处理,具备强大的古文句读、文白翻译和诗词创作功能。
90 11
通古大模型:古籍研究者狂喜!华南理工开源文言文GPT:AI自动断句+写诗翻译,24亿语料喂出来的学术神器
|
24天前
|
自然语言处理 自动驾驶 机器人
续命Scaling Law?世界模型GPT-4o让智能体超级规划,OSU华人一作
GPT-4o是OpenAI推出的先进语言模型,不仅在自然语言处理上表现出色,更在智能体规划领域展现了巨大潜力。它能模拟预测行动结果,提供决策支持,实现高效智能规划。适用于自动驾驶、机器人等领域,助力复杂任务的优化执行。尽管面临计算资源和环境一致性等挑战,GPT-4o仍为智能体规划带来新机遇。论文地址:https://arxiv.org/abs/2411.06559
30 2
|
2月前
|
机器学习/深度学习 人工智能 算法
k1.5:性能超越 GPT-4 和 Claude 3.5!Kimi 新一代多模态推理模型
Kimi k1.5 是月之暗面推出的多模态思考模型,具备强大的推理和多模态处理能力,支持长链思维与短链思维,性能超越GPT-4和Claude 3.5。
378 10
k1.5:性能超越 GPT-4 和 Claude 3.5!Kimi 新一代多模态推理模型
|
2月前
|
人工智能 语音技术 iOS开发
MiniCPM-o 2.6:面壁智能开源多模态大模型,仅8B参数量就能媲美GPT-4o,支持实时交互,在ipad等终端设备上运行
MiniCPM-o 2.6 是面壁智能开源的多模态大模型,支持视觉、语音和多模态直播,性能媲美GPT-4o,能够在端侧设备上高效运行。
367 10
MiniCPM-o 2.6:面壁智能开源多模态大模型,仅8B参数量就能媲美GPT-4o,支持实时交互,在ipad等终端设备上运行
|
2月前
|
人工智能 Python
JoyCaption:开源的图像转提示词生成工具,支持多种风格和场景,性能与 GPT4o 相当
JoyCaption 是一款开源的图像提示词生成工具,支持多种生成模式和灵活的提示选项,适用于社交媒体、图像标注、内容创作等场景,帮助用户快速生成高质量图像描述。
266 21
JoyCaption:开源的图像转提示词生成工具,支持多种风格和场景,性能与 GPT4o 相当
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
MetaGPT开源自动生成智能体工作流,4.55%成本超GPT-4o
AFlow是由Jiayi Zhang等学者提出的一项新研究,发表于arXiv。它通过将工作流优化问题转化为代码表示空间中的搜索,并引入蒙特卡洛树搜索(MCTS)算法,实现了高效的工作流自动化生成与优化。在六个基准数据集上,AFlow性能比现有基线平均提高5.7%,并使小模型以较低成本超越GPT-4。尽管存在一些局限性,如通用性和计算复杂度,AFlow为降低大型语言模型应用成本提供了新思路,推动了人工智能技术的进步。论文地址:https://arxiv.org/abs/2410.10762。
99 27
|
3月前
|
数据采集 人工智能 数据可视化
InternVL 2.5,首个MMMU超过70%的开源模型,性能媲美GPT-4o
近期Internvl2.5发布,性能与GPT-4o和Claude-3.5-sonnet等领先的商业模型相媲美,成为首个在MMMU上超过70%的开源模型,通过链式思考(CoT)推理实现了3.7个百分点的提升,展示了强大的测试时间可扩展性潜力。

热门文章

最新文章