大语言模型的长文本处理能力

简介: 最近大语言模型的一个发展方向就是大语言的模型的长下文能力(long context),谷歌的Gemini 1.5 100万输入,kimi chat支持允许200万输入。那么于大语言模型的长文本能力到底如何呢? 今天通过分析下两个观点【6月更文挑战第5天】

大语言模型的长文本处理能力

最近大语言模型的一个发展方向就是大语言的模型的长下文能力(long context),谷歌的Gemini 1.5 100万输入,kimi chat支持允许200万输入。

yyq-2024-06-18-23-59-30.png

200万token输入是什么概念? 4本红楼梦
那么于大语言模型的长文本能力到底如何呢? 今天通过分析下两个观点

lost in the middle

斯坦福在2023年在《Lost in the Middle: How Language Models Use Long Contexts》中探讨了当前语言模型在处理长上下文时的性能和效率。具体来说,研究关注的是当相关信息位于输入上下文的不同位置时,这些模型的表现如何

yyq-2024-06-19-00-04-16.png

做的实验得出的结论:

  • 当相关信息位于输入上下文的开始或结束时,模型的表现通常最好。然而,当需要访问位于长上下文中较中间位置的相关信息时,模型的表现会显著下降。

  • 研究发现,尽管最近的语言模型能够处理较长的上下文,但它们在利用这些长上下文中的信息方面并不总是表现得很强。特别是在多文档问答和键值检索任务中,模型的性能随着相关信息位置的变化而显著变化。

有什么启发呢?

  • 重要的信息放在开头和结尾

  • Lost in the Middle: How Language Models Use Long Contexts

大海捞针实验

Lost in the Middle算是古早的实验,采用也是GPT3.5。当前长文本测试比较著名的是大海捞针实验即Needle In A Haystack。

大海捞针实验(Needle In A Haystack)是一种评估大型语言模型(LLM)在长文本中寻找关键信息能力的测试方法。该实验由Greg Kamradt设计,通过在一段长文本中随机插入关键信息(“针”),并测试模型是否能准确地从大量无关信息中提取出关键信息。

实验过程中,研究者会将一段随机的事实或陈述(“针”)放入长文本(“大海”)的中间,随后要求模型检索并回答与该“针”相关的问题。研究者会在文本的不同位置放置“针”,并通过改变上下文长度和“针”的位置来衡量模型的性能

比如把制作完美牛排的三个重要步骤,作为三个“针”插入到上下文的某个位置(如开头、中间与结尾),并且让其他内容和这个三个“针”的知识完全不相关。然后要求LLM基于这个上下文来回答:制作完美牛排的步骤有哪些?以验证LLM在上下文中精准的检索出这三个“针”并推理答案的能力。

在进行大海捞针实验时,通常会使用特定的数据集,这些数据集包含了不同领域的文章,例如金融、游戏、政务、电影、技术和综合等。这些文章确保了测试的公平性和挑战性。评估步骤包括将下载的文件放置在指定的目录下,并在配置文件中指定数据集的参数,如上下文长度、文档深度百分比、使用的tokenizer模型、数据源文件列表等。这些参数允许用户根据自己的需求灵活地创建适合的数据集。

贴两个GPT4有趣的结论

yyq-2024-06-19-00-17-09.png

  • LLM检索的成功率和上下文长度相关:在1k上下文中,GPT4可以找到所有10个针,随着上下文增加,检索的针的准确率在下降
  • LLM检索的成功率和针在上下文的位置有关:上下文增加时,开头的针检索的准确率要低于结尾位置的针

这个clause的测试

Claude_2_1_testing.png

目录
相关文章
解决报错:AddressSanitizer: heap-buffer-overflow
leetcode使用AddressSanitizer检查内存是否存在非法访问。报此错,主要是访问了非法内容。 解决方法:数组访问越界,导致此错,后来发现是在访问二维数组的边界row和col弄反了。。
3719 0
|
存储 Shell 网络安全
|
8月前
|
存储 人工智能 数据库
构建有记忆的 AI Agent:SQLite 存储 + 向量检索完整方案示例
本文介绍如何为AI Agent构建记忆系统,通过SQLite存储交互历史、向量数据库实现语义检索,结合LLM反思与总结,赋予Agent跨会话记忆、自我反思和目标追踪能力,使其从被动应答工具进化为可长期协作的智能伙伴。
1331 2
|
9月前
|
存储 监控 数据可视化
大模型可观测1-5-10:发现、定位、恢复的三层能力建设
本文通过丰富的代码Demo和截图为读者提供了可落地的实践指南。
1067 34
大模型可观测1-5-10:发现、定位、恢复的三层能力建设
|
9月前
|
存储 人工智能 文字识别
PDF解析迎来技术革新!阿里新产品实现复杂文档端到端结构化处理
前言9月24日云栖大会现场,由阿里巴巴爱橙科技数据技术及产品团队自主研发的 PDF解析神器正式亮相并同步开源模型。这款基于Logics-Parsing模型构建的AI工具直指当前PDF解析领域的技术痛点,显著提升复杂文档的结构…
1359 0
PDF解析迎来技术革新!阿里新产品实现复杂文档端到端结构化处理
|
12月前
|
数据采集 人工智能 安全
揭秘大模型评测:如何用“说明书”式方法实现业务场景下的精准评估
本文旨在系统性地介绍如何在实际业务场景中开展大模型评测工作,帮助读者理解并掌握从需求分析、评测集设计与生成、评测维度设定、评测任务执行到评测报告输出的完整流程。
|
机器学习/深度学习 自然语言处理 小程序
MiniMax开源超长文本处理神器,魔搭社区助力开发者推理部署
Transfermor架构与生俱来的二次计算复杂度,及其所带来的上下文窗口瓶颈,一直为业界所关注。此前,MiniMax开源了MiniMax-01系列模型,采用创新的线性注意力架构,使得模型能够在100万个token长度的上下文窗口上进行预训练;而在推理时,实现了高效处理全球最长400万token的上下文,是目前最长上下文窗口的20倍。
979 0
|
人工智能 JSON 网络协议
Apipost支持协议全解析,从入门到摸鱼,轻松搞定!
Apipost是一款强大的协议调试工具,支持HTTP、gRPC、WebSocket、TCP、GraphQL等主流协议,甚至涵盖冷门金融协议如ISO8583和FIX。它不仅提供灵活的调试功能,还支持自动生成文档,大幅提升开发效率。文章详解各协议的应用场景与操作技巧,如HTTP国密算法增强、SSE实时流式传输调试、WebSocket长连接维护、GraphQL Schema自动生成等。此外,Apipost通过环境变量、脚本加持和文档生成等功能实现自动化调试,助你轻松搞定从入门到精通的各类需求。无论是HTTP还是复杂金融报文,Apipost都能让你事半功倍!
|
存储 数据采集 物联网
物联网技术在物流领域的应用会遇到哪些挑战?
物联网技术在物流领域的应用会遇到哪些挑战?
921 60