大语言模型的长文本处理能力

简介: 最近大语言模型的一个发展方向就是大语言的模型的长下文能力(long context),谷歌的Gemini 1.5 100万输入,kimi chat支持允许200万输入。那么于大语言模型的长文本能力到底如何呢? 今天通过分析下两个观点【6月更文挑战第5天】

大语言模型的长文本处理能力

最近大语言模型的一个发展方向就是大语言的模型的长下文能力(long context),谷歌的Gemini 1.5 100万输入,kimi chat支持允许200万输入。

yyq-2024-06-18-23-59-30.png

200万token输入是什么概念? 4本红楼梦
那么于大语言模型的长文本能力到底如何呢? 今天通过分析下两个观点

lost in the middle

斯坦福在2023年在《Lost in the Middle: How Language Models Use Long Contexts》中探讨了当前语言模型在处理长上下文时的性能和效率。具体来说,研究关注的是当相关信息位于输入上下文的不同位置时,这些模型的表现如何

yyq-2024-06-19-00-04-16.png

做的实验得出的结论:

  • 当相关信息位于输入上下文的开始或结束时,模型的表现通常最好。然而,当需要访问位于长上下文中较中间位置的相关信息时,模型的表现会显著下降。

  • 研究发现,尽管最近的语言模型能够处理较长的上下文,但它们在利用这些长上下文中的信息方面并不总是表现得很强。特别是在多文档问答和键值检索任务中,模型的性能随着相关信息位置的变化而显著变化。

有什么启发呢?

  • 重要的信息放在开头和结尾

  • Lost in the Middle: How Language Models Use Long Contexts

大海捞针实验

Lost in the Middle算是古早的实验,采用也是GPT3.5。当前长文本测试比较著名的是大海捞针实验即Needle In A Haystack。

大海捞针实验(Needle In A Haystack)是一种评估大型语言模型(LLM)在长文本中寻找关键信息能力的测试方法。该实验由Greg Kamradt设计,通过在一段长文本中随机插入关键信息(“针”),并测试模型是否能准确地从大量无关信息中提取出关键信息。

实验过程中,研究者会将一段随机的事实或陈述(“针”)放入长文本(“大海”)的中间,随后要求模型检索并回答与该“针”相关的问题。研究者会在文本的不同位置放置“针”,并通过改变上下文长度和“针”的位置来衡量模型的性能

比如把制作完美牛排的三个重要步骤,作为三个“针”插入到上下文的某个位置(如开头、中间与结尾),并且让其他内容和这个三个“针”的知识完全不相关。然后要求LLM基于这个上下文来回答:制作完美牛排的步骤有哪些?以验证LLM在上下文中精准的检索出这三个“针”并推理答案的能力。

在进行大海捞针实验时,通常会使用特定的数据集,这些数据集包含了不同领域的文章,例如金融、游戏、政务、电影、技术和综合等。这些文章确保了测试的公平性和挑战性。评估步骤包括将下载的文件放置在指定的目录下,并在配置文件中指定数据集的参数,如上下文长度、文档深度百分比、使用的tokenizer模型、数据源文件列表等。这些参数允许用户根据自己的需求灵活地创建适合的数据集。

贴两个GPT4有趣的结论

yyq-2024-06-19-00-17-09.png

  • LLM检索的成功率和上下文长度相关:在1k上下文中,GPT4可以找到所有10个针,随着上下文增加,检索的针的准确率在下降
  • LLM检索的成功率和针在上下文的位置有关:上下文增加时,开头的针检索的准确率要低于结尾位置的针

这个clause的测试

Claude_2_1_testing.png

目录
相关文章
|
设计模式 Java uml
C++设计模式之 依赖注入模式探索
C++设计模式之 依赖注入模式探索
828 0
|
监控 数据可视化 大数据
蚂蚁金服数据洞察分析平台DeepInsight:人人都是数据分析师
小蚂蚁说: 大数据时代,由数据驱动的用户行为分析、运营分析、业务分析无疑是最被关注的“热词”,尤其对于拥有海量数据的大中型企业来说,对数据的需求已远远超越了传统数据报表所能提供的范畴。如何运用自助式BI实现当代企业精细化运营,已成为企业运营管理的新课题。
7983 0
解决报错:AddressSanitizer: heap-buffer-overflow
leetcode使用AddressSanitizer检查内存是否存在非法访问。报此错,主要是访问了非法内容。 解决方法:数组访问越界,导致此错,后来发现是在访问二维数组的边界row和col弄反了。。
3604 0
|
存储 Shell 网络安全
|
6月前
|
存储 人工智能 文字识别
PDF解析迎来技术革新!阿里新产品实现复杂文档端到端结构化处理
前言9月24日云栖大会现场,由阿里巴巴爱橙科技数据技术及产品团队自主研发的 PDF解析神器正式亮相并同步开源模型。这款基于Logics-Parsing模型构建的AI工具直指当前PDF解析领域的技术痛点,显著提升复杂文档的结构…
851 0
PDF解析迎来技术革新!阿里新产品实现复杂文档端到端结构化处理
|
9月前
|
数据采集 人工智能 安全
揭秘大模型评测:如何用“说明书”式方法实现业务场景下的精准评估
本文旨在系统性地介绍如何在实际业务场景中开展大模型评测工作,帮助读者理解并掌握从需求分析、评测集设计与生成、评测维度设定、评测任务执行到评测报告输出的完整流程。
|
存储 安全 持续交付
【Docker 专栏】Docker 镜像的版本控制与管理
【5月更文挑战第9天】本文探讨了Docker镜像版本控制与管理的重要性,包括可重复性、回滚能力、协作开发和持续集成。常用方法有标签、构建参数和版本控制系统。管理策略涉及定期清理、分层管理和镜像仓库。语义化标签、环境变量和配置文件在版本控制中有应用。版本系统与Docker结合能跟踪历史和促进协作。注意点包括优化镜像大小、确保安全性和兼容性。案例分析和未来趋势展示了持续发展的镜像管理技术,为Docker应用的稳定与进步保驾护航。
920 7
【Docker 专栏】Docker 镜像的版本控制与管理
|
Docker 容器
Docker-compose停止并删除容器
Docker-compose停止并删除容器
1279 0
|
存储 机器学习/深度学习 缓存
MemLong: 基于记忆增强检索的长文本LLM生成方法
本文介绍了一种名为MemLong的创新长文本处理方法,该方法通过整合外部检索器显著增强了大型语言模型处理长上下文的能力。MemLong采用轻量级设计,利用不可训练的外部记忆库存储历史上下文和知识,并通过检索相关的块级键值对增强模型输入。其技术优势包括分布一致性、高效训练策略及扩展的上下文窗口,能够在单个GPU上处理长达80k个token的文本,同时保持计算效率和内存控制。实验结果显示,MemLong在多个长文本基准数据集上表现出色,显著提升了语言建模能力和上下文学习效果。
1190 1

热门文章

最新文章