大语言模型的长文本处理能力

简介: 最近大语言模型的一个发展方向就是大语言的模型的长下文能力(long context),谷歌的Gemini 1.5 100万输入,kimi chat支持允许200万输入。那么于大语言模型的长文本能力到底如何呢? 今天通过分析下两个观点【6月更文挑战第5天】

大语言模型的长文本处理能力

最近大语言模型的一个发展方向就是大语言的模型的长下文能力(long context),谷歌的Gemini 1.5 100万输入,kimi chat支持允许200万输入。

yyq-2024-06-18-23-59-30.png

200万token输入是什么概念? 4本红楼梦
那么于大语言模型的长文本能力到底如何呢? 今天通过分析下两个观点

lost in the middle

斯坦福在2023年在《Lost in the Middle: How Language Models Use Long Contexts》中探讨了当前语言模型在处理长上下文时的性能和效率。具体来说,研究关注的是当相关信息位于输入上下文的不同位置时,这些模型的表现如何

yyq-2024-06-19-00-04-16.png

做的实验得出的结论:

  • 当相关信息位于输入上下文的开始或结束时,模型的表现通常最好。然而,当需要访问位于长上下文中较中间位置的相关信息时,模型的表现会显著下降。

  • 研究发现,尽管最近的语言模型能够处理较长的上下文,但它们在利用这些长上下文中的信息方面并不总是表现得很强。特别是在多文档问答和键值检索任务中,模型的性能随着相关信息位置的变化而显著变化。

有什么启发呢?

  • 重要的信息放在开头和结尾

  • Lost in the Middle: How Language Models Use Long Contexts

大海捞针实验

Lost in the Middle算是古早的实验,采用也是GPT3.5。当前长文本测试比较著名的是大海捞针实验即Needle In A Haystack。

大海捞针实验(Needle In A Haystack)是一种评估大型语言模型(LLM)在长文本中寻找关键信息能力的测试方法。该实验由Greg Kamradt设计,通过在一段长文本中随机插入关键信息(“针”),并测试模型是否能准确地从大量无关信息中提取出关键信息。

实验过程中,研究者会将一段随机的事实或陈述(“针”)放入长文本(“大海”)的中间,随后要求模型检索并回答与该“针”相关的问题。研究者会在文本的不同位置放置“针”,并通过改变上下文长度和“针”的位置来衡量模型的性能

比如把制作完美牛排的三个重要步骤,作为三个“针”插入到上下文的某个位置(如开头、中间与结尾),并且让其他内容和这个三个“针”的知识完全不相关。然后要求LLM基于这个上下文来回答:制作完美牛排的步骤有哪些?以验证LLM在上下文中精准的检索出这三个“针”并推理答案的能力。

在进行大海捞针实验时,通常会使用特定的数据集,这些数据集包含了不同领域的文章,例如金融、游戏、政务、电影、技术和综合等。这些文章确保了测试的公平性和挑战性。评估步骤包括将下载的文件放置在指定的目录下,并在配置文件中指定数据集的参数,如上下文长度、文档深度百分比、使用的tokenizer模型、数据源文件列表等。这些参数允许用户根据自己的需求灵活地创建适合的数据集。

贴两个GPT4有趣的结论

yyq-2024-06-19-00-17-09.png

  • LLM检索的成功率和上下文长度相关:在1k上下文中,GPT4可以找到所有10个针,随着上下文增加,检索的针的准确率在下降
  • LLM检索的成功率和针在上下文的位置有关:上下文增加时,开头的针检索的准确率要低于结尾位置的针

这个clause的测试

Claude_2_1_testing.png

目录
相关文章
|
6月前
|
人工智能 自然语言处理 机器人
“大型语言模型”和“LLM”这些术语将变得不那么常见
【1月更文挑战第7天】“大型语言模型”和“LLM”这些术语将变得不那么常见
92 1
“大型语言模型”和“LLM”这些术语将变得不那么常见
|
18天前
|
编解码 人工智能 自然语言处理
迈向多语言医疗大模型:大规模预训练语料、开源模型与全面基准测试
【10月更文挑战第23天】Oryx 是一种新型多模态架构,能够灵活处理各种分辨率的图像和视频数据,无需标准化。其核心创新包括任意分辨率编码和动态压缩器模块,适用于从微小图标到长时间视频的多种应用场景。Oryx 在长上下文检索和空间感知数据方面表现出色,并且已开源,为多模态研究提供了强大工具。然而,选择合适的分辨率和压缩率仍需谨慎,以平衡处理效率和识别精度。论文地址:https://www.nature.com/articles/s41467-024-52417-z
40 2
|
2月前
|
数据可视化 Swift
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!
旗舰端侧模型面壁「小钢炮」系列进化为全新 MiniCPM 3.0 基座模型,再次以小博大,以 4B 参数,带来超越 GPT-3.5 的性能。并且,量化后仅 2GB 内存,端侧友好。
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!
|
28天前
|
自然语言处理 搜索推荐 机器人
大语言模型及其应用场景
大语言模型(如通义千问)凭借强大的自然语言处理能力,在内容创作、对话系统、翻译、信息抽取、代码生成、智能搜索、教育、企业管理和法律等领域展现巨大潜力,助力提升各行业智能化水平。
|
自然语言处理 测试技术 vr&ar
更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」
更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」
258 0
|
3月前
|
人工智能 算法
通义语音AI技术问题之预训练语言模型句子嵌入存在的各向异性问题如何解决
通义语音AI技术问题之预训练语言模型句子嵌入存在的各向异性问题如何解决
28 5
|
3月前
|
机器学习/深度学习 自然语言处理 索引
AIGC:LLM大型语言模型是怎么交流的? ———分词
AIGC:LLM大型语言模型是怎么交流的? ———分词
|
6月前
|
人工智能 Python
LLM 大模型学习必知必会系列(八):10分钟微调专属于自己的大模型
LLM 大模型学习必知必会系列(八):10分钟微调专属于自己的大模型
|
6月前
|
缓存 人工智能 自然语言处理
LLM 大模型学习必知必会系列(三):LLM和多模态模型高效推理实践
LLM 大模型学习必知必会系列(三):LLM和多模态模型高效推理实践
LLM 大模型学习必知必会系列(三):LLM和多模态模型高效推理实践
|
6月前
|
自然语言处理 知识图谱
【笔记】探索生成范式:大型语言模型在信息提取中的作用
【笔记】探索生成范式:大型语言模型在信息提取中的作用
150 7