大语言模型的长文本处理能力

简介: 最近大语言模型的一个发展方向就是大语言的模型的长下文能力(long context),谷歌的Gemini 1.5 100万输入,kimi chat支持允许200万输入。那么于大语言模型的长文本能力到底如何呢? 今天通过分析下两个观点【6月更文挑战第5天】

大语言模型的长文本处理能力

最近大语言模型的一个发展方向就是大语言的模型的长下文能力(long context),谷歌的Gemini 1.5 100万输入,kimi chat支持允许200万输入。

yyq-2024-06-18-23-59-30.png

200万token输入是什么概念? 4本红楼梦
那么于大语言模型的长文本能力到底如何呢? 今天通过分析下两个观点

lost in the middle

斯坦福在2023年在《Lost in the Middle: How Language Models Use Long Contexts》中探讨了当前语言模型在处理长上下文时的性能和效率。具体来说,研究关注的是当相关信息位于输入上下文的不同位置时,这些模型的表现如何

yyq-2024-06-19-00-04-16.png

做的实验得出的结论:

  • 当相关信息位于输入上下文的开始或结束时,模型的表现通常最好。然而,当需要访问位于长上下文中较中间位置的相关信息时,模型的表现会显著下降。

  • 研究发现,尽管最近的语言模型能够处理较长的上下文,但它们在利用这些长上下文中的信息方面并不总是表现得很强。特别是在多文档问答和键值检索任务中,模型的性能随着相关信息位置的变化而显著变化。

有什么启发呢?

  • 重要的信息放在开头和结尾

  • Lost in the Middle: How Language Models Use Long Contexts

大海捞针实验

Lost in the Middle算是古早的实验,采用也是GPT3.5。当前长文本测试比较著名的是大海捞针实验即Needle In A Haystack。

大海捞针实验(Needle In A Haystack)是一种评估大型语言模型(LLM)在长文本中寻找关键信息能力的测试方法。该实验由Greg Kamradt设计,通过在一段长文本中随机插入关键信息(“针”),并测试模型是否能准确地从大量无关信息中提取出关键信息。

实验过程中,研究者会将一段随机的事实或陈述(“针”)放入长文本(“大海”)的中间,随后要求模型检索并回答与该“针”相关的问题。研究者会在文本的不同位置放置“针”,并通过改变上下文长度和“针”的位置来衡量模型的性能

比如把制作完美牛排的三个重要步骤,作为三个“针”插入到上下文的某个位置(如开头、中间与结尾),并且让其他内容和这个三个“针”的知识完全不相关。然后要求LLM基于这个上下文来回答:制作完美牛排的步骤有哪些?以验证LLM在上下文中精准的检索出这三个“针”并推理答案的能力。

在进行大海捞针实验时,通常会使用特定的数据集,这些数据集包含了不同领域的文章,例如金融、游戏、政务、电影、技术和综合等。这些文章确保了测试的公平性和挑战性。评估步骤包括将下载的文件放置在指定的目录下,并在配置文件中指定数据集的参数,如上下文长度、文档深度百分比、使用的tokenizer模型、数据源文件列表等。这些参数允许用户根据自己的需求灵活地创建适合的数据集。

贴两个GPT4有趣的结论

yyq-2024-06-19-00-17-09.png

  • LLM检索的成功率和上下文长度相关:在1k上下文中,GPT4可以找到所有10个针,随着上下文增加,检索的针的准确率在下降
  • LLM检索的成功率和针在上下文的位置有关:上下文增加时,开头的针检索的准确率要低于结尾位置的针

这个clause的测试

Claude_2_1_testing.png

目录
相关文章
|
7月前
|
人工智能 自然语言处理 机器人
“大型语言模型”和“LLM”这些术语将变得不那么常见
【1月更文挑战第7天】“大型语言模型”和“LLM”这些术语将变得不那么常见
104 1
“大型语言模型”和“LLM”这些术语将变得不那么常见
|
2天前
|
人工智能 自然语言处理 PyTorch
Bamba-9B:基于 Mamba2 架构的仅解码语言模型,旨在提高大型语言模型在推理时的效率
Bamba-9B 是由 IBM、普林斯顿大学、卡内基梅隆大学和伊利诺伊大学香槟分校联合推出的基于 Mamba2 架构的仅解码语言模型。该模型在开放数据集上训练,旨在提高大型语言模型的推理效率,特别是在处理长文本时的内存带宽瓶颈。Bamba-9B 在推理时相较于标准变换器模型展现出 2.5 倍的吞吐量提升和 2 倍的延迟加速。
37 12
Bamba-9B:基于 Mamba2 架构的仅解码语言模型,旨在提高大型语言模型在推理时的效率
|
1月前
|
编解码 人工智能 自然语言处理
迈向多语言医疗大模型:大规模预训练语料、开源模型与全面基准测试
【10月更文挑战第23天】Oryx 是一种新型多模态架构,能够灵活处理各种分辨率的图像和视频数据,无需标准化。其核心创新包括任意分辨率编码和动态压缩器模块,适用于从微小图标到长时间视频的多种应用场景。Oryx 在长上下文检索和空间感知数据方面表现出色,并且已开源,为多模态研究提供了强大工具。然而,选择合适的分辨率和压缩率仍需谨慎,以平衡处理效率和识别精度。论文地址:https://www.nature.com/articles/s41467-024-52417-z
51 2
|
7月前
|
自然语言处理 物联网 API
检索增强生成(RAG)实践:基于LlamaIndex和Qwen1.5搭建智能问答系统
检索增强生成(RAG)实践:基于LlamaIndex和Qwen1.5搭建智能问答系统
检索增强生成(RAG)实践:基于LlamaIndex和Qwen1.5搭建智能问答系统
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
大模型的多样性:从语言处理到多模态智能
本文介绍了大模型在多个领域的应用,包括自然语言处理(如Transformer、GPT、BERT、T5)、计算机视觉(如CNN、ViT、GAN)、多模态智能(如CLIP、DALL-E)、语音识别与合成(如Wav2Vec、Tacotron)以及强化学习(如AlphaGo、PPO)。这些模型展现了卓越的性能,推动了人工智能技术的发展。
63 1
|
自然语言处理 测试技术 vr&ar
更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」
更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」
272 0
|
2月前
|
自然语言处理 搜索推荐 机器人
大语言模型及其应用场景
大语言模型(如通义千问)凭借强大的自然语言处理能力,在内容创作、对话系统、翻译、信息抽取、代码生成、智能搜索、教育、企业管理和法律等领域展现巨大潜力,助力提升各行业智能化水平。
190 0
|
4月前
|
机器学习/深度学习 自然语言处理 索引
AIGC:LLM大型语言模型是怎么交流的? ———分词
AIGC:LLM大型语言模型是怎么交流的? ———分词
|
7月前
|
机器学习/深度学习 自然语言处理 搜索推荐
【大模型】LLM与传统聊天机器人的区别是什么?
【5月更文挑战第4天】【大模型】LLM与传统聊天机器人的区别是什么?
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
【AIGC】基于大语言模型构建多语种聊天机器人(基于Bloom大语言模型)
【5月更文挑战第8天】基于大语言模型Bloom构建多语种聊天机器人
172 1