Meta无限长文本大模型来了:参数仅7B,已开源

简介: 【4月更文挑战第26天】Meta 研究团队推出7亿参数的MEGALODON,这是一个专为无限长文本序列建模设计的神经网络架构。通过复数指数移动平均(CEMA)和时间步归一化层等技术创新,MEGALODON在效率和准确性上超越Transformer,且在多种基准测试中表现优秀。源代码已开源,为长序列建模提供新工具,但面临资源限制和处理极端长度序列的挑战。[论文链接](https://arxiv.org/pdf/2404.08801.pdf)

在人工智能领域,大型语言模型(LLMs)的发展一直是研究的热点。这些模型在处理长序列数据、理解内部长期动态以及生成连贯输出方面的能力,对于多轮对话、长文档理解、视频生成等实际应用至关重要。然而,现有的Transformer架构由于其二次方的计算复杂性和有限的归纳偏差,使其在长序列建模上存在效率低下的问题。尽管有诸如线性注意力和状态空间模型等次线性解决方案,但它们在预训练效率和下游任务准确性方面仍未能超越Transformer。

在这样的背景下,Meta公司的研究团队提出了MEGALODON,这是一个针对无限长文本序列建模而设计的神经网络架构。MEGALODON继承了MEGA(门控注意力与指数移动平均)架构,并引入了多个技术组件以提升其能力和稳定性,包括复数指数移动平均(CEMA)、时间步归一化层、归一化注意力机制以及预归一化配合双跳残差配置。在与LLAMA2的对比中,MEGALODON在7亿参数规模和2万亿训练令牌的条件下,展现了比Transformer更好的效率,并且在多个基准测试中的表现稳健。

MEGALODON的核心创新之一是CEMA,它将MEGA中的多维阻尼指数移动平均扩展到了复数域,这一改进有助于保持核权重中的衰减结构,这对于卷积模型在长序列建模上的成功至关重要。此外,MEGALODON还引入了时间步归一化层,这一层通过计算累积均值和方差,为自回归序列建模任务提供了一种新的归一化方法。这些技术的应用使得MEGALODON在处理长序列数据时,能够实现线性的计算和内存复杂度。

在实验部分,MEGALODON在不同规模的语言建模和特定领域的下游任务上进行了广泛的性能评估。结果表明,MEGALODON在训练困惑度和各种下游基准测试中,均显著优于LLAMA2。特别是在长上下文建模方面,包括在不同上下文长度下的困惑度以及在Scrolls数据集上的长上下文问答任务,MEGALODON证明了其对无限长度序列建模的能力。

此外,MEGALODON在中等规模的基准测试上也展现了其强大的性能,包括在ImageNet-1K数据集上的图像分类任务,以及在PG-19数据集上的自回归语言建模任务。这些实验结果进一步证明了MEGALODON在不同数据模态上的鲁棒性。

值得注意的是,MEGALODON的模型大小为7亿参数,这在当前的LLMs中是一个相对适中的规模。尽管如此,它在多个任务上的表现已经接近或超过了更大的模型,这表明MEGALODON在参数效率上具有显著优势。此外,MEGALODON的代码已经开源,这意味着学术界和工业界的研究人员可以自由地访问、使用和进一步开发这一架构。

当然,任何新技术都不可能完美无缺,MEGALODON同样面临一些挑战和局限性。例如,尽管在长序列建模上表现出色,但在处理极端长度的序列时,其性能可能会受到一定影响。此外,MEGALODON的计算和内存需求随着序列长度的增加而线性增长,这可能在资源有限的环境下成为一个问题。尽管如此,MEGALODON的提出无疑为长序列建模提供了一个有力的工具,并且为未来的研究开辟了新的可能性。

论文地址:https://arxiv.org/pdf/2404.08801.pdf

目录
相关文章
|
1月前
|
自然语言处理 资源调度 前端开发
前端大模型入门(四):不同文本分割器对比和效果展示-教你如何根据场景选择合适的长文本分割方式
本文详细介绍了五种Langchain文本分割器:`CharacterTextSplitter`、`RecursiveCharacterTextSplitter`、`TokenTextSplitter`、`MarkdownTextSplitter` 和 `LatexTextSplitter`,从原理、优缺点及适用场景等方面进行了对比分析,旨在帮助开发者选择最适合当前需求的文本分割工具,提高大模型应用的处理效率和效果。
|
2月前
|
人工智能 负载均衡 网络架构
混合专家更有主见了,能感知多模态分情况行事,Meta提出模态感知型专家混合
【9月更文挑战第3天】在人工智能领域,多模态学习备受关注。Meta AI提出了一种名为模态感知型专家混合(MoMa)的新架构,通过模态特定的专家模块组合处理图像和文本,提升了多模态早期融合语言模型的预训练效率。MoMa在1万亿令牌训练下,实现了3.7倍的FLOPs节省,优于标准混合专家方案。尽管存在因果推理性能和负载平衡方面的局限性,MoMa仍为多模态预训练提供了高效新方法。论文详细内容见:https://arxiv.org/pdf/2407.21770
52 3
|
3月前
|
数据采集 机器学习/深度学习 人工智能
Meta朱泽园揭秘大模型内心世界:不同于人类的2级推理
【8月更文挑战第26天】近期,Meta AI的研究者们在arXiv发布了一篇题为《语言模型的物理学:第2.1部分,小学数学和隐藏推理过程》的论文。该研究通过一系列实验揭示了大型语言模型(LLMs)在解决数学问题时的隐藏推理机制,并探讨了LLMs是否具有真正的推理能力及其实现方式是否与人类类似。研究发现LLMs不仅能记忆解题模式,还能进行适应性调整,表现出独特的二级推理过程。尽管其方法不同于人类,但在解决数学问题上能获得同样甚至更好的效果。此外,研究还指出改进训练数据质量、优化模型结构以及探索LLMs与其他AI技术的融合将是未来研究的重要方向。
71 2
|
3月前
|
人工智能 自然语言处理 计算机视觉
Meta发布混合多模态模型—Chameleon
【8月更文挑战第5天】Meta AI团队近期发布了Chameleon,一种基于早期融合的混合多模态模型,能在任意顺序下理解和生成图像与文本。此34B参数模型经10万亿token训练,展现出卓越的多模态处理能力。Chameleon在视觉问答、图像字幕生成等任务中成绩亮眼,特别是在图像字幕生成上表现优异,文本生成上亦具竞争力,且有一定的图像生成能力。其性能在新混合模态生成评估中媲美甚至超越大型模型。尽管如此,Chameleon仍面临特定任务处理及计算资源需求等方面的挑战。论文已发布于arXiv。
81 11
|
3月前
|
机器学习/深度学习
机器学习中label如何实现多标签编码?
介绍了在机器学习中处理多标签分类问题时的一种标签编码方法。
53 0
|
6月前
|
机器学习/深度学习 人工智能 自动驾驶
Transformer解码真实场景!Meta推出70M参数SceneScript模型
【5月更文挑战第12天】Meta AI Labs推出了70M参数的SceneScript模型,运用Transformer技术从视频中生成结构化场景描述,以编程语言方式表示,便于3D场景重建和理解。该模型无需依赖3D模型或CAD,能应用于建筑设计、电影游戏制作及机器人领域。尽管面临计算资源需求高、数据标注困难及与传统工具集成的挑战,但其灵活性、可扩展性和可解释性展现出广阔的应用前景。[论文链接](https://arxiv.org/pdf/2403.13064.pdf)
71 1
|
6月前
文本直接生成多视角3D图像,Meta推出创新模型
【4月更文挑战第18天】Meta's ViewDiff模型创新性地从文本或图像生成多视角一致的3D图像,提供新途径生成3D资产和高质量2D内容。利用预训练文本到图像模型,结合3D体积渲染和跨帧注意力层,实现真实感更强的多视角图像。自回归生成方案允许一次性渲染多个视角图像,提升3D内容创作效率。虽然存在视角不一致性和局限性,但ViewDiff在视觉质量和一致性上超过现有方法,为3D内容创作开辟新方向。
86 1
|
6月前
|
自然语言处理 语音技术
语言大模型和文本大模型的区别
【2月更文挑战第16天】语言大模型和文本大模型的区别
147 2
语言大模型和文本大模型的区别
|
6月前
|
人工智能 API
【AI大模型应用开发】【LangChain系列】实战案例6:利用大模型进行文本总结的方法探索,文本Token超限怎么办?
【AI大模型应用开发】【LangChain系列】实战案例6:利用大模型进行文本总结的方法探索,文本Token超限怎么办?
548 0
|
6月前
|
机器学习/深度学习 人工智能 算法
【AI大模型应用开发】【补充知识】文本向量化与向量相似度(含Python代码)
【AI大模型应用开发】【补充知识】文本向量化与向量相似度(含Python代码)
112 0
下一篇
无影云桌面