还是原装Transformer好!北大清华团队同时揭示Mamba等推理短板

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
简介: 北京大学和清华大学的研究团队分别发表论文,探讨了高效Transformer模型如Sparse Transformer和Linear Transformer在推理能力和上下文检索上的局限性,强调了原装Transformer在处理复杂任务上的优势。研究显示,尽管高效模型提升了计算效率,但在某些任务上,如动态规划问题和算法问题,以及上下文信息的精准提取方面,仍不及原装Transformer。这突显了原装Transformer在复杂推理任务中的不可替代性及其架构的灵活性和可扩展性。同时,研究也为未来高效Transformer的优化提供了方向。

在人工智能领域,Transformer模型凭借其卓越的性能和广泛的应用,已成为自然语言处理(NLP)任务的主流选择。然而,随着模型规模的不断扩大和计算资源的日益紧张,研究者们开始探索更高效的Transformer替代方案,如Sparse Transformer和Linear Transformer等。然而,近期北京大学和清华大学的研究团队分别发表了两篇论文,揭示了这些高效Transformer在推理能力上的局限性,并强调了原装Transformer在某些任务上仍具有不可替代的优势。

在第一篇论文《Do Efficient Transformers Really Save Computation?》中,研究团队对Sparse Transformer和Linear Transformer等高效Transformer模型进行了深入研究。他们发现,尽管这些模型在计算效率上有所提升,但在处理需要复杂推理的任务时,其性能并不如预期。具体而言,研究团队使用Chain-of-Thought(CoT)提示来评估模型的推理能力,并将这些任务建模为动态规划(DP)问题。

实验结果表明,虽然高效Transformer模型能够解决一般的DP问题,但它们需要的模型规模与问题规模成正比。这意味着,对于更复杂的问题,高效Transformer模型可能需要更大的计算资源和更长的训练时间。此外,研究团队还发现,对于某些特定的DP问题,高效Transformer模型的性能甚至不如原装Transformer。

在第二篇论文《RNNs are not Transformers (Yet): The Key Bottleneck on In-context Retrieval》中,研究团队比较了循环神经网络(RNN)和Transformer在解决算法问题上的表示能力。他们发现,尽管RNN在处理长序列时具有内存效率优势,但在使用CoT提示时,其性能仍无法与Transformer相媲美。

研究团队指出,RNN在上下文检索方面存在关键瓶颈,即无法完美地从上下文中检索信息。对于一些需要这种能力的显式或隐式任务,如关联回忆和判断图是否为树,RNN无法解决,而Transformer则能轻松应对。然而,研究团队也发现,通过采用增强上下文检索能力的技术,如检索增强生成(RAG)和添加单个Transformer层,RNN的性能可以得到显著提升,从而在使用CoT提示时解决所有多项式时间可解的问题,缩小与Transformer的表示能力差距。

这两篇论文的研究结果共同强调了原装Transformer在某些任务上仍具有不可替代的优势。首先,原装Transformer在处理需要复杂推理的任务时表现出色,如动态规划问题和算法问题。其次,原装Transformer在上下文检索方面具有天然优势,能够更准确地从上下文中提取信息,从而提高模型的泛化能力和鲁棒性。

此外,原装Transformer的架构设计也为其提供了更好的可扩展性和灵活性。通过增加模型层数和调整超参数,原装Transformer可以适应不同规模和复杂度的任务需求。相比之下,高效Transformer模型的架构设计往往更加固定,难以根据具体任务进行灵活调整。

尽管原装Transformer在某些任务上仍具有优势,但高效Transformer的研究和探索仍具有重要意义。首先,高效Transformer模型在计算效率上的提升可以为大规模NLP任务提供更可行的解决方案。其次,通过深入研究高效Transformer的局限性和改进方向,可以为未来更高效、更智能的NLP模型提供宝贵的经验和启示。

未来,研究者们可以继续探索如何在保持计算效率的同时,提高高效Transformer模型的推理能力和上下文检索能力。例如,可以尝试将原装Transformer的某些优势特性(如自注意力机制)融入到高效Transformer模型中,以实现性能和效率的平衡。此外,还可以研究如何利用其他类型的神经网络(如图神经网络)来解决特定类型的NLP任务,从而为NLP领域的发展开辟新的路径。

论文链接:https://arxiv.org/abs/2402.13934
论文链接:https://arxiv.org/abs/2402.18510

目录
相关文章
|
8月前
|
自然语言处理 物联网 异构计算
比LoRA还快50%的微调方法来了!一张3090性能超越全参调优,UIUC联合LMFlow团队提出LISA
【4月更文挑战第3天】伊利诺伊大学香槟分校和LMFlow团队推出LISA,一种新型微调技术,用于解决大型语言模型的内存消耗问题。LISA基于层重要性采样,随机冻结中间层,降低内存使用,同时提供比LoRA更快的训练速度和更高性能。实验显示,LISA在相似或更低的GPU内存消耗下,超越LoRA和全参数调优。该方法提高了资源受限环境下的微调效率,有望成为LoRA的有效替代,但仍然面临内存限制和随机性影响的问题。
209 4
比LoRA还快50%的微调方法来了!一张3090性能超越全参调优,UIUC联合LMFlow团队提出LISA
|
3月前
|
机器学习/深度学习 人工智能
昂贵LLM的救星?Nature新研究提出新型忆阻器,比Haswell CPU高效460倍
【10月更文挑战第11天】《自然》杂志最新研究介绍了一种新型忆阻器——线性对称自选14位动能分子忆阻器。该技术在神经网络训练和推理中表现出线性对称的权重更新、460倍于现有CPU的高能效及多级编程能力,有望大幅提升AI硬件的能源效率。尽管前景广阔,但仍需解决制造工艺复杂和环境影响等问题。
48 1
|
2月前
|
机器学习/深度学习 人工智能 机器人
何恺明新作出炉!异构预训练Transformer颠覆本体视觉学习范式,AI性能暴涨超20%
【10月更文挑战第29天】在机器人学习领域,训练通用模型面临数据异构性的挑战。近期研究“Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers”提出异构预训练Transformer(HPT),通过大规模预训练学习跨不同本体和任务的共享表示,显著提升了性能。实验结果显示,HPT在未见过的任务上表现优异,性能提升超过20%。
81 6
|
6月前
|
机器学习/深度学习 自然语言处理
LeCun新作:神经网络在实践中的灵活性到底有多大?
【7月更文挑战第23天】论文探究神经网络实践灵活性,由Ravid Shwartz-Ziv等与Yann LeCun合作。挑战理论极限,实验证明网络灵活性受限于优化器与正则化,仅达局部最优,尤其CNN在参数效率上超越MLP与ViT。SGD展现高于全批量梯度下降的灵活性。研究局限在于聚焦图像分类与表格数据,未覆盖NLP或RL领域。[论文](https://arxiv.org/pdf/2406.11463)揭示实践中的神经网络并非如理论上全能。
66 3
|
6月前
|
Web App开发
生成式模型不只会模仿!哈佛、UCSB等最新成果:性能可超越训练集专家水平
【7月更文挑战第23天】研究人员从哈佛大学、UC Santa Barbara等机构展示了生成式模型的新突破:在特定任务上实现超越训练集专家水平的性能。通过“低温度采样”减少模型不确定性,实验中一个名为ChessFormer的模型在下棋任务上表现出了超越性,即性能超过了训练集中专家的平均水平。这项工作揭示了生成式模型在特定条件下实现超越的可能性,为该领域的研究和应用提供了新视角。[论文](https://arxiv.org/pdf/2406.11741)
42 2
|
6月前
|
自然语言处理 程序员
大模型问题之大模型与之前的NLP技术有什么显著差别
大模型问题之大模型与之前的NLP技术有什么显著差别
109 2
|
8月前
|
机器学习/深度学习 算法 异构计算
挑战Transformer的Mamba是什么来头?
【5月更文挑战第4天】Mamba是一种新型序列建模架构,由Albert Gu和Tri Dao提出,旨在解决Transformer在处理长序列数据时的效率问题。该模型采用选择性状态空间,允许动态调整状态以关注重要信息,忽略冗余。Mamba通过硬件感知的并行算法实现线性时间复杂度,提高计算效率,并简化架构,融合状态空间模型与Transformer的MLP块。在语言建模等任务中,Mamba表现优越,甚至超越更大规模的Transformer模型。然而,对于某些连续信号如音频,其性能可能不及传统LTI模型。
139 9
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
再超Transformer!Google提出两个新模型(Griffin、Hawk),强于Mamba,更省资源
【2月更文挑战第15天】再超Transformer!Google提出两个新模型(Griffin、Hawk),强于Mamba,更省资源
282 1
再超Transformer!Google提出两个新模型(Griffin、Hawk),强于Mamba,更省资源
|
8月前
|
自然语言处理 搜索推荐 语音技术
大模型技术的分化与应用
【1月更文挑战第14天】大模型技术的分化与应用
110 2
大模型技术的分化与应用
|
机器学习/深度学习 存储 缓存
LLM推理提速2.8倍,CMU清华姚班校友提出「投机式推理」引擎SpecInfer,小模型撬动大模型高效推理
LLM推理提速2.8倍,CMU清华姚班校友提出「投机式推理」引擎SpecInfer,小模型撬动大模型高效推理
295 0