还是原装Transformer好!北大清华团队同时揭示Mamba等推理短板

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
简介: 北京大学和清华大学的研究团队分别发表论文,探讨了高效Transformer模型如Sparse Transformer和Linear Transformer在推理能力和上下文检索上的局限性,强调了原装Transformer在处理复杂任务上的优势。研究显示,尽管高效模型提升了计算效率,但在某些任务上,如动态规划问题和算法问题,以及上下文信息的精准提取方面,仍不及原装Transformer。这突显了原装Transformer在复杂推理任务中的不可替代性及其架构的灵活性和可扩展性。同时,研究也为未来高效Transformer的优化提供了方向。

在人工智能领域,Transformer模型凭借其卓越的性能和广泛的应用,已成为自然语言处理(NLP)任务的主流选择。然而,随着模型规模的不断扩大和计算资源的日益紧张,研究者们开始探索更高效的Transformer替代方案,如Sparse Transformer和Linear Transformer等。然而,近期北京大学和清华大学的研究团队分别发表了两篇论文,揭示了这些高效Transformer在推理能力上的局限性,并强调了原装Transformer在某些任务上仍具有不可替代的优势。

在第一篇论文《Do Efficient Transformers Really Save Computation?》中,研究团队对Sparse Transformer和Linear Transformer等高效Transformer模型进行了深入研究。他们发现,尽管这些模型在计算效率上有所提升,但在处理需要复杂推理的任务时,其性能并不如预期。具体而言,研究团队使用Chain-of-Thought(CoT)提示来评估模型的推理能力,并将这些任务建模为动态规划(DP)问题。

实验结果表明,虽然高效Transformer模型能够解决一般的DP问题,但它们需要的模型规模与问题规模成正比。这意味着,对于更复杂的问题,高效Transformer模型可能需要更大的计算资源和更长的训练时间。此外,研究团队还发现,对于某些特定的DP问题,高效Transformer模型的性能甚至不如原装Transformer。

在第二篇论文《RNNs are not Transformers (Yet): The Key Bottleneck on In-context Retrieval》中,研究团队比较了循环神经网络(RNN)和Transformer在解决算法问题上的表示能力。他们发现,尽管RNN在处理长序列时具有内存效率优势,但在使用CoT提示时,其性能仍无法与Transformer相媲美。

研究团队指出,RNN在上下文检索方面存在关键瓶颈,即无法完美地从上下文中检索信息。对于一些需要这种能力的显式或隐式任务,如关联回忆和判断图是否为树,RNN无法解决,而Transformer则能轻松应对。然而,研究团队也发现,通过采用增强上下文检索能力的技术,如检索增强生成(RAG)和添加单个Transformer层,RNN的性能可以得到显著提升,从而在使用CoT提示时解决所有多项式时间可解的问题,缩小与Transformer的表示能力差距。

这两篇论文的研究结果共同强调了原装Transformer在某些任务上仍具有不可替代的优势。首先,原装Transformer在处理需要复杂推理的任务时表现出色,如动态规划问题和算法问题。其次,原装Transformer在上下文检索方面具有天然优势,能够更准确地从上下文中提取信息,从而提高模型的泛化能力和鲁棒性。

此外,原装Transformer的架构设计也为其提供了更好的可扩展性和灵活性。通过增加模型层数和调整超参数,原装Transformer可以适应不同规模和复杂度的任务需求。相比之下,高效Transformer模型的架构设计往往更加固定,难以根据具体任务进行灵活调整。

尽管原装Transformer在某些任务上仍具有优势,但高效Transformer的研究和探索仍具有重要意义。首先,高效Transformer模型在计算效率上的提升可以为大规模NLP任务提供更可行的解决方案。其次,通过深入研究高效Transformer的局限性和改进方向,可以为未来更高效、更智能的NLP模型提供宝贵的经验和启示。

未来,研究者们可以继续探索如何在保持计算效率的同时,提高高效Transformer模型的推理能力和上下文检索能力。例如,可以尝试将原装Transformer的某些优势特性(如自注意力机制)融入到高效Transformer模型中,以实现性能和效率的平衡。此外,还可以研究如何利用其他类型的神经网络(如图神经网络)来解决特定类型的NLP任务,从而为NLP领域的发展开辟新的路径。

论文链接:https://arxiv.org/abs/2402.13934
论文链接:https://arxiv.org/abs/2402.18510

目录
相关文章
|
6月前
|
自然语言处理 物联网 异构计算
比LoRA还快50%的微调方法来了!一张3090性能超越全参调优,UIUC联合LMFlow团队提出LISA
【4月更文挑战第3天】伊利诺伊大学香槟分校和LMFlow团队推出LISA,一种新型微调技术,用于解决大型语言模型的内存消耗问题。LISA基于层重要性采样,随机冻结中间层,降低内存使用,同时提供比LoRA更快的训练速度和更高性能。实验显示,LISA在相似或更低的GPU内存消耗下,超越LoRA和全参数调优。该方法提高了资源受限环境下的微调效率,有望成为LoRA的有效替代,但仍然面临内存限制和随机性影响的问题。
195 4
比LoRA还快50%的微调方法来了!一张3090性能超越全参调优,UIUC联合LMFlow团队提出LISA
|
17天前
|
机器学习/深度学习 人工智能 机器人
何恺明新作出炉!异构预训练Transformer颠覆本体视觉学习范式,AI性能暴涨超20%
【10月更文挑战第29天】在机器人学习领域,训练通用模型面临数据异构性的挑战。近期研究“Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers”提出异构预训练Transformer(HPT),通过大规模预训练学习跨不同本体和任务的共享表示,显著提升了性能。实验结果显示,HPT在未见过的任务上表现优异,性能提升超过20%。
40 6
|
3月前
|
存储 机器学习/深度学习 测试技术
模型量化技术综述:揭示大型语言模型压缩的前沿技术
在这篇文章中,我将在语言建模的背景下介绍量化,并逐一探讨各个概念,探索各种方法论、用例以及量化背后的原理。
54 0
模型量化技术综述:揭示大型语言模型压缩的前沿技术
|
4月前
|
人工智能 自然语言处理 测试技术
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
【7月更文挑战第11天】蒙特利尔大学Yoshua Bengio团队推出多模态新基准MFE,旨在全面评估大型语言模型在处理跨模态任务时的能力。MFE包含多样化数据集、挑战性任务和严格评估指标,暴露了Claude 3.5和GPT-4o等现有模型的弱点,为多模态AI研究提供新视角和改进方向。论文链接:arxiv.org/abs/2406.06462
73 1
|
6月前
|
机器学习/深度学习 人工智能
谷歌提出大规模ICL方法——强化和无监督
【5月更文挑战第26天】谷歌DeepMind团队提出Many-Shot ICL,一种强化和无监督学习方法,用于提升大型语言模型处理多样化任务的能力。通过提供更多示例,模型无需权重更新即可学习新任务。研究还引入Reinforced ICL和Unsupervised ICL,减少对人类生成输出的依赖。Many-Shot ICL能有效克服预训练偏见,但示例顺序对其性能至关重要。然而,NLL作为评估指标的局限性被指出,且增加示例数量可能降低性能。该研究为改进LLMs提供了新视角,但仍需在更多模型和场景中验证。[链接: https://arxiv.org/abs/2404.11018]
70 1
|
6月前
|
人工智能
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
【4月更文挑战第16天】研究人员集成12个大型语言模型(LLM)组成“硅基群体”,在预测比赛中与925名人类预测者对比。研究发现,LLM群体的预测准确性与人类群体无显著差异,且通过集成可抵消个体模型的偏差,提高预测准确。GPT-4和Claude 2等模型结合人类预测后,准确度提升17%至28%。然而,个别LLM预测精度不一,模型选择和校准度是提升预测性能的关键,同时LLM在时间跨度和现实场景适应性方面仍有挑战。
93 6
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
|
6月前
|
机器学习/深度学习 算法 异构计算
挑战Transformer的Mamba是什么来头?
【5月更文挑战第4天】Mamba是一种新型序列建模架构,由Albert Gu和Tri Dao提出,旨在解决Transformer在处理长序列数据时的效率问题。该模型采用选择性状态空间,允许动态调整状态以关注重要信息,忽略冗余。Mamba通过硬件感知的并行算法实现线性时间复杂度,提高计算效率,并简化架构,融合状态空间模型与Transformer的MLP块。在语言建模等任务中,Mamba表现优越,甚至超越更大规模的Transformer模型。然而,对于某些连续信号如音频,其性能可能不及传统LTI模型。
125 9
|
6月前
|
机器学习/深度学习 数据采集 人工智能
ICLR 2024:RLHF有了通用平台和基准,天大开源,专攻现实决策场景
【4月更文挑战第21天】天津大学在ICLR 2024发布RLHF新框架Uni-RLHF,以人类反馈引导强化学习,降低奖励函数设计需求,适应现实决策场景。该框架提供通用平台和基准,支持大规模众包注释,促进研究。尽管面临准确捕捉人类反馈、数据质量和多任务处理等挑战,但开源特性加速了学术进步。[链接](https://arxiv.org/abs/2402.02423)
102 0
|
6月前
|
自然语言处理 搜索推荐 语音技术
大模型技术的分化与应用
【1月更文挑战第14天】大模型技术的分化与应用
98 2
大模型技术的分化与应用
下一篇
无影云桌面