还是原装Transformer好!北大清华团队同时揭示Mamba等推理短板

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: 北京大学和清华大学的研究团队分别发表论文,探讨了高效Transformer模型如Sparse Transformer和Linear Transformer在推理能力和上下文检索上的局限性,强调了原装Transformer在处理复杂任务上的优势。研究显示,尽管高效模型提升了计算效率,但在某些任务上,如动态规划问题和算法问题,以及上下文信息的精准提取方面,仍不及原装Transformer。这突显了原装Transformer在复杂推理任务中的不可替代性及其架构的灵活性和可扩展性。同时,研究也为未来高效Transformer的优化提供了方向。

在人工智能领域,Transformer模型凭借其卓越的性能和广泛的应用,已成为自然语言处理(NLP)任务的主流选择。然而,随着模型规模的不断扩大和计算资源的日益紧张,研究者们开始探索更高效的Transformer替代方案,如Sparse Transformer和Linear Transformer等。然而,近期北京大学和清华大学的研究团队分别发表了两篇论文,揭示了这些高效Transformer在推理能力上的局限性,并强调了原装Transformer在某些任务上仍具有不可替代的优势。

在第一篇论文《Do Efficient Transformers Really Save Computation?》中,研究团队对Sparse Transformer和Linear Transformer等高效Transformer模型进行了深入研究。他们发现,尽管这些模型在计算效率上有所提升,但在处理需要复杂推理的任务时,其性能并不如预期。具体而言,研究团队使用Chain-of-Thought(CoT)提示来评估模型的推理能力,并将这些任务建模为动态规划(DP)问题。

实验结果表明,虽然高效Transformer模型能够解决一般的DP问题,但它们需要的模型规模与问题规模成正比。这意味着,对于更复杂的问题,高效Transformer模型可能需要更大的计算资源和更长的训练时间。此外,研究团队还发现,对于某些特定的DP问题,高效Transformer模型的性能甚至不如原装Transformer。

在第二篇论文《RNNs are not Transformers (Yet): The Key Bottleneck on In-context Retrieval》中,研究团队比较了循环神经网络(RNN)和Transformer在解决算法问题上的表示能力。他们发现,尽管RNN在处理长序列时具有内存效率优势,但在使用CoT提示时,其性能仍无法与Transformer相媲美。

研究团队指出,RNN在上下文检索方面存在关键瓶颈,即无法完美地从上下文中检索信息。对于一些需要这种能力的显式或隐式任务,如关联回忆和判断图是否为树,RNN无法解决,而Transformer则能轻松应对。然而,研究团队也发现,通过采用增强上下文检索能力的技术,如检索增强生成(RAG)和添加单个Transformer层,RNN的性能可以得到显著提升,从而在使用CoT提示时解决所有多项式时间可解的问题,缩小与Transformer的表示能力差距。

这两篇论文的研究结果共同强调了原装Transformer在某些任务上仍具有不可替代的优势。首先,原装Transformer在处理需要复杂推理的任务时表现出色,如动态规划问题和算法问题。其次,原装Transformer在上下文检索方面具有天然优势,能够更准确地从上下文中提取信息,从而提高模型的泛化能力和鲁棒性。

此外,原装Transformer的架构设计也为其提供了更好的可扩展性和灵活性。通过增加模型层数和调整超参数,原装Transformer可以适应不同规模和复杂度的任务需求。相比之下,高效Transformer模型的架构设计往往更加固定,难以根据具体任务进行灵活调整。

尽管原装Transformer在某些任务上仍具有优势,但高效Transformer的研究和探索仍具有重要意义。首先,高效Transformer模型在计算效率上的提升可以为大规模NLP任务提供更可行的解决方案。其次,通过深入研究高效Transformer的局限性和改进方向,可以为未来更高效、更智能的NLP模型提供宝贵的经验和启示。

未来,研究者们可以继续探索如何在保持计算效率的同时,提高高效Transformer模型的推理能力和上下文检索能力。例如,可以尝试将原装Transformer的某些优势特性(如自注意力机制)融入到高效Transformer模型中,以实现性能和效率的平衡。此外,还可以研究如何利用其他类型的神经网络(如图神经网络)来解决特定类型的NLP任务,从而为NLP领域的发展开辟新的路径。

论文链接:https://arxiv.org/abs/2402.13934
论文链接:https://arxiv.org/abs/2402.18510

目录
相关文章
|
9月前
|
自然语言处理 物联网 异构计算
比LoRA还快50%的微调方法来了!一张3090性能超越全参调优,UIUC联合LMFlow团队提出LISA
【4月更文挑战第3天】伊利诺伊大学香槟分校和LMFlow团队推出LISA,一种新型微调技术,用于解决大型语言模型的内存消耗问题。LISA基于层重要性采样,随机冻结中间层,降低内存使用,同时提供比LoRA更快的训练速度和更高性能。实验显示,LISA在相似或更低的GPU内存消耗下,超越LoRA和全参数调优。该方法提高了资源受限环境下的微调效率,有望成为LoRA的有效替代,但仍然面临内存限制和随机性影响的问题。
224 4
比LoRA还快50%的微调方法来了!一张3090性能超越全参调优,UIUC联合LMFlow团队提出LISA
|
4月前
|
机器学习/深度学习 人工智能
昂贵LLM的救星?Nature新研究提出新型忆阻器,比Haswell CPU高效460倍
【10月更文挑战第11天】《自然》杂志最新研究介绍了一种新型忆阻器——线性对称自选14位动能分子忆阻器。该技术在神经网络训练和推理中表现出线性对称的权重更新、460倍于现有CPU的高能效及多级编程能力,有望大幅提升AI硬件的能源效率。尽管前景广阔,但仍需解决制造工艺复杂和环境影响等问题。
64 1
|
3月前
|
机器学习/深度学习 人工智能 机器人
何恺明新作出炉!异构预训练Transformer颠覆本体视觉学习范式,AI性能暴涨超20%
【10月更文挑战第29天】在机器人学习领域,训练通用模型面临数据异构性的挑战。近期研究“Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers”提出异构预训练Transformer(HPT),通过大规模预训练学习跨不同本体和任务的共享表示,显著提升了性能。实验结果显示,HPT在未见过的任务上表现优异,性能提升超过20%。
128 6
|
9月前
|
机器学习/深度学习 数据采集 人工智能
ICLR 2024:RLHF有了通用平台和基准,天大开源,专攻现实决策场景
【4月更文挑战第21天】天津大学在ICLR 2024发布RLHF新框架Uni-RLHF,以人类反馈引导强化学习,降低奖励函数设计需求,适应现实决策场景。该框架提供通用平台和基准,支持大规模众包注释,促进研究。尽管面临准确捕捉人类反馈、数据质量和多任务处理等挑战,但开源特性加速了学术进步。[链接](https://arxiv.org/abs/2402.02423)
134 0
|
机器学习/深度学习 数据采集 人工智能
综述:使用语言模型进行可控的蛋白质设计(1)
综述:使用语言模型进行可控的蛋白质设计
530 0
|
9月前
|
机器学习/深度学习 存储 编解码
沈春华团队最新 | SegViT v2对SegViT进行全面升级,让基于ViT的分割模型更轻更强
沈春华团队最新 | SegViT v2对SegViT进行全面升级,让基于ViT的分割模型更轻更强
146 0
|
机器学习/深度学习 人工智能 编解码
一文梳理视觉Transformer架构进展:与CNN相比,ViT赢在哪儿?(1)
一文梳理视觉Transformer架构进展:与CNN相比,ViT赢在哪儿?
653 0
|
机器学习/深度学习 存储 人工智能
ICLR 2023 Spotlight|节省95%训练开销,清华黄隆波团队提出强化学习专用稀疏训练框架RLx2
ICLR 2023 Spotlight|节省95%训练开销,清华黄隆波团队提出强化学习专用稀疏训练框架RLx2
213 0
|
机器学习/深度学习 存储 缓存
LLM推理提速2.8倍,CMU清华姚班校友提出「投机式推理」引擎SpecInfer,小模型撬动大模型高效推理
LLM推理提速2.8倍,CMU清华姚班校友提出「投机式推理」引擎SpecInfer,小模型撬动大模型高效推理
302 0
|
机器学习/深度学习 存储 缓存
VLDB 2022最佳研究论文:克服通信挑战,新框架SANCUS实现GNN高效训练
VLDB 2022最佳研究论文:克服通信挑战,新框架SANCUS实现GNN高效训练
117 0