还是原装Transformer好!北大清华团队同时揭示Mamba等推理短板

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: 北京大学和清华大学的研究团队分别发表论文,探讨了高效Transformer模型如Sparse Transformer和Linear Transformer在推理能力和上下文检索上的局限性,强调了原装Transformer在处理复杂任务上的优势。研究显示,尽管高效模型提升了计算效率,但在某些任务上,如动态规划问题和算法问题,以及上下文信息的精准提取方面,仍不及原装Transformer。这突显了原装Transformer在复杂推理任务中的不可替代性及其架构的灵活性和可扩展性。同时,研究也为未来高效Transformer的优化提供了方向。

在人工智能领域,Transformer模型凭借其卓越的性能和广泛的应用,已成为自然语言处理(NLP)任务的主流选择。然而,随着模型规模的不断扩大和计算资源的日益紧张,研究者们开始探索更高效的Transformer替代方案,如Sparse Transformer和Linear Transformer等。然而,近期北京大学和清华大学的研究团队分别发表了两篇论文,揭示了这些高效Transformer在推理能力上的局限性,并强调了原装Transformer在某些任务上仍具有不可替代的优势。

在第一篇论文《Do Efficient Transformers Really Save Computation?》中,研究团队对Sparse Transformer和Linear Transformer等高效Transformer模型进行了深入研究。他们发现,尽管这些模型在计算效率上有所提升,但在处理需要复杂推理的任务时,其性能并不如预期。具体而言,研究团队使用Chain-of-Thought(CoT)提示来评估模型的推理能力,并将这些任务建模为动态规划(DP)问题。

实验结果表明,虽然高效Transformer模型能够解决一般的DP问题,但它们需要的模型规模与问题规模成正比。这意味着,对于更复杂的问题,高效Transformer模型可能需要更大的计算资源和更长的训练时间。此外,研究团队还发现,对于某些特定的DP问题,高效Transformer模型的性能甚至不如原装Transformer。

在第二篇论文《RNNs are not Transformers (Yet): The Key Bottleneck on In-context Retrieval》中,研究团队比较了循环神经网络(RNN)和Transformer在解决算法问题上的表示能力。他们发现,尽管RNN在处理长序列时具有内存效率优势,但在使用CoT提示时,其性能仍无法与Transformer相媲美。

研究团队指出,RNN在上下文检索方面存在关键瓶颈,即无法完美地从上下文中检索信息。对于一些需要这种能力的显式或隐式任务,如关联回忆和判断图是否为树,RNN无法解决,而Transformer则能轻松应对。然而,研究团队也发现,通过采用增强上下文检索能力的技术,如检索增强生成(RAG)和添加单个Transformer层,RNN的性能可以得到显著提升,从而在使用CoT提示时解决所有多项式时间可解的问题,缩小与Transformer的表示能力差距。

这两篇论文的研究结果共同强调了原装Transformer在某些任务上仍具有不可替代的优势。首先,原装Transformer在处理需要复杂推理的任务时表现出色,如动态规划问题和算法问题。其次,原装Transformer在上下文检索方面具有天然优势,能够更准确地从上下文中提取信息,从而提高模型的泛化能力和鲁棒性。

此外,原装Transformer的架构设计也为其提供了更好的可扩展性和灵活性。通过增加模型层数和调整超参数,原装Transformer可以适应不同规模和复杂度的任务需求。相比之下,高效Transformer模型的架构设计往往更加固定,难以根据具体任务进行灵活调整。

尽管原装Transformer在某些任务上仍具有优势,但高效Transformer的研究和探索仍具有重要意义。首先,高效Transformer模型在计算效率上的提升可以为大规模NLP任务提供更可行的解决方案。其次,通过深入研究高效Transformer的局限性和改进方向,可以为未来更高效、更智能的NLP模型提供宝贵的经验和启示。

未来,研究者们可以继续探索如何在保持计算效率的同时,提高高效Transformer模型的推理能力和上下文检索能力。例如,可以尝试将原装Transformer的某些优势特性(如自注意力机制)融入到高效Transformer模型中,以实现性能和效率的平衡。此外,还可以研究如何利用其他类型的神经网络(如图神经网络)来解决特定类型的NLP任务,从而为NLP领域的发展开辟新的路径。

论文链接:https://arxiv.org/abs/2402.13934
论文链接:https://arxiv.org/abs/2402.18510

相关文章
比LoRA还快50%的微调方法来了!一张3090性能超越全参调优,UIUC联合LMFlow团队提出LISA
【4月更文挑战第3天】伊利诺伊大学香槟分校和LMFlow团队推出LISA,一种新型微调技术,用于解决大型语言模型的内存消耗问题。LISA基于层重要性采样,随机冻结中间层,降低内存使用,同时提供比LoRA更快的训练速度和更高性能。实验显示,LISA在相似或更低的GPU内存消耗下,超越LoRA和全参数调优。该方法提高了资源受限环境下的微调效率,有望成为LoRA的有效替代,但仍然面临内存限制和随机性影响的问题。
264 4
比LoRA还快50%的微调方法来了!一张3090性能超越全参调优,UIUC联合LMFlow团队提出LISA
|
1月前
清华UCSD提出全新微调方法,8B小模型媲美GPT-4o!科学问题正确率提高28%
清华大学与UCSD研究人员提出了一种创新微调方法,通过“世界知识蒸馏”和“工具使用适应”两组件,显著提升大型语言模型(LLM)解决科学问题的能力,同时保持其基本推理能力。实验结果显示,该方法在多个科学领域基准数据集上大幅提高了答案准确性和工具使用精度。论文地址:https://arxiv.org/abs/2411.00412
41 2
NIPS 2024:代码模型自我进化超越GPT-4o蒸馏!UIUC伯克利等提出自对齐方法
在NIPS 2024上,UIUC、UC Berkeley等高校联合提出SelfCodeAlign方法,通过自我对齐使代码生成的大型语言模型(LLMs)在无需大量人工注释或蒸馏的情况下显著提升性能。该方法利用基础模型生成多样化编码任务并自我验证,最终选择通过测试的示例用于指令微调。实验表明,SelfCodeAlign微调的模型在多个编码任务上显著优于其他方法。论文地址:https://arxiv.org/pdf/2410.24198。
68 11
LeCun赞转!类Sora模型能否理解物理规律?字节豆包大模型团队系统性研究揭秘
近日,字节跳动豆包大模型团队发布论文,探讨视频生成模型(如类Sora模型)在理解物理规律方面的能力,引起广泛关注并获Yann LeCun点赞。研究通过2D模拟平台测试扩散模型,发现其在分布内表现优异,但在分布外和组合泛化上存在不足,揭示了基于案例的泛化和特征优先级机制。这表明,仅靠视觉数据难以学习到真正的物理规律,未来需引入物理先验知识以提升模型性能。
125 16
何恺明新作出炉!异构预训练Transformer颠覆本体视觉学习范式,AI性能暴涨超20%
【10月更文挑战第29天】在机器人学习领域,训练通用模型面临数据异构性的挑战。近期研究“Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers”提出异构预训练Transformer(HPT),通过大规模预训练学习跨不同本体和任务的共享表示,显著提升了性能。实验结果显示,HPT在未见过的任务上表现优异,性能提升超过20%。
188 6
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
【7月更文挑战第11天】蒙特利尔大学Yoshua Bengio团队推出多模态新基准MFE,旨在全面评估大型语言模型在处理跨模态任务时的能力。MFE包含多样化数据集、挑战性任务和严格评估指标,暴露了Claude 3.5和GPT-4o等现有模型的弱点,为多模态AI研究提供新视角和改进方向。论文链接:arxiv.org/abs/2406.06462
112 1
全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型
【6月更文挑战第4天】普林斯顿大学陈丹琦团队推出SimPO,一种超越DPO的强化学习优化算法,旨在优化大型语言模型以符合人类价值观。SimPO通过序列平均对数概率作为奖励,提高计算效率并减少对参考模型的依赖。在多基准测试中,SimPO表现优秀,尤其在AlpacaEval 2和Arena-Hard上大幅超越现有方法。团队还基于Llama3-8B-Instruct创建了最强8B开源模型,推动AI技术发展。尽管存在超参数敏感性等挑战,SimPO仍为AI优化提供新途径。[论文链接](https://arxiv.org/pdf/2405.14734)
151 1
谷歌提出大规模ICL方法——强化和无监督
【5月更文挑战第26天】谷歌DeepMind团队提出Many-Shot ICL,一种强化和无监督学习方法,用于提升大型语言模型处理多样化任务的能力。通过提供更多示例,模型无需权重更新即可学习新任务。研究还引入Reinforced ICL和Unsupervised ICL,减少对人类生成输出的依赖。Many-Shot ICL能有效克服预训练偏见,但示例顺序对其性能至关重要。然而,NLL作为评估指标的局限性被指出,且增加示例数量可能降低性能。该研究为改进LLMs提供了新视角,但仍需在更多模型和场景中验证。[链接: https://arxiv.org/abs/2404.11018]
141 1
|
11月前
|
清华大学研究提出用大模型做心理测量
【2月更文挑战第24天】清华大学研究提出用大模型做心理测量
475 2
清华大学研究提出用大模型做心理测量
田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型
【2月更文挑战第18天】田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型
167 2
田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型