还是原装Transformer好!北大清华团队同时揭示Mamba等推理短板

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
简介: 北京大学和清华大学的研究团队分别发表论文,探讨了高效Transformer模型如Sparse Transformer和Linear Transformer在推理能力和上下文检索上的局限性,强调了原装Transformer在处理复杂任务上的优势。研究显示,尽管高效模型提升了计算效率,但在某些任务上,如动态规划问题和算法问题,以及上下文信息的精准提取方面,仍不及原装Transformer。这突显了原装Transformer在复杂推理任务中的不可替代性及其架构的灵活性和可扩展性。同时,研究也为未来高效Transformer的优化提供了方向。

在人工智能领域,Transformer模型凭借其卓越的性能和广泛的应用,已成为自然语言处理(NLP)任务的主流选择。然而,随着模型规模的不断扩大和计算资源的日益紧张,研究者们开始探索更高效的Transformer替代方案,如Sparse Transformer和Linear Transformer等。然而,近期北京大学和清华大学的研究团队分别发表了两篇论文,揭示了这些高效Transformer在推理能力上的局限性,并强调了原装Transformer在某些任务上仍具有不可替代的优势。

在第一篇论文《Do Efficient Transformers Really Save Computation?》中,研究团队对Sparse Transformer和Linear Transformer等高效Transformer模型进行了深入研究。他们发现,尽管这些模型在计算效率上有所提升,但在处理需要复杂推理的任务时,其性能并不如预期。具体而言,研究团队使用Chain-of-Thought(CoT)提示来评估模型的推理能力,并将这些任务建模为动态规划(DP)问题。

实验结果表明,虽然高效Transformer模型能够解决一般的DP问题,但它们需要的模型规模与问题规模成正比。这意味着,对于更复杂的问题,高效Transformer模型可能需要更大的计算资源和更长的训练时间。此外,研究团队还发现,对于某些特定的DP问题,高效Transformer模型的性能甚至不如原装Transformer。

在第二篇论文《RNNs are not Transformers (Yet): The Key Bottleneck on In-context Retrieval》中,研究团队比较了循环神经网络(RNN)和Transformer在解决算法问题上的表示能力。他们发现,尽管RNN在处理长序列时具有内存效率优势,但在使用CoT提示时,其性能仍无法与Transformer相媲美。

研究团队指出,RNN在上下文检索方面存在关键瓶颈,即无法完美地从上下文中检索信息。对于一些需要这种能力的显式或隐式任务,如关联回忆和判断图是否为树,RNN无法解决,而Transformer则能轻松应对。然而,研究团队也发现,通过采用增强上下文检索能力的技术,如检索增强生成(RAG)和添加单个Transformer层,RNN的性能可以得到显著提升,从而在使用CoT提示时解决所有多项式时间可解的问题,缩小与Transformer的表示能力差距。

这两篇论文的研究结果共同强调了原装Transformer在某些任务上仍具有不可替代的优势。首先,原装Transformer在处理需要复杂推理的任务时表现出色,如动态规划问题和算法问题。其次,原装Transformer在上下文检索方面具有天然优势,能够更准确地从上下文中提取信息,从而提高模型的泛化能力和鲁棒性。

此外,原装Transformer的架构设计也为其提供了更好的可扩展性和灵活性。通过增加模型层数和调整超参数,原装Transformer可以适应不同规模和复杂度的任务需求。相比之下,高效Transformer模型的架构设计往往更加固定,难以根据具体任务进行灵活调整。

尽管原装Transformer在某些任务上仍具有优势,但高效Transformer的研究和探索仍具有重要意义。首先,高效Transformer模型在计算效率上的提升可以为大规模NLP任务提供更可行的解决方案。其次,通过深入研究高效Transformer的局限性和改进方向,可以为未来更高效、更智能的NLP模型提供宝贵的经验和启示。

未来,研究者们可以继续探索如何在保持计算效率的同时,提高高效Transformer模型的推理能力和上下文检索能力。例如,可以尝试将原装Transformer的某些优势特性(如自注意力机制)融入到高效Transformer模型中,以实现性能和效率的平衡。此外,还可以研究如何利用其他类型的神经网络(如图神经网络)来解决特定类型的NLP任务,从而为NLP领域的发展开辟新的路径。

论文链接:https://arxiv.org/abs/2402.13934
论文链接:https://arxiv.org/abs/2402.18510

目录
相关文章
|
1月前
|
机器学习/深度学习 人工智能 并行计算
AReaL-boba:仅用200条数据复现32B模型效果!蚂蚁清华联手打造强化学习+数据蒸馏框架,7B模型数学推理碾压同级
AReaL-boba是蚂蚁技术研究院与清华大学联合推出的强化学习训练框架,通过集成SGLang推理框架和数据蒸馏技术,显著提升训练效率并降低资源消耗,其7B模型在数学推理任务中刷新同尺寸模型性能纪录。
97 11
AReaL-boba:仅用200条数据复现32B模型效果!蚂蚁清华联手打造强化学习+数据蒸馏框架,7B模型数学推理碾压同级
|
4月前
|
机器人
WHALE来了,南大周志华团队做出更强泛化的世界模型
南大周志华团队提出WHALE框架,应对世界模型在具身环境中决策的泛化与不确定性估计挑战。WHALE包含行为条件和回溯-展开两项关键技术,提升模型适应不同行为模式及预测准确性。基于此框架的Whale-ST和Whale-X模型在模拟和真实机器人任务中表现出色,验证了其在视觉控制任务中的长时预测和泛化能力。论文:https://arxiv.org/pdf/2411.05619
133 40
|
6月前
|
机器学习/深度学习 人工智能 机器人
何恺明新作出炉!异构预训练Transformer颠覆本体视觉学习范式,AI性能暴涨超20%
【10月更文挑战第29天】在机器人学习领域,训练通用模型面临数据异构性的挑战。近期研究“Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers”提出异构预训练Transformer(HPT),通过大规模预训练学习跨不同本体和任务的共享表示,显著提升了性能。实验结果显示,HPT在未见过的任务上表现优异,性能提升超过20%。
207 6
|
10月前
|
机器学习/深度学习 自然语言处理
LeCun新作:神经网络在实践中的灵活性到底有多大?
【7月更文挑战第23天】论文探究神经网络实践灵活性,由Ravid Shwartz-Ziv等与Yann LeCun合作。挑战理论极限,实验证明网络灵活性受限于优化器与正则化,仅达局部最优,尤其CNN在参数效率上超越MLP与ViT。SGD展现高于全批量梯度下降的灵活性。研究局限在于聚焦图像分类与表格数据,未覆盖NLP或RL领域。[论文](https://arxiv.org/pdf/2406.11463)揭示实践中的神经网络并非如理论上全能。
107 3
|
11月前
|
数据采集 机器学习/深度学习 人工智能
可信度超越GPT-4V,清华&面壁揭秘小钢炮模型背后的高效对齐技术
【6月更文挑战第15天】清华大学与面壁智能合作的RLAIF-V框架挑战GPT-4V,通过开源AI反馈增强大语言模型的可信度。该框架利用开放数据和在线学习优化对齐,减少幻觉错误,12B参数模型表现超越GPT-4V。虽有数据质量和稳定性问题,但展示出开源MLLMs潜力。[链接: https://arxiv.org/abs/2405.17220]
183 1
|
机器学习/深度学习 数据采集 人工智能
综述:使用语言模型进行可控的蛋白质设计(1)
综述:使用语言模型进行可控的蛋白质设计
600 0
|
机器学习/深度学习 人工智能 编解码
一文梳理视觉Transformer架构进展:与CNN相比,ViT赢在哪儿?(1)
一文梳理视觉Transformer架构进展:与CNN相比,ViT赢在哪儿?
700 0
|
机器学习/深度学习 存储 人工智能
ICLR 2023 Spotlight|节省95%训练开销,清华黄隆波团队提出强化学习专用稀疏训练框架RLx2
ICLR 2023 Spotlight|节省95%训练开销,清华黄隆波团队提出强化学习专用稀疏训练框架RLx2
233 0
|
机器学习/深度学习 TensorFlow 算法框架/工具
实际应用效果不佳?来看看提升深度神经网络泛化能力的核心技术(附代码)
神经网络在学习能力与性能方面,远超传统机器学习算法,其大量层与数十亿参数的网络可以轻松学习数据的模式与规律,也容易陷入了『过拟合』问题。本篇梳理4类缓解过拟合的方法:数据增强、Dropout随机失活、L1和L2正则化、Early Stopping/早停止。
2437 2
实际应用效果不佳?来看看提升深度神经网络泛化能力的核心技术(附代码)
|
机器学习/深度学习 计算机视觉 容器
清华大学提出ACmix | 这才是Self-Attention与CNN正确的融合范式,性能速度全面提升(一)
清华大学提出ACmix | 这才是Self-Attention与CNN正确的融合范式,性能速度全面提升(一)
856 0
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等