Transformer要变Kansformer?用了几十年的MLP迎来挑战者KAN

简介: 【5月更文挑战第15天】KANs,一种基于Kolmogorov-Arnold表示定理的新型神经网络,以其独特结构挑战传统的MLP。KANs在边而非节点上使用可学习激活函数,展现出超越MLP的准确性和更快的扩展性。其可解释性优势利于科学应用,但训练速度较慢,未来优化有望改善。KANs在科学任务和潜在的Transformer集成中展示出广阔的应用前景。[链接](https://arxiv.org/pdf/2404.19756)

在深度学习领域,多层感知器(MLP)作为一种基础的神经网络结构,长久以来一直是研究和应用的主力军。然而,随着技术的不断进步,新的网络结构不断涌现,挑战着MLP的地位。最近,一种名为Kolmogorov-Arnold Networks(KANs)的新型神经网络模型走进了人们的视野,它以独特的结构和优越的性能,为深度学习领域带来了一股新风。

KANs的设计理念受到了Kolmogorov-Arnold表示定理的启发,这一定理是数学中关于多变量连续函数表示的经典理论。与MLP在节点(神经元)上使用固定激活函数不同,KANs在边(权重)上放置了可学习的激活函数,并且不使用线性权重,而是将每个权重参数替换为一个参数化的样条函数。这种设计使得KANs在准确性和可解释性方面具有显著优势。

在准确性方面,KANs展现出了超越MLP的潜力。研究表明,即使是规模较小的KANs也能在数据拟合和偏微分方程(PDE)求解等任务上达到与大型MLP相当的或更好的准确度。此外,KANs在理论上和实证上都显示出比MLP更快的神经网络扩展规律,这意味着在处理更复杂的问题时,KANs可能具有更好的扩展性和效率。

在可解释性方面,KANs的优势同样突出。由于其结构的特点,KANs可以直观地被可视化,并且能够方便地与人类用户进行交互。这使得KANs在数学和物理等科学领域的应用中,不仅能够帮助科学家重新发现数学和物理定律,还能够作为“AI+科学”的基础模型,为科学发现提供新的工具和视角。

然而,KANs并非没有挑战。目前,KANs的主要瓶颈在于其训练速度较慢,通常比MLP慢10倍左右。这主要是由于不同的激活函数无法利用批量计算,导致计算效率降低。尽管如此,KANs的设计者们认为,通过未来的工程优化,这一问题有望得到改善,而不应被视为KANs的根本限制。

在算法层面,KANs的设计和训练还有许多值得进一步探索的地方。例如,样条激活函数可能被其他局部核函数所替代,或者采用自适应网格策略来提高效率。此外,将KANs与MLP进行混合,或者引入自适应性设计,都可能进一步提升KANs的性能。

在应用层面,KANs在科学相关任务中显示出了比MLP更有效的迹象,例如拟合物理方程和解决PDE问题。这表明KANs在诸如Navier-Stokes方程、密度泛函理论等领域的应用前景广阔。同时,将KANs应用于机器学习相关任务,如将其集成到当前的架构中,如变换器(transformers),也可能产生令人期待的结果。

链接:https://arxiv.org/pdf/2404.19756

目录
相关文章
|
2月前
|
机器学习/深度学习 编解码 自然语言处理
全新AFPN出现 | 完胜PAFPN,堪称YOLO系列的最佳搭档
全新AFPN出现 | 完胜PAFPN,堪称YOLO系列的最佳搭档
142 0
|
机器学习/深度学习 编解码 计算机视觉
Transformer又一城 | Swin-Unet:首个纯Transformer的医学图像分割模型解读
Transformer又一城 | Swin-Unet:首个纯Transformer的医学图像分割模型解读
669 0
|
6天前
|
机器学习/深度学习 自然语言处理 机器人
MLP:深度学习的先锋
MLP:深度学习的先锋
|
2月前
|
机器学习/深度学习 算法 异构计算
挑战Transformer的Mamba是什么来头?
【5月更文挑战第4天】Mamba是一种新型序列建模架构,由Albert Gu和Tri Dao提出,旨在解决Transformer在处理长序列数据时的效率问题。该模型采用选择性状态空间,允许动态调整状态以关注重要信息,忽略冗余。Mamba通过硬件感知的并行算法实现线性时间复杂度,提高计算效率,并简化架构,融合状态空间模型与Transformer的MLP块。在语言建模等任务中,Mamba表现优越,甚至超越更大规模的Transformer模型。然而,对于某些连续信号如音频,其性能可能不及传统LTI模型。
54 9
|
2月前
|
机器学习/深度学习 编解码 数据可视化
即插即用 | 清华大学提出Focused Linear Attention取代Self-Attention成为ViT的新宠
即插即用 | 清华大学提出Focused Linear Attention取代Self-Attention成为ViT的新宠
114 0
|
2月前
|
机器学习/深度学习 编解码 自然语言处理
纯卷积BEV模型的巅峰战力 | BEVENet不用Transformer一样成就ADAS的量产未来
纯卷积BEV模型的巅峰战力 | BEVENet不用Transformer一样成就ADAS的量产未来
67 0
|
编解码 测试技术 计算机视觉
LVT | ViT轻量化的曙光,完美超越MobileNet和ResNet系列(二)
LVT | ViT轻量化的曙光,完美超越MobileNet和ResNet系列(二)
191 0
LVT | ViT轻量化的曙光,完美超越MobileNet和ResNet系列(二)
|
机器学习/深度学习 人工智能 算法
业界首个适用于固体系统的神经网络波函数,登上Nature子刊
业界首个适用于固体系统的神经网络波函数,登上Nature子刊
业界首个适用于固体系统的神经网络波函数,登上Nature子刊
|
机器学习/深度学习 编解码 计算机视觉
三星提出XFormer | 超越MobileViT、DeiT、MobileNet等模型
三星提出XFormer | 超越MobileViT、DeiT、MobileNet等模型
417 0
|
机器学习/深度学习 编解码 数据可视化
超越 Swin、ConvNeXt | Facebook提出Neighborhood Attention Transformer
超越 Swin、ConvNeXt | Facebook提出Neighborhood Attention Transformer
121 0