SiMBA:基于Mamba的跨图像和多元时间序列的预测模型

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
大数据开发治理平台 DataWorks,不限时长
简介: 微软研究者提出了SiMBA,一种融合Mamba与EinFFT的新架构,用于高效处理图像和时间序列。SiMBA解决了Mamba在大型网络中的不稳定性,结合了卷积、Transformer、频谱方法和状态空间模型的优点。在ImageNet 1K上表现优越,达到84.0%的Top-1准确率,并在多变量长期预测中超越SOTA,降低了MSE和MAE。代码开源,适用于复杂任务的高性能建模。[[论文链接]](https//avoid.overfit.cn/post/c21aa5ca480b47198ee3daefdc7254bb)

这是3月26日新发的的论文,微软的研究人员简化的基于mamba的体系结构,并且将其同时应用在图像和时间序列中并且取得了良好的成绩。

语言模型的发展正在从大型语言模型(LLMs)向小型语言模型(SLMs)转变。llm和slm的核心都是transformers,它是llm和slm的构建模块。虽然transformers通过其注意力网络已经证明了其跨领域的卓越性能,但注意力存在许多问题,包括低归纳偏置和输入序列长度的二次复杂度。

状态空间模型(ssm)在处理信息密集数据建模方面效率较低,特别是在计算机视觉等领域,并且在基因组数据等离散场景中面临挑战。为了解决典型状态空间模型难以有效处理长序列的问题,最近提出了一种选择性状态空间序列建模技术Mamba。但是Mamba却有稳定性问题,当扩展到计算机视觉数据集的大型网络时,训练损失不收敛。

来自微软的研究人员介绍了SiMBA,这是一种引入EinFFT进行通道建模的新架构。SiMBA体系结构将Mamba用于序列建模,并引入EinFFT作为一种新的通道建模技术。有效地解决了在扩展到大型网络时在Mamba中观察到的不稳定性问题。该方法突出了基于卷积模型、transformers模型、mlp混频器、频谱混频器模型和状态空间方法的各种模型。论文还介绍了将卷积与transformers或频谱方法相结合的混合模型。

SiMBA的信道混合包含三个主要组件:频谱变换、使用爱因斯坦矩阵乘法的频谱门控网络和逆频谱变换。EinFFT通过在复数表示上应用爱因斯坦矩阵乘法来利用频域信道混合。这使得能够提取具有增强的全局可见性和能量集中度的关键数据模式。Mamba结合MLP进行信道混合可以弥补小规模网络的性能差距,但对于大型网络可能存在同样的稳定性问题。结合EinFFT, Mamba解决了小型和大型网络的稳定性问题。

在ImageNet 1K数据集上的评估表明,SiMBA的出色性能达到了84.0%的前1准确率,优于著名的卷积网络和transformers。

在多变量长期预测中,也显示出了很强大的能力,使用预测查询窗口96的所有数据集的长𝑇∈{96,192,336,720}。

性能评估显示SiMBA在各种指标上的优势,包括均方误差(MSE)和平均绝对误差(MAE),超过了最先进的模型。包括最新的时间序列域的最新方法,如FourierGNN, CrossGNN,TiDE, SciNet, FreTS,PatchTST,以下结果是基于所有数据集大小为96的查找窗口

微软SiMBA体系结构的引入标志着视觉和时间序列分析领域的重大进步。SiMBA解决了稳定性问题,同时在不同的指标上提供卓越的性能,为处理复杂的数据任务提供了无与伦比的能力,同时将一个模型应用在图像识别和时间序列中,这个研究还是很有意思。另外官方给得代码也很简洁,可以直接下载复现。

论文地址:

https://avoid.overfit.cn/post/c21aa5ca480b47198ee3daefdc7254bb

目录
相关文章
|
2月前
|
存储 编解码 数据可视化
单细胞分析|Seurat中的跨模态整合
在单细胞基因组学中,新方法“桥接整合”允许将scATAC-seq、scDNAme等技术的数据映射到基于scRNA-seq的参考数据集,借助多组学数据作为桥梁。研究展示了如何将scATAC-seq数据集映射到人类PBMC的scRNA-seq参考,使用10x Genomics的多组学数据集。Azimuth ATAC工具提供了自动化的工作流程,支持在R和网页平台上执行桥接整合。通过加载和预处理不同数据集,映射scATAC-seq数据并进行评估,证明了映射的准确性和细胞类型预测的可靠性。此方法扩展了参考映射框架,促进了不同技术间的互操作性。
22 5
|
4天前
|
机器学习/深度学习 并行计算 测试技术
BiTCN:基于卷积网络的多元时间序列预测
该文探讨了时间序列预测中模型架构的选择,指出尽管MLP和Transformer模型常见,但CNN在预测领域的应用较少。BiTCN是一种利用两个时间卷积网络来编码历史和未来协变量的模型,提出于《Parameter-efficient deep probabilistic forecasting》(2023年3月)。它包含多个由扩张卷积、GELU激活函数、dropout和全连接层组成的临时块,有效地处理序列数据。实验表明,BiTCN在具有外生特征的预测任务中表现优于N-HiTS和PatchTST。BiTCN的效率和性能展示了CNN在时间序列预测中的潜力。
19 1
|
2天前
|
机器学习/深度学习 数据可视化 数据挖掘
R语言神经网络模型金融应用预测上证指数时间序列可视化
R语言神经网络模型金融应用预测上证指数时间序列可视化
|
2天前
|
数据可视化
SPSS用多元逐步回归模型对上证指数预测、描述统计和相关分析可视化研究
SPSS用多元逐步回归模型对上证指数预测、描述统计和相关分析可视化研究
|
9天前
|
机器学习/深度学习 数据可视化 算法
R语言独立成分分析fastICA、谱聚类、支持向量回归SVR模型预测商店销量时间序列可视化
R语言独立成分分析fastICA、谱聚类、支持向量回归SVR模型预测商店销量时间序列可视化
|
5月前
|
机器学习/深度学习 人工智能 算法
社交网络分析4(上):社交网络链路预测分析、Logistic回归模型、LLSLP方法(LightGBM 堆叠链路预测)、正则化方法、多重共线性
社交网络分析4(上):社交网络链路预测分析、Logistic回归模型、LLSLP方法(LightGBM 堆叠链路预测)、正则化方法、多重共线性
307 0
社交网络分析4(上):社交网络链路预测分析、Logistic回归模型、LLSLP方法(LightGBM 堆叠链路预测)、正则化方法、多重共线性
|
20天前
多元时间序列滚动预测:ARIMA、回归、ARIMAX模型分析
多元时间序列滚动预测:ARIMA、回归、ARIMAX模型分析
|
21天前
R语言多元时间序列滚动预测:ARIMA、回归、ARIMAX模型分析
R语言多元时间序列滚动预测:ARIMA、回归、ARIMAX模型分析
|
20天前
|
数据可视化
ARIMA模型、随机游走模型RW模拟和预测时间序列趋势可视化
ARIMA模型、随机游走模型RW模拟和预测时间序列趋势可视化
|
20天前
|
前端开发 数据建模 计算机视觉
R语言主成分回归(PCR)、 多元线性回归特征降维分析光谱数据和汽车油耗、性能数据
R语言主成分回归(PCR)、 多元线性回归特征降维分析光谱数据和汽车油耗、性能数据