超越Transformer,全面升级!MIT等华人团队发布通用时序TimeMixer++架构,8项任务全面领先

简介: 一支由麻省理工学院、香港科技大学(广州)、浙江大学和格里菲斯大学的华人研究团队,开发了名为TimeMixer++的时间序列分析模型。该模型在8项任务中超越现有技术,通过多尺度时间图像转换、双轴注意力机制和多尺度多分辨率混合等技术,实现了性能的显著提升。论文已发布于arXiv。

在人工智能领域,时间序列分析一直是个关键课题,其应用遍及天气预报、医疗诊断、航天监控和可穿戴设备等众多领域。近日,来自麻省理工学院(MIT)、香港科技大学(广州)、浙江大学和格里菲斯大学的一支华人研究团队,发布了一种名为TimeMixer++的新型通用时间序列模式机器,在8项不同的时间序列分析任务中全面超越了现有技术,实现了性能的显著提升。

在时间序列分析中,传统模型如ARIMA和STL在处理周期性和趋势性模式时表现出色,但在面对非线性动态时则显得力不从心。而基于深度学习的方法,如RNN和TCN,虽然能够捕捉到序列依赖性,但在处理长程依赖时仍存在局限。此外,将时间序列重塑为2D张量的方法,虽然在频率域信息的利用上有所突破,但在全面捕捉长程模式上仍有不足。

TimeMixer++的创新之处在于其独特的设计理念和多层次的模式提取能力。该模型通过以下几个关键技术实现了性能的全面提升:

TimeMixer++首先将多尺度时间序列转化为多分辨率时间图像,通过频率分析捕捉时间和频率域中的复杂模式。这一步骤不仅保留了原始数据的完整性,还为后续的模式提取提供了丰富的信息。

在时间图像分解阶段,TimeMixer++利用双轴注意力机制,将时间图像中的季节性和趋势性模式进行分离。这种分离不仅提高了模式提取的准确性,还为后续的多尺度和多分辨率混合提供了基础。

在多尺度混合阶段,TimeMixer++通过2D卷积层对不同尺度的季节性模式进行混合,实现了从细粒度到粗粒度的信息流动。而在多分辨率混合阶段,模型则根据不同周期的重要性,对趋势性模式进行自适应聚合。

为了验证TimeMixer++的性能,研究团队在8项不同的时间序列分析任务上进行了广泛的实验,包括长期预测、单变量和多变量短期预测、缺失值填补、分类、异常检测以及少样本和零样本预测。实验结果显示,TimeMixer++在所有这些任务上都取得了显著的性能提升,全面超越了现有的通用和专用模型。

在长期预测任务中,TimeMixer++在8个真实世界的数据集上进行了测试,包括ETT、Weather、Solar-Energy、Electricity和Traffic等。实验结果显示,TimeMixer++在所有这些数据集上都取得了最低的均方误差(MSE)和平均绝对误差(MAE),性能提升幅度最高可达7.3%。

在单变量和多变量短期预测任务中,TimeMixer++在M4 Competition和PEMS数据集上进行了测试。实验结果显示,TimeMixer++在所有指标上都取得了最低的值,性能提升幅度最高可达23.3%。

在缺失值填补任务中,TimeMixer++在6个数据集上进行了测试,包括ETT、Electricity和Weather等。实验结果显示,TimeMixer++在所有这些数据集上都取得了最低的MSE和MAE,性能提升幅度最高可达25.7%。

在分类和异常检测任务中,TimeMixer++在10个多变量数据集和5个异常检测数据集上进行了测试。实验结果显示,TimeMixer++在分类任务中取得了最高的准确率(75.9%),在异常检测任务中取得了最高的F1分数(87.47%)。

为了进一步验证TimeMixer++的有效性,研究团队还进行了消融实验和表示分析。消融实验结果显示,TimeMixer++的各个组件(如通道混合、时间图像分解、多尺度混合和多分辨率混合)都对模型性能的提升做出了重要贡献。而表示分析则显示,TimeMixer++能够有效地分离出时间图像中的季节性和趋势性模式,并根据不同的任务需求进行自适应的表示学习。

尽管TimeMixer++在多个方面取得了显著的性能提升,但仍存在一些局限性和未来研究方向。例如,如何进一步提高模型的可解释性和鲁棒性,以及如何将模型应用于更多的实际场景和领域等。

论文链接:https://arxiv.org/pdf/2410.16032

目录
打赏
0
84
84
1
396
分享
相关文章
MiTS与PoTS:面向连续值时间序列的极简Transformer架构
本文探讨了将标准Transformer架构应用于连续值时间序列数据的最小化调整方案,提出了极简时间序列Transformer(MiTS-Transformer)和位置编码扩展时间序列Transformer(PoTS-Transformer)。通过替换嵌入层为线性映射层,MiTS-Transformer实现了对正弦波序列的有效学习。而PoTS-Transformer则通过在高维空间中进行位置编码,结合低维模型架构,解决了长序列处理与过拟合问题。实验结果表明,这两种模型在不同类型的时间序列预测任务中表现出色,为基于Transformer的时间序列预测提供了高效基准方案。
38 5
MiTS与PoTS:面向连续值时间序列的极简Transformer架构
深入剖析Transformer架构中的多头注意力机制
多头注意力机制(Multi-Head Attention)是Transformer模型中的核心组件,通过并行运行多个独立的注意力机制,捕捉输入序列中不同子空间的语义关联。每个“头”独立处理Query、Key和Value矩阵,经过缩放点积注意力运算后,所有头的输出被拼接并通过线性层融合,最终生成更全面的表示。多头注意力不仅增强了模型对复杂依赖关系的理解,还在自然语言处理任务如机器翻译和阅读理解中表现出色。通过多头自注意力机制,模型在同一序列内部进行多角度的注意力计算,进一步提升了表达能力和泛化性能。
Scaling Law 撞墙?复旦团队大模型推理新思路:Two-Player架构打破自我反思瓶颈
复旦大学研究团队提出Two-Player架构,通过分离推理和批评模型的角色,突破大语言模型(LLM)在复杂推理任务中的自我反思瓶颈。该架构利用批评模型提供逐步反馈,监督推理模型,提升其性能。研究开发了AutoMathCritique框架,收集76,321个响应数据,实验表明批评模型显著提高演员模型的探索效率和解决方案多样性。论文地址:http://arxiv.org/abs/2411.16579
36 2
MeteoRA:多任务AI框架革新!动态切换+MoE架构,推理效率提升200%
MeteoRA 是南京大学推出的多任务嵌入框架,基于 LoRA 和 MoE 架构,支持动态任务切换与高效推理。
65 3
记忆层增强的 Transformer 架构:通过可训练键值存储提升 LLM 性能的创新方法
Meta研究团队开发的记忆层技术通过替换Transformer中的前馈网络(FFN),显著提升了大语言模型的性能。记忆层使用可训练的固定键值对,规模达百万级别,仅计算最相似的前k个键值,优化了计算效率。实验显示,记忆层使模型在事实准确性上提升超100%,且在代码生成和通用知识领域表现优异,媲美4倍计算资源训练的传统模型。这一创新对下一代AI架构的发展具有重要意义。
104 11
记忆层增强的 Transformer 架构:通过可训练键值存储提升 LLM 性能的创新方法
【上云基础系列04】基于标准架构的数据库升级
本文回顾了业务上云从基础到进阶的理念,涵盖基础版和全栈版架构。在“入门级:上云标准弹性架构基础版”的基础上,本文针对数据库升级,重点介绍了高可用数据库架构的升级方案,确保数据安全和业务连续性。最后,附有详细的“上云标准弹性架构”演进说明,帮助用户选择合适的架构方案。
Titans:谷歌新型神经记忆架构,突破 Transformer 长序列处理的瓶颈
Titans 是谷歌推出的新型神经网络架构,通过神经长期记忆模块突破 Transformer 在处理长序列数据时的瓶颈,支持并行计算,显著提升训练效率。
125 5
Titans:谷歌新型神经记忆架构,突破 Transformer 长序列处理的瓶颈
基于 Apache RocketMQ 的 ApsaraMQ Serverless 架构升级
基于 Apache RocketMQ 的 ApsaraMQ Serverless 架构升级
AllData数据中台技术架构升级演进
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
Paimon助力数据湖仓架构实时化升级
本次分享由阿里云高级技术专家李劲松介绍Paimon助力数据湖仓架构实时化升级。内容涵盖四个部分:1) 数据架构的存储演进,介绍Data LakeHouse结合的优势;2) Paimon实时数据湖,强调其批流一体和高效处理能力;3) 数据湖的实时流式处理,展示Paimon在时效性提升上的应用;4) 数据湖非结构化处理,介绍Paimon对非结构化数据的支持及AI集成。Paimon通过优化存储格式和引入LSM技术,实现了更高效的实时数据处理和查询性能,广泛应用于阿里巴巴内部及各大公司,未来将进一步支持AI相关功能。

热门文章

最新文章