超越Transformer,全面升级!MIT等华人团队发布通用时序TimeMixer++架构,8项任务全面领先

简介: 一支由麻省理工学院、香港科技大学(广州)、浙江大学和格里菲斯大学的华人研究团队,开发了名为TimeMixer++的时间序列分析模型。该模型在8项任务中超越现有技术,通过多尺度时间图像转换、双轴注意力机制和多尺度多分辨率混合等技术,实现了性能的显著提升。论文已发布于arXiv。

在人工智能领域,时间序列分析一直是个关键课题,其应用遍及天气预报、医疗诊断、航天监控和可穿戴设备等众多领域。近日,来自麻省理工学院(MIT)、香港科技大学(广州)、浙江大学和格里菲斯大学的一支华人研究团队,发布了一种名为TimeMixer++的新型通用时间序列模式机器,在8项不同的时间序列分析任务中全面超越了现有技术,实现了性能的显著提升。

在时间序列分析中,传统模型如ARIMA和STL在处理周期性和趋势性模式时表现出色,但在面对非线性动态时则显得力不从心。而基于深度学习的方法,如RNN和TCN,虽然能够捕捉到序列依赖性,但在处理长程依赖时仍存在局限。此外,将时间序列重塑为2D张量的方法,虽然在频率域信息的利用上有所突破,但在全面捕捉长程模式上仍有不足。

TimeMixer++的创新之处在于其独特的设计理念和多层次的模式提取能力。该模型通过以下几个关键技术实现了性能的全面提升:

TimeMixer++首先将多尺度时间序列转化为多分辨率时间图像,通过频率分析捕捉时间和频率域中的复杂模式。这一步骤不仅保留了原始数据的完整性,还为后续的模式提取提供了丰富的信息。

在时间图像分解阶段,TimeMixer++利用双轴注意力机制,将时间图像中的季节性和趋势性模式进行分离。这种分离不仅提高了模式提取的准确性,还为后续的多尺度和多分辨率混合提供了基础。

在多尺度混合阶段,TimeMixer++通过2D卷积层对不同尺度的季节性模式进行混合,实现了从细粒度到粗粒度的信息流动。而在多分辨率混合阶段,模型则根据不同周期的重要性,对趋势性模式进行自适应聚合。

为了验证TimeMixer++的性能,研究团队在8项不同的时间序列分析任务上进行了广泛的实验,包括长期预测、单变量和多变量短期预测、缺失值填补、分类、异常检测以及少样本和零样本预测。实验结果显示,TimeMixer++在所有这些任务上都取得了显著的性能提升,全面超越了现有的通用和专用模型。

在长期预测任务中,TimeMixer++在8个真实世界的数据集上进行了测试,包括ETT、Weather、Solar-Energy、Electricity和Traffic等。实验结果显示,TimeMixer++在所有这些数据集上都取得了最低的均方误差(MSE)和平均绝对误差(MAE),性能提升幅度最高可达7.3%。

在单变量和多变量短期预测任务中,TimeMixer++在M4 Competition和PEMS数据集上进行了测试。实验结果显示,TimeMixer++在所有指标上都取得了最低的值,性能提升幅度最高可达23.3%。

在缺失值填补任务中,TimeMixer++在6个数据集上进行了测试,包括ETT、Electricity和Weather等。实验结果显示,TimeMixer++在所有这些数据集上都取得了最低的MSE和MAE,性能提升幅度最高可达25.7%。

在分类和异常检测任务中,TimeMixer++在10个多变量数据集和5个异常检测数据集上进行了测试。实验结果显示,TimeMixer++在分类任务中取得了最高的准确率(75.9%),在异常检测任务中取得了最高的F1分数(87.47%)。

为了进一步验证TimeMixer++的有效性,研究团队还进行了消融实验和表示分析。消融实验结果显示,TimeMixer++的各个组件(如通道混合、时间图像分解、多尺度混合和多分辨率混合)都对模型性能的提升做出了重要贡献。而表示分析则显示,TimeMixer++能够有效地分离出时间图像中的季节性和趋势性模式,并根据不同的任务需求进行自适应的表示学习。

尽管TimeMixer++在多个方面取得了显著的性能提升,但仍存在一些局限性和未来研究方向。例如,如何进一步提高模型的可解释性和鲁棒性,以及如何将模型应用于更多的实际场景和领域等。

论文链接:https://arxiv.org/pdf/2410.16032

目录
相关文章
|
4月前
|
存储 调度 C++
16 倍性能提升,成本降低 98%! 解读 SLS 向量索引架构升级改造
大规模数据如何进行语义检索? 当前 SLS 已经支持一站式的语义检索功能,能够用于 RAG、Memory、语义聚类、多模态数据等各种场景的应用。本文分享了 SLS 在语义检索功能上,对模型推理和部署、构建流水线等流程的优化,最终带给用户更高性能和更低成本的针对大规模数据的语义索引功能。
459 44
|
7月前
|
人工智能 自然语言处理 开发工具
统一多模态 Transformer 架构在跨模态表示学习中的应用与优化
本文介绍统一多模态 Transformer(UMT)在跨模态表示学习中的应用与优化,涵盖模型架构、实现细节与实验效果,探讨其在图文检索、图像生成等任务中的卓越性能。
统一多模态 Transformer 架构在跨模态表示学习中的应用与优化
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
Transformer架构:重塑现代AI的核心引擎
Transformer架构:重塑现代AI的核心引擎
602 98
|
4月前
|
存储 SQL 消息中间件
从 ClickHouse 到 StarRocks 存算分离: 携程 UBT 架构升级实践
查询性能实现从秒级到毫秒级的跨越式提升
|
8月前
|
存储 运维 Java
官宣 | Fluss 0.7 发布公告:稳定性与架构升级
Fluss 0.7 版本正式发布!历经 3 个月开发,完成 250+ 次代码提交,聚焦稳定性、架构升级、性能优化与安全性。新增湖流一体弹性无状态服务、流式分区裁剪功能,大幅提升系统可靠性和查询效率。同时推出 Fluss Java Client 和 DataStream Connector,支持企业级安全认证与鉴权机制。未来将在 Apache 孵化器中继续迭代,探索多模态数据场景,欢迎开发者加入共建!
816 8
官宣 | Fluss 0.7 发布公告:稳定性与架构升级
|
7月前
|
人工智能 安全 Cloud Native
Nacos 3.0 架构升级,AI 时代更安全的 Registry
随着Nacos3.0的发布,定位由“更易于构建云原生应用的动态服务发现、配置管理和服务管理平台”升级至“ 一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台 ”。
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
34_GPT系列:从1到5的架构升级_深度解析
大型语言模型(LLM)的发展历程中,OpenAI的GPT系列无疑扮演着至关重要的角色。自2018年GPT-1问世以来,每一代GPT模型都在架构设计、预训练策略和性能表现上实现了质的飞跃。本专题将深入剖析GPT系列从1.17亿参数到能够处理百万级token上下文的技术演进,特别关注2025年8月8日发布的GPT-5如何引领大模型技术迈向通用人工智能(AGI)的重要一步。
|
5月前
|
数据采集 机器学习/深度学习 搜索推荐
MIT新论文:数据即上限,扩散模型的关键能力来自图像统计规律,而非复杂架构
MIT与丰田研究院研究发现,扩散模型的“局部性”并非源于网络架构的精巧设计,而是自然图像统计规律的产物。通过线性模型仅学习像素相关性,即可复现U-Net般的局部敏感模式,揭示数据本身蕴含生成“魔法”。
252 3
MIT新论文:数据即上限,扩散模型的关键能力来自图像统计规律,而非复杂架构

热门文章

最新文章