超越Transformer,全面升级!MIT等华人团队发布通用时序TimeMixer++架构,8项任务全面领先

简介: 一支由麻省理工学院、香港科技大学(广州)、浙江大学和格里菲斯大学的华人研究团队,开发了名为TimeMixer++的时间序列分析模型。该模型在8项任务中超越现有技术,通过多尺度时间图像转换、双轴注意力机制和多尺度多分辨率混合等技术,实现了性能的显著提升。论文已发布于arXiv。

在人工智能领域,时间序列分析一直是个关键课题,其应用遍及天气预报、医疗诊断、航天监控和可穿戴设备等众多领域。近日,来自麻省理工学院(MIT)、香港科技大学(广州)、浙江大学和格里菲斯大学的一支华人研究团队,发布了一种名为TimeMixer++的新型通用时间序列模式机器,在8项不同的时间序列分析任务中全面超越了现有技术,实现了性能的显著提升。

在时间序列分析中,传统模型如ARIMA和STL在处理周期性和趋势性模式时表现出色,但在面对非线性动态时则显得力不从心。而基于深度学习的方法,如RNN和TCN,虽然能够捕捉到序列依赖性,但在处理长程依赖时仍存在局限。此外,将时间序列重塑为2D张量的方法,虽然在频率域信息的利用上有所突破,但在全面捕捉长程模式上仍有不足。

TimeMixer++的创新之处在于其独特的设计理念和多层次的模式提取能力。该模型通过以下几个关键技术实现了性能的全面提升:

TimeMixer++首先将多尺度时间序列转化为多分辨率时间图像,通过频率分析捕捉时间和频率域中的复杂模式。这一步骤不仅保留了原始数据的完整性,还为后续的模式提取提供了丰富的信息。

在时间图像分解阶段,TimeMixer++利用双轴注意力机制,将时间图像中的季节性和趋势性模式进行分离。这种分离不仅提高了模式提取的准确性,还为后续的多尺度和多分辨率混合提供了基础。

在多尺度混合阶段,TimeMixer++通过2D卷积层对不同尺度的季节性模式进行混合,实现了从细粒度到粗粒度的信息流动。而在多分辨率混合阶段,模型则根据不同周期的重要性,对趋势性模式进行自适应聚合。

为了验证TimeMixer++的性能,研究团队在8项不同的时间序列分析任务上进行了广泛的实验,包括长期预测、单变量和多变量短期预测、缺失值填补、分类、异常检测以及少样本和零样本预测。实验结果显示,TimeMixer++在所有这些任务上都取得了显著的性能提升,全面超越了现有的通用和专用模型。

在长期预测任务中,TimeMixer++在8个真实世界的数据集上进行了测试,包括ETT、Weather、Solar-Energy、Electricity和Traffic等。实验结果显示,TimeMixer++在所有这些数据集上都取得了最低的均方误差(MSE)和平均绝对误差(MAE),性能提升幅度最高可达7.3%。

在单变量和多变量短期预测任务中,TimeMixer++在M4 Competition和PEMS数据集上进行了测试。实验结果显示,TimeMixer++在所有指标上都取得了最低的值,性能提升幅度最高可达23.3%。

在缺失值填补任务中,TimeMixer++在6个数据集上进行了测试,包括ETT、Electricity和Weather等。实验结果显示,TimeMixer++在所有这些数据集上都取得了最低的MSE和MAE,性能提升幅度最高可达25.7%。

在分类和异常检测任务中,TimeMixer++在10个多变量数据集和5个异常检测数据集上进行了测试。实验结果显示,TimeMixer++在分类任务中取得了最高的准确率(75.9%),在异常检测任务中取得了最高的F1分数(87.47%)。

为了进一步验证TimeMixer++的有效性,研究团队还进行了消融实验和表示分析。消融实验结果显示,TimeMixer++的各个组件(如通道混合、时间图像分解、多尺度混合和多分辨率混合)都对模型性能的提升做出了重要贡献。而表示分析则显示,TimeMixer++能够有效地分离出时间图像中的季节性和趋势性模式,并根据不同的任务需求进行自适应的表示学习。

尽管TimeMixer++在多个方面取得了显著的性能提升,但仍存在一些局限性和未来研究方向。例如,如何进一步提高模型的可解释性和鲁棒性,以及如何将模型应用于更多的实际场景和领域等。

论文链接:https://arxiv.org/pdf/2410.16032

目录
相关文章
|
14天前
|
人工智能 自动驾驶 大数据
预告 | 阿里云邀您参加2024中国生成式AI大会上海站,马上报名
大会以“智能跃进 创造无限”为主题,设置主会场峰会、分会场研讨会及展览区,聚焦大模型、AI Infra等热点议题。阿里云智算集群产品解决方案负责人丛培岩将出席并发表《高性能智算集群设计思考与实践》主题演讲。观众报名现已开放。
|
6天前
|
自然语言处理 数据可视化 API
Qwen系列模型+GraphRAG/LightRAG/Kotaemon从0开始构建中医方剂大模型知识图谱问答
本文详细记录了作者在短时间内尝试构建中医药知识图谱的过程,涵盖了GraphRAG、LightRAG和Kotaemon三种图RAG架构的对比与应用。通过实际操作,作者不仅展示了如何利用这些工具构建知识图谱,还指出了每种工具的优势和局限性。尽管初步构建的知识图谱在数据处理、实体识别和关系抽取等方面存在不足,但为后续的优化和改进提供了宝贵的经验和方向。此外,文章强调了知识图谱构建不仅仅是技术问题,还需要深入整合领域知识和满足用户需求,体现了跨学科合作的重要性。
|
1月前
|
存储 人工智能 弹性计算
阿里云弹性计算_加速计算专场精华概览 | 2024云栖大会回顾
2024年9月19-21日,2024云栖大会在杭州云栖小镇举行,阿里云智能集团资深技术专家、异构计算产品技术负责人王超等多位产品、技术专家,共同带来了题为《AI Infra的前沿技术与应用实践》的专场session。本次专场重点介绍了阿里云AI Infra 产品架构与技术能力,及用户如何使用阿里云灵骏产品进行AI大模型开发、训练和应用。围绕当下大模型训练和推理的技术难点,专家们分享了如何在阿里云上实现稳定、高效、经济的大模型训练,并通过多个客户案例展示了云上大模型训练的显著优势。
|
1月前
|
存储 人工智能 调度
阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求
在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。
|
2天前
|
人工智能 容器
三句话开发一个刮刮乐小游戏!暖ta一整个冬天!
本文介绍了如何利用千问开发一款情侣刮刮乐小游戏,通过三步简单指令实现从单个功能到整体框架,再到多端优化的过程,旨在为生活增添乐趣,促进情感交流。在线体验地址已提供,鼓励读者动手尝试,探索编程与AI结合的无限可能。
|
6天前
|
Cloud Native Apache 流计算
PPT合集|Flink Forward Asia 2024 上海站
Apache Flink 年度技术盛会聚焦“回顾过去,展望未来”,涵盖流式湖仓、流批一体、Data+AI 等八大核心议题,近百家厂商参与,深入探讨前沿技术发展。小松鼠为大家整理了 FFA 2024 演讲 PPT ,可在线阅读和下载。
3123 10
PPT合集|Flink Forward Asia 2024 上海站
|
2天前
|
人工智能 自然语言处理 前端开发
从0开始打造一款APP:前端+搭建本机服务,定制暖冬卫衣先到先得
通义灵码携手科技博主@玺哥超carry 打造全网第一个完整的、面向普通人的自然语言编程教程。完全使用 AI,再配合简单易懂的方法,只要你会打字,就能真正做出一个完整的应用。
922 12
|
19天前
|
人工智能 自然语言处理 前端开发
100个降噪蓝牙耳机免费领,用通义灵码从 0 开始打造一个完整APP
打开手机,录制下你完成的代码效果,发布到你的社交媒体,前 100 个@玺哥超Carry、@通义灵码的粉丝,可以免费获得一个降噪蓝牙耳机。
5871 16
|
1月前
|
缓存 监控 Linux
Python 实时获取Linux服务器信息
Python 实时获取Linux服务器信息
|
12天前
|
机器学习/深度学习 人工智能 安全
通义千问开源的QwQ模型,一个会思考的AI,百炼邀您第一时间体验
Qwen团队推出新成员QwQ-32B-Preview,专注于增强AI推理能力。通过深入探索和试验,该模型在数学和编程领域展现了卓越的理解力,但仍在学习和完善中。目前,QwQ-32B-Preview已上线阿里云百炼平台,提供免费体验。