[ICLR 2024] 基于Pathways架构的自适应多尺度时间序列预测模型Pathformer

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: 阿里云计算平台大数据基础工程技术团队主导,与华东师范大学数据科学与工程学院合作的论文《Pathformer: Multi-Scale Transformers With Adaptive Pathways For Time Series Forecasting》被ICLR 2024接收,该论文提出了基于Pathways架构的自适应多尺度时间序列预测模型Pathformer,它从时间分辨率和时间距离角度进行多尺度时序建模,同时进一步提出自适应Pathways来动态调整多尺度建模过程,基于两者,Pathformer在阿里云数据集和公开数据集上取得SOTA预测效果,并展现出不错的泛化性和迁移性。

开篇

近日,由阿里云计算平台大数据基础工程技术团队主导,与华东师范大学数据科学与工程学院合作的论文《Pathformer: Multi-Scale Transformers With Adaptive Pathways For Time Series Forecasting》被ICLR 2024接收,该论文提出了基于Pathways架构的自适应多尺度时间序列预测模型Pathformer,它从时间分辨率和时间距离角度进行多尺度时序建模,同时进一步提出自适应Pathways来动态调整多尺度建模过程,基于两者,Pathformer在阿里云数据集和公开数据集上取得SOTA预测效果,并展现出不错的泛化性和迁移性。


背景

现实场景中的时间序列在不同的时间尺度展现出不同的变化,如云计算场景中的CPU,GPU,内存等资源需求呈现出日、月、季节等独特尺度的时间模式. 多尺度建模主要从不同的尺度中提取时序特征和依赖关系,建模多尺度需要考虑两个方面:时间分辨率和时间距离。时间分辨率指用于建模的每个时间片段的大小。如图1中,相同的时序别划分为小的片段(蓝色)或大的片段(橙色),提出细粒度和粗粒度的时序特征。时间距离对应于显示建模时间依赖性,决定用于时序建模时时间步之间的距离。如图1中,黑色箭头模拟了相邻时间步之间的关系,提取时序的局部细节,而彩色箭头模拟了跨长距离的时间步之间的关系,提取时序的全局关联。

image.png

图 1:左边:时间序列被划分成不同大小的Patches作为时间分辨率。右边:局部细节(黑色箭头)和全局关联性(彩色箭头)通过不同的时间距离被建模。

挑战

基于Transformer模型的多尺度建模,主要有两个挑战。

一:不完备的多尺度建模。只是针对时间分辨率不能有效地捕捉不同范围的时间依赖关系,相反,考虑时间距离虽然能提取不同范围的时间依赖,但全局和局部间隔受到数据划分的影响,单一的时间分辨率并不完备。

二:固定的多尺度建模过程。对比图1中的两个时序,上面的时序展现快速的波动,可能需要更关注细粒度和短期特征。相反,下面的时序需要关注粗粒度和长期特征。因此对所有时序采用固定的多尺度建模阻碍了每个时序的重要特征捕捉,然而为每个数据集或每个时序手动调整最佳尺度非常耗时且难以处理。


破局

我们提出了一个基于Pathways架构的自适应多尺度Transformer模型(Pathformer),如图2所示,它整合了时间分辨率和时间距离提出了一个多尺度Transfomer模块,使模型具备完备的多尺度建模能力。我们进一步提出自适应pathways,激活Transformer的多尺度间建模能力。它基于输入时序的时间动态自适应提取和聚合多尺度特征,实现了自适应多尺度建模。接下里,我们详细介绍多尺度Transformer块和自适应Pathways。

image.png

图 2:Pathformer的架构

(1)多尺度Transformer模块:在多尺度Transformer块中,我们对输入的时序特征进行不同patch大小的时序划分,不同的patch大小代表不同时序的时间分辨率。基于每个尺度的Patch划分,使用双重注意力机制来建模不同范围的时间依赖性,如图3(a)所示,通过patch内注意力(intra-patch attention)建模每个patch内部不同时间点之间的关联来捕捉时序的局部细节,通过patch间注意力(inter-patch attention) 建模不同patch之间的关系来捕获全局信息。

image.png

图 3:左边为多尺度Transformer模块的结构,主要包含Patch划分,patch内注意力,patch间注意力等。右边为多尺度路由器的结构

(2)自适应Pathways:由于不同的时序偏好不同的尺度,这取决于它们不同的时间特征和动态性。为了实现自适应多尺度建模,我们基于多尺度Transformer提出了自适应Pathways。如图2所示,它包含了两个关键部分:多尺度路由器和聚合器。多尺度路由器根据输入数据选择特定大小的patch进行划分,这激活了Transformer中特定部分,并控制多尺度特征的提取。路由器和聚合器一起协同工作,通过加权聚合将这些特征组合起来得到Transformer块的输出。

论文在阿里云云原生大数据计算服务 MaxCompute 3 个集群的真实数据集和公开数据集上进行了实验,Pathformer要显著优于其它的时序预测模型,并且Pathformer在不同集群数据上展现了一定的泛化和迁移能力。


应用

论文算法已经集成到了飞天大数据AI管控平台ABM的算法服务模块,供大数据智能运维场景(如资源推荐等)调用。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
存储 分布式计算 API
大数据-107 Flink 基本概述 适用场景 框架特点 核心组成 生态发展 处理模型 组件架构
大数据-107 Flink 基本概述 适用场景 框架特点 核心组成 生态发展 处理模型 组件架构
82 0
|
11天前
|
机器学习/深度学习 自然语言处理 C++
TSMamba:基于Mamba架构的高效时间序列预测基础模型
TSMamba通过其创新的架构设计和训练策略,成功解决了传统时间序列预测模型面临的多个关键问题。
34 4
TSMamba:基于Mamba架构的高效时间序列预测基础模型
|
1月前
|
机器学习/深度学习 网络架构 计算机视觉
目标检测笔记(一):不同模型的网络架构介绍和代码
这篇文章介绍了ShuffleNetV2网络架构及其代码实现,包括模型结构、代码细节和不同版本的模型。ShuffleNetV2是一个高效的卷积神经网络,适用于深度学习中的目标检测任务。
70 1
目标检测笔记(一):不同模型的网络架构介绍和代码
|
2月前
|
机器学习/深度学习
ACM MM24:复旦提出首个基于扩散模型的视频非限制性对抗攻击框架,主流CNN和ViT架构都防不住它
【9月更文挑战第23天】复旦大学研究团队提出了ReToMe-VA,一种基于扩散模型的视频非限制性对抗攻击框架,通过时间步长对抗性潜在优化(TALO)与递归令牌合并(ReToMe)策略,实现了高转移性且难以察觉的对抗性视频生成。TALO优化去噪步骤扰动,提升空间难以察觉性及计算效率;ReToMe则确保时间一致性,增强帧间交互。实验表明,ReToMe-VA在攻击转移性上超越现有方法,但面临计算成本高、实时应用受限及隐私安全等挑战。[论文链接](http://arxiv.org/abs/2408.05479)
72 3
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
【AI大模型】BERT模型:揭秘LLM主要类别架构(上)
【AI大模型】BERT模型:揭秘LLM主要类别架构(上)
|
2月前
|
机器学习/深度学习 测试技术 数据处理
KAN专家混合模型在高性能时间序列预测中的应用:RMoK模型架构探析与Python代码实验
Kolmogorov-Arnold网络(KAN)作为一种多层感知器(MLP)的替代方案,为深度学习领域带来新可能。尽管初期测试显示KAN在时间序列预测中的表现不佳,近期提出的可逆KAN混合模型(RMoK)显著提升了其性能。RMoK结合了Wav-KAN、JacobiKAN和TaylorKAN等多种专家层,通过门控网络动态选择最适合的专家层,从而灵活应对各种时间序列模式。实验结果显示,RMoK在多个数据集上表现出色,尤其是在长期预测任务中。未来研究将进一步探索RMoK在不同领域的应用潜力及其与其他先进技术的结合。
95 4
|
2月前
|
分布式计算 负载均衡 监控
p2p网络架构模型
P2P(Peer-to-Peer)模式是一种网络架构模型,在这种模型中,每个节点(peer)既是服务的提供者也是服务的消费者。这意味着每个参与的节点都可以直接与其他节点通信,并且可以相互提供资源和服务,例如文件共享、流媒体传输等。
81 6
|
2月前
|
机器学习/深度学习 数据采集
详解Diffusion扩散模型:理论、架构与实现
【9月更文挑战第23天】扩散模型(Diffusion Models)是一类基于随机过程的深度学习模型,通过逐步加噪和去噪实现图像生成,在此领域表现优异。模型分正向扩散和反向生成两阶段:前者从真实数据加入噪声至完全噪音,后者则学习从噪声中恢复数据,经由反向过程逐步还原生成清晰图像。其主要架构采用U-net神经网络,实现过程中需数据预处理及高斯噪声添加等步骤,最终通过模型逆向扩散生成新数据,具有广泛应用前景。
|
3月前
|
网络协议 安全 网络性能优化
OSI 模型详解:网络通信的七层架构
【8月更文挑战第31天】
676 0
|
7天前
|
缓存 负载均衡 JavaScript
探索微服务架构下的API网关模式
【10月更文挑战第37天】在微服务架构的海洋中,API网关犹如一座灯塔,指引着服务的航向。它不仅是客户端请求的集散地,更是后端微服务的守门人。本文将深入探讨API网关的设计哲学、核心功能以及它在微服务生态中扮演的角色,同时通过实际代码示例,揭示如何实现一个高效、可靠的API网关。

热门文章

最新文章