[ICLR 2024] 基于Pathways架构的自适应多尺度时间序列预测模型Pathformer

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
大数据开发治理平台 DataWorks,不限时长
简介: 阿里云计算平台大数据基础工程技术团队主导,与华东师范大学数据科学与工程学院合作的论文《Pathformer: Multi-Scale Transformers With Adaptive Pathways For Time Series Forecasting》被ICLR 2024接收,该论文提出了基于Pathways架构的自适应多尺度时间序列预测模型Pathformer,它从时间分辨率和时间距离角度进行多尺度时序建模,同时进一步提出自适应Pathways来动态调整多尺度建模过程,基于两者,Pathformer在阿里云数据集和公开数据集上取得SOTA预测效果,并展现出不错的泛化性和迁移性。

开篇

近日,由阿里云计算平台大数据基础工程技术团队主导,与华东师范大学数据科学与工程学院合作的论文《Pathformer: Multi-Scale Transformers With Adaptive Pathways For Time Series Forecasting》被ICLR 2024接收,该论文提出了基于Pathways架构的自适应多尺度时间序列预测模型Pathformer,它从时间分辨率和时间距离角度进行多尺度时序建模,同时进一步提出自适应Pathways来动态调整多尺度建模过程,基于两者,Pathformer在阿里云数据集和公开数据集上取得SOTA预测效果,并展现出不错的泛化性和迁移性。


背景

现实场景中的时间序列在不同的时间尺度展现出不同的变化,如云计算场景中的CPU,GPU,内存等资源需求呈现出日、月、季节等独特尺度的时间模式. 多尺度建模主要从不同的尺度中提取时序特征和依赖关系,建模多尺度需要考虑两个方面:时间分辨率和时间距离。时间分辨率指用于建模的每个时间片段的大小。如图1中,相同的时序别划分为小的片段(蓝色)或大的片段(橙色),提出细粒度和粗粒度的时序特征。时间距离对应于显示建模时间依赖性,决定用于时序建模时时间步之间的距离。如图1中,黑色箭头模拟了相邻时间步之间的关系,提取时序的局部细节,而彩色箭头模拟了跨长距离的时间步之间的关系,提取时序的全局关联。

image.png

图 1:左边:时间序列被划分成不同大小的Patches作为时间分辨率。右边:局部细节(黑色箭头)和全局关联性(彩色箭头)通过不同的时间距离被建模。

挑战

基于Transformer模型的多尺度建模,主要有两个挑战。

一:不完备的多尺度建模。只是针对时间分辨率不能有效地捕捉不同范围的时间依赖关系,相反,考虑时间距离虽然能提取不同范围的时间依赖,但全局和局部间隔受到数据划分的影响,单一的时间分辨率并不完备。

二:固定的多尺度建模过程。对比图1中的两个时序,上面的时序展现快速的波动,可能需要更关注细粒度和短期特征。相反,下面的时序需要关注粗粒度和长期特征。因此对所有时序采用固定的多尺度建模阻碍了每个时序的重要特征捕捉,然而为每个数据集或每个时序手动调整最佳尺度非常耗时且难以处理。


破局

我们提出了一个基于Pathways架构的自适应多尺度Transformer模型(Pathformer),如图2所示,它整合了时间分辨率和时间距离提出了一个多尺度Transfomer模块,使模型具备完备的多尺度建模能力。我们进一步提出自适应pathways,激活Transformer的多尺度间建模能力。它基于输入时序的时间动态自适应提取和聚合多尺度特征,实现了自适应多尺度建模。接下里,我们详细介绍多尺度Transformer块和自适应Pathways。

image.png

图 2:Pathformer的架构

(1)多尺度Transformer模块:在多尺度Transformer块中,我们对输入的时序特征进行不同patch大小的时序划分,不同的patch大小代表不同时序的时间分辨率。基于每个尺度的Patch划分,使用双重注意力机制来建模不同范围的时间依赖性,如图3(a)所示,通过patch内注意力(intra-patch attention)建模每个patch内部不同时间点之间的关联来捕捉时序的局部细节,通过patch间注意力(inter-patch attention) 建模不同patch之间的关系来捕获全局信息。

image.png

图 3:左边为多尺度Transformer模块的结构,主要包含Patch划分,patch内注意力,patch间注意力等。右边为多尺度路由器的结构

(2)自适应Pathways:由于不同的时序偏好不同的尺度,这取决于它们不同的时间特征和动态性。为了实现自适应多尺度建模,我们基于多尺度Transformer提出了自适应Pathways。如图2所示,它包含了两个关键部分:多尺度路由器和聚合器。多尺度路由器根据输入数据选择特定大小的patch进行划分,这激活了Transformer中特定部分,并控制多尺度特征的提取。路由器和聚合器一起协同工作,通过加权聚合将这些特征组合起来得到Transformer块的输出。

论文在阿里云云原生大数据计算服务 MaxCompute 3 个集群的真实数据集和公开数据集上进行了实验,Pathformer要显著优于其它的时序预测模型,并且Pathformer在不同集群数据上展现了一定的泛化和迁移能力。


应用

论文算法已经集成到了飞天大数据AI管控平台ABM的算法服务模块,供大数据智能运维场景(如资源推荐等)调用。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
16天前
|
机器学习/深度学习 存储 人工智能
谷歌推出TransformerFAM架构,以更低的消耗处理长序列文本
【5月更文挑战第30天】谷歌推出TransformerFAM架构,模仿人脑工作记忆,通过反馈循环处理无限长序列文本,提高长上下文任务性能,尤其在大规模模型中展现优势。尽管训练资源需求大且短序列处理提升有限,实验显示其在叙事问答、长文本摘要等任务上超越传统Transformer。论文链接:https://arxiv.org/abs/2404.09173
185 1
|
1月前
|
机器学习/深度学习
ICLR 2024:基于Pathways架构的自适应多尺度时间序列预测
【2月更文挑战第17天】ICLR 2024:基于Pathways架构的自适应多尺度时间序列预测
822 1
ICLR 2024:基于Pathways架构的自适应多尺度时间序列预测
|
机器学习/深度学习 人工智能 计算机视觉
ICLR盲审阶段就被评审赞不绝口的论文:会是Transformer架构的一大创新吗?
ICLR盲审阶段就被评审赞不绝口的论文:会是Transformer架构的一大创新吗?
372 0
|
机器学习/深度学习 人工智能 编解码
谷歌开始卷自己,AI架构Pathways加持,推出200亿生成模型(2)
谷歌开始卷自己,AI架构Pathways加持,推出200亿生成模型
374 0
|
机器学习/深度学习 图形学 网络架构
ICLR 2022 | 纯MLP的点云网络:新架构PointMLP大幅提高点云分类准确率和推理速度
ICLR 2022 | 纯MLP的点云网络:新架构PointMLP大幅提高点云分类准确率和推理速度
643 0
ICLR 2022 | 纯MLP的点云网络:新架构PointMLP大幅提高点云分类准确率和推理速度
|
人工智能 编解码 自然语言处理
7 Papers & Radios | 谷歌下一代AI架构Pathways论文放出;何恺明组只用ViT做主干进行目标检测(2)
7 Papers & Radios | 谷歌下一代AI架构Pathways论文放出;何恺明组只用ViT做主干进行目标检测
160 0
|
机器学习/深度学习 人工智能 编解码
7 Papers & Radios | 谷歌下一代AI架构Pathways论文放出;何恺明组只用ViT做主干进行目标检测(1)
7 Papers & Radios | 谷歌下一代AI架构Pathways论文放出;何恺明组只用ViT做主干进行目标检测
221 0
|
机器学习/深度学习 人工智能 并行计算
谷歌下一代AI架构、Jeff Dean宣传大半年的Pathways终于有论文了
谷歌下一代AI架构、Jeff Dean宣传大半年的Pathways终于有论文了
368 0
|
机器学习/深度学习 人工智能 算法
搜索CIFAR10只需1个半小时:华为诺亚&上交大ICLR 2020提出更快、更稳定、性能更好的可微分架构搜索
人工智能顶会 ICLR 2020 将于明年 4 月 26 日于埃塞俄比亚首都亚的斯亚贝巴举行,不久之前,大会官方公布论文接收结果:在最终提交的 2594 篇论文中,有 687 篇被接收,接收率为 26.5%。华为诺亚方舟及其合作实验室有多篇论文被 ICLR 2020 接收,本文介绍了其中一篇 Spotlight 文章。
405 0
搜索CIFAR10只需1个半小时:华为诺亚&上交大ICLR 2020提出更快、更稳定、性能更好的可微分架构搜索
|
3天前
|
监控 Cloud Native 开发者
云原生技术浪潮下的微服务架构实践
云原生技术正引领着现代软件开发的潮流,其中微服务架构作为其核心理念之一,为复杂应用提供了灵活、可扩展的解决方案。本文将探讨在云原生环境下实施微服务架构的策略和挑战,并结合实际案例分析微服务设计的最佳实践,旨在为开发者提供一套可行的微服务部署与管理指南。