Moment:又一个开源的时间序列基础模型

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: MOMENT团队推出Time-series Pile,一个大型公共时间序列数据集,用于预训练首个开源时间序列模型家族。模型基于Transformer,采用遮蔽预训练技术,适用于预测、分类、异常检测和输入任务。研究发现,随机初始化比使用语言模型权重更有效,且直接预训练的模型表现出色。MOMENT改进了Transformer架构,调整了Layer norm并引入关系位置嵌入。模型在长期预测和异常检测中表现优异,但对于数值预测的效果尚不明朗。论文贡献包括开源方法、数据集创建和资源有限情况下的性能评估框架。

时间序列分析跨越了一系列广泛的应用,从天气预报到通过心电图进行健康监测。

但是由于缺乏大型且整合的公开时间序列数据,所以在时间序列数据上预训练大型模型具有挑战性。为了应对这些挑战,MOMENT团队整理了一个庞大而多样的公共时间序列集合,作者将其称为Time-series Pile。代码地址我们会在文章的最后贴出来。

根据作者的介绍,MOMENT则是第一个开源,大型预训练时间序列模型家族。可以服务于各种时间序列分析任务的基础角色:预测,分类,异常检测和输入。为什么要在标题中说又一个呢,因为2024年刚过去3个月,我们已经看到好几个了。

模型为高容量transformer 模型,通过屏蔽时间序列预测任务对不同数据集进行预训练。以下是MOMENT在各种任务下的表现

模型的背景

Transformers 在各个领域中发展迅速,但在时间序列任务中自注意力机制却带来了挑战,特别是当复杂度随输入大小而变化时。MOMENT利用遮蔽预训练,这是一种自我监督的学习方法,其中模型学习重建其输入的遮蔽部分。这种技术特别适合于预测和输入任务,可以有效地预测缺失或未来的数据点。

MOMENT探讨了如何通过以下方式使大型语言模型(llm)适应时间序列分析:

跨模态建模:时间序列Transformers 可以跨各种模态对序列进行建模。

随机初始化的好处:从随机权重开始比使用语言模型权重更有效。

优越的时间序列预训练:直接预训练的模型在任务和数据集上优于基于llm的模型。

MOMENT架构

将时间序列分解为不相交的固定长度的子序列,称为patches,每个patches被映射到一个d维补丁嵌入中。在预训练过程中,通过使用一种特殊的掩码嵌入[mask]来替换其patches嵌入,从而均匀随机地对patches进行掩码。预训练的目标是学习可以使用轻量级重建头重建输入时间序列的嵌入。

这个方法和ViT是不是有点类似,看来对于所有的数据对于Transformer来说,都是patches,只不过是怎么分这个patches的问题。果然是 Patches Are All You Need

虽然这么说,但这个模型还是改进了一些Transformer架构,比如:

调整Layer norm的位置,去除附加偏差,并增加了关系位置嵌入。

MOMENT性能

预测可以接近最先进的长期预测,在异常检测的多个数据集的上表现优异。对于时间序列的插值填充,也可以实现最低的重建误差(这应该是肯定的,因为mask就是来干这个的)

总结

论文的研究方法和设计在几个关键方面具有创新性。其中包括开发一套预训练时间序列模型的开源方法,创建“时间序列堆”以解决数据稀缺问题,多数据集预训练方法,以及在资源有限的情况下评估性能的基准框架。这些方法允许在各种时间序列分析任务(如预测、分类、异常检测和输入)之间有效地利用最小数据和特定于任务的微调。论文强调对时间序列数据进行大规模、多数据集的预训练,对隐含的时间序列特征(如趋势和频率)进行编码,并展示了这种方法的好处。

最后我个人感觉这种方法对于异常检测、插值填充和分类方面应该是可以超过传统的方法(因为这是mask的强项),但是真正对于数值的预测可能还不好说。

有兴趣的请自行阅读原文吧:

https://avoid.overfit.cn/post/14f11a68473d4612ab1779d845141609

作者:samuel chazy

目录
相关文章
|
1月前
|
机器学习/深度学习 自然语言处理 C++
TSMamba:基于Mamba架构的高效时间序列预测基础模型
TSMamba通过其创新的架构设计和训练策略,成功解决了传统时间序列预测模型面临的多个关键问题。
137 4
TSMamba:基于Mamba架构的高效时间序列预测基础模型
|
6月前
|
机器学习/深度学习 存储 编解码
Tiny Time Mixers (TTM)轻量级时间序列基础模型:无需注意力机制,并且在零样本预测方面表现出色
IBM研究人员提出Tiny Time Mixers (TTM),这是一个轻量级、基于mlp的TS模型,参数量小于1M,在M4数据集上表现优于大型SOTA模型,且具备优秀的零样本预测能力。TTM无注意力机制,利用TSMixer进行多级建模,自适应补丁和频率前缀调整等创新特性提升性能。预训练和微调阶段各有独特设计,预训练仅用单变量序列,微调时学习多变量依赖。TTM在某些任务中证明了小模型的优越性,且模型已开源。
282 1
|
7月前
|
机器学习/深度学习 自然语言处理 物联网
Chronos: 将时间序列作为一种语言进行学习
Chronos框架预训练时间序列模型,将序列值转为Transformer模型的tokens。通过缩放、量化处理,模型在合成及公共数据集上训练,参数量20M至710M不等。优于传统和深度学习模型,展示出色零样本预测性能。使用分类交叉熵损失,支持多模态输出分布学习。数据增强策略包括TSMix和KernelSynth。实验显示大型Chronos模型在概率和点预测上超越多种基线,且微调小型模型表现优异。虽然推理速度较慢,但其通用性简化了预测流程。论文探讨了优化潜力和未来研究方向。
273 3
|
3月前
|
机器学习/深度学习 测试技术 数据处理
KAN专家混合模型在高性能时间序列预测中的应用:RMoK模型架构探析与Python代码实验
Kolmogorov-Arnold网络(KAN)作为一种多层感知器(MLP)的替代方案,为深度学习领域带来新可能。尽管初期测试显示KAN在时间序列预测中的表现不佳,近期提出的可逆KAN混合模型(RMoK)显著提升了其性能。RMoK结合了Wav-KAN、JacobiKAN和TaylorKAN等多种专家层,通过门控网络动态选择最适合的专家层,从而灵活应对各种时间序列模式。实验结果显示,RMoK在多个数据集上表现出色,尤其是在长期预测任务中。未来研究将进一步探索RMoK在不同领域的应用潜力及其与其他先进技术的结合。
111 4
|
4月前
|
机器学习/深度学习 数据采集 监控
怎么用机器学习做时间序列
8月更文挑战第20天
81 9
|
7月前
R语言混合时间模型预测对时间序列进行点估计
R语言混合时间模型预测对时间序列进行点估计
|
7月前
|
数据可视化 前端开发 计算机视觉
R语言时变向量自回归(TV-VAR)模型分析时间序列和可视化
R语言时变向量自回归(TV-VAR)模型分析时间序列和可视化
|
7月前
|
机器学习/深度学习 算法 Python
LightGBM高级教程:时间序列建模
LightGBM高级教程:时间序列建模【2月更文挑战第7天】
412 0
|
7月前
|
机器学习/深度学习 算法
Coggle 30 Days of ML(23年7月)任务五:XGBoost训练与预测
Coggle 30 Days of ML(23年7月)任务五:XGBoost训练与预测
Coggle 30 Days of ML(23年7月)任务五:XGBoost训练与预测
|
7月前
|
机器学习/深度学习 自然语言处理 PyTorch
Coggle 30 Days of ML(23年7月)任务九:学会Bert基础,transformer库基础使用
Coggle 30 Days of ML(23年7月)任务九:学会Bert基础,transformer库基础使用