MOIRAI-MOE: 基于混合专家系统的大规模时间序列预测模型

简介: MOIRAI 是 Salesforce 开发的早期时间序列基础模型,凭借出色的基准测试性能和开源的大规模预训练数据集 LOTSA 获得广泛关注。最新升级版本 MOIRAI-MOE 引入混合专家模型(Mixture of Experts, MOE),在模型性能上实现显著提升。本文深入分析 MOIRAI-MOE 的技术架构与实现机制,对比其与原版 MOIRAI 的差异,探讨 MOE 在提升预测准确率和处理频率变化问题上的作用,并展示其在分布内和零样本预测中的优异表现。实验结果显示,MOIRAI-MOE 以更少的激活参数量实现了更高的性能提升,成为时间序列预测领域的重要里程碑。

作为早期时间序列基础模型之一,Salesforce 开发的 MOIRAI 凭借其出色的基准测试性能以及开源的大规模预训练数据集 LOTSA 在业界获得了广泛关注。

本文在此前对 MOIRAI 架构原理的深入分析基础上,重点探讨其最新升级版本 MOIRAI-MOE。该版本通过引入混合专家模型(Mixture of Experts, MOE) 机制,在模型性能方面实现了显著提升。这一改进也与大语言模型模型采用的多专家机制形成了技术共鸣。

本文将系统性地分析以下核心内容:

  • MOIRAI-MOE 的技术架构与实现机制
  • MOIRAI 与 MOIRAI-MOE 的架构差异对比
  • 混合专家模型在提升预测准确率方面的作用机理
  • MOE 架构对解决时间序列建模中频率变化问题的技术贡献

MOIRAI 与 MOIRAI-MOE 的技术对比

MOIRAI-MOE 采用纯解码器架构,通过混合专家模型实现了频率无关的通用预测能力,同时显著降低了模型参数规模。

图 1 展示了 MOIRAI 原始版本与 MOIRAI-MOE 的架构对比:

下面详细分析这些技术差异:

纯解码器架构的优化

MOIRAI-MOE 摒弃了 MOIRAI 最初采用的掩码编码器架构,转而采用纯解码器配置。

纯解码器的 Transformer 架构具有以下技术优势:

  • 支持高效的并行训练
  • 能够在单次更新中处理不同上下文长度的多个训练样本

虽然在推理方面,编码器架构通过单次前向传播即可完成多步预测,而纯解码器 Transformer 和 RNN 需要采用自回归方式逐步生成预测结果,但对 MOIRAI-MOE 而言,这一点并不构成性能瓶颈。这得益于其采用的稀疏混合专家模型(Sparse MOE)架构,该架构通过激活较少的参数,在推理效率上优于密集参数的 MOIRAI 模型。

在一项针对 MOIRAI、MOIRAI-MOE 和 Chronos 的对照实验中,在相同上下文长度条件下,MOIRAI-MOE 展现出更优的推理速度:

图 2:*不同模型变体的性能对比。括号内数值表示参数规模,对 MOIRAI-MOE 而言分别代表实际激活参数量和总参数量。*

实验数据显示,尽管 MOIRAI-MOE-Base 的总参数量是 MOIRAI-Large 的 3 倍,但由于 MOE 机制的作用,其实际仅激活 86M 参数,使得运行时间明显优于 MOIRAI-Large (370s vs. 537s)。

从技术实现角度看,MOIRAI-MOE 使用稀疏混合专家层替代了传统的全连接层。该层包含一个门控函数,用于计算路由分数并将输入分配给得分最高的 K 个专家。

MOIRAI-MOE 总共部署了 32 个专家,每个输入会激活其中得分最高的 2 个(TopK=2):

方程 1: 传统 MOE 模型中常用的基础门控函数

MOIRAI-MOE 对门控机制进行了创新性改进,用更精细的机制替代了简单的线性投影 W:

  • 研究团队首先对预训练的 MOIRAI 模型的自注意力权重进行 K-Means 聚类,其中聚类数 M 等于专家总数
  • 获得 M 个聚类中心点,每个专家对应一个聚类中心
  • 在训练过程中,MOIRAI-MOE 不是从零开始学习门控函数(即方程 1 中的线性投影 W),而是基于输入与专家对应聚类中心的欧氏距离进行专家分配

由此,门控方程优化为:

方程 2: MOIRAI-MOE 采用的基于 token 聚类的改进门控函数

其中 x 表示 MOE 层的输入向量,C 表示聚类中心集合。

基准测试结果表明,这种基于 token 聚类的策略具有显著优势:

图 3:*两种关键设计的实验对比: (左)编码器与解码器架构在 10 万训练步后的 MAE 对比;(右)token 聚类策略的性能优势。*

研究发现,聚类中心能够有效捕获结构化数据模式,从而提升路由准确性和整体性能。此外图 6** 也验证了纯解码器架构相比 MOIRAI 原始编码器架构的优势。

需要注意的是,编码器架构更适合整合未来已知变量,这是原始 MOIRAI 的一个重要特性。目前尚需通过代码验证纯解码器架构是否能够保持这一功能。不过 MOIRAI-MOE 仍然保留了使用历史协变量的能力。

MOE 层对多 Patch 层的替代优化

原始 MOIRAI 模型采用多 Patch 层设计,通过学习不同粒度的特定 patch 尺寸来处理多频率问题。

对任何时间序列基础模型而言,多频率处理都是一个关键挑战。MOIRAI 通过多 Patch 层解决这一问题,该层根据用户指定的数据集频率将输入映射到不同的 patch 长度。

图 4:*MOIRAI 的架构示意图,采用 64 大小的 patch 处理小时或分钟级数据。*

之前的分析也指出,多 Patch 层在某种程度上模拟了混合专家系统的行为。现在 MOIRAI-MOE 直接使用单一投影层代替多 Patch 层,并利用 MOE 机制处理不同频率的数据。

为什么原始的多 Patch 层方案存在局限性?混合专家模型为什么能更好地处理频率问题?

这是因为时间序列数据通常包含多个子频率。此外,不同频率的序列可能共享相似模式,而相同频率的序列却可能表现迥异。因此,简单地通过频率标记来区分数据并不总是准确的:

图 5:*不同频率的时间序列可能表现出相似模式,而同频率序列可能有显著差异。*

混合专家模型通过以下方式优化了 MOIRAI:

  1. 无需用户手动指定频率参数
  2. 采用数据驱动的路由机制,将时间序列自动分配给最适合的专家模型

通过引入混合专家模型,MOIRAI-MOE 摆脱了人工设定的频率启发式方法,实现了自动化的专家分配机制。

事实上,MOIRAI-MOE 专门为时间序列预测设计了增强型的 MOE 机制,这将在下一节详细讨论。

3. 注意力机制的改进

基于纯解码器架构,MOIRAI-MOE 将任意变量注意力机制替换为类 GPT 的因果自注意力机制。

目前尚无法确认新模型是否保留了类似 ROPESwiGLU 激活函数或 RMSNorm 等 LLM 特性,这些细节需要等待代码发布后验证。

但模型的输出形式保持不变:MOIRAI-MOE 不直接预测时间点值,而是预测混合分布的参数,再通过采样生成预测结果。训练目标仍然是最小化混合分布的负对数似然。

因此,MOIRAI-MOE 本质上是一个概率模型。可以通过保形分位数回归等技术增强其不确定性量化能力,实现预测区间的生成(因为模型可以输出分位数预测)。

MOIRAI-MOE 架构详解

研究提出了两种 MOIRAI-MOE 变体,如图 6所示:

图 6:*MOIRAI 与 MOIRAI-MOE 的架构细节对比*

MOE 机制为 MOIRAI 带来了显著提升。那么,各个专家究竟学习到了什么? 它们如何协同处理不同频率的数据?

研究团队分析了不同层级专家激活的分布情况,特别关注了不同频率数据的处理模式。图 7 展示了分析结果:

图 7:*第 2、4、6(最后)层中专家分配的频率分布可视化。*

对分析结果的深入解读:

x 轴代表专家编号(1-32),y 轴表示路由到各专家的数据比例。在浅层网络中,专家分配呈现多样化特征,不同频率的数据被分配给不同的专家处理。

随着网络层次加深,模型的关注点逐渐从频率特征转向时间序列的普适特征(如趋势性和季节性模式)。

这与语言模型中的 MOE 表现出明显差异:语言模型在浅层倾向于激活少量专家,而深层则呈现更大的多样性。这种差异可能源于时间序列数据本身的特性 - 相比于来自固定词表的 NLP tokens,时间序列数据通常包含更多噪声且具有动态特性。

值得注意的是,部分专家的激活频率较低,这提示在未来的优化中可考虑对这些专家进行剪枝处理。

基于以上分析可以得出结论:

在时间序列基础模型中,混合专家系统实现了一个分层的降噪过程 - 浅层专家主要处理频率相关特征,深层专家则关注更普适的模式(如长期趋势和季节性)。

MOIRAI-MOE 性能评估

MOIRAI-MOE 在与原始 MOIRAI 相同的 LOTSA 数据集上进行了预训练,该数据集包含来自 9 个领域的 270 亿个观测值。

研究采用了实验确定的

patch_size = 16

。Small 和 Base 版本分别训练了 5 万轮和 25 万轮。考虑到 MOIRAI-MOE-Base 已达到 MOIRAI-Large 的性能水平,因此未训练 Large 版本。

评估分为两个场景:

  • 分布外预测(零样本): 模型对 LOTSA 中未见过的数据集进行零样本预测,与在这些数据集上专门训练的 SOTA 模型进行对比。
  • 分布内预测: 模型在 LOTSA 训练子集上微调,在测试子集上评估。

评估过程采用严格的标准:

  • 对照组模型均经过充分调优,采用滚动预测方案。测试集包含最后 h×r 个时间点(h 为预测范围,r 为滚动窗口数)。
  • 验证集取自紧邻测试集的预测范围,展示具有最低 CRPS 的最优模型。
  • 分布内数据集包含不同频率的数据,确保测试的全面性。

零样本和分布内基准测试结果如图 8图 9所示:

图 8:*分布内预测基准测试结果。LLTIME(粉色)基于 GPT-3.5 和 LLaMA-2。基础模型以紫色标示。*

图 9:*MOIRAI-MOE 与其他基础模型及深度学习模型在分布外零样本预测的对比。 最优结果以红色突出显示,次优结果以蓝色标示。*平均列经过 Seasonal Naive 归一化。

零样本测试中,MOIRAI-MOE-Base 取得最优综合成绩,超越其他基础模型和全参数模型。结果表明基础模型普遍优于传统统计、机器学习和深度学习模型。

分布内测试中,MOIRAI-MOE-Base 同样位居榜首,TimesFM (CRPS) 和 Chronos (MASE) 分列二三位。

在两项测试中,MOIRAI-MOE 均超越原始 MOIRAI,以 1/65 的激活参数量实现了 17% 的性能提升。部分基础模型的数据集标注星号,表示这些数据集包含在其预训练语料中。

值得一提的是,本次基准测试未包含基于 MLP 的强大基础预测模型 Tiny Time Mixers。但总体而言,实验结果令人振奋。尽管许多基础模型倾向于回避与全参数模型的直接对比,MOIRAI-MOE 展现出超越它们的实力。

总结

MOIRAI-MOE 标志着基础模型发展的重要里程碑,它在前代模型的基础上实现了显著突破。

更值得关注的是基础模型的迭代速度,特别是在模型及其预训练数据集开源的背景下。相比两年前 Monash 作为唯一的开放时间序列数据集仓库,如今的格局已发生显著改变。最后,作为一项成熟的机器学习技术,混合专家模型在时间序列基础领域的应用为未来发展开辟了新的方向,我们期待看到更多模型采用 MOE 架构。

论文链接:https://avoid.overfit.cn/post/e971572417b44af8b1f046cb471b6a21

作者: Nikos Kafritsas

目录
相关文章
|
机器学习/深度学习 运维
Moment:又一个开源的时间序列基础模型
MOMENT团队推出Time-series Pile,一个大型公共时间序列数据集,用于预训练首个开源时间序列模型家族。模型基于Transformer,采用遮蔽预训练技术,适用于预测、分类、异常检测和输入任务。研究发现,随机初始化比使用语言模型权重更有效,且直接预训练的模型表现出色。MOMENT改进了Transformer架构,调整了Layer norm并引入关系位置嵌入。模型在长期预测和异常检测中表现优异,但对于数值预测的效果尚不明朗。论文贡献包括开源方法、数据集创建和资源有限情况下的性能评估框架。
1275 0
|
机器学习/深度学习 人工智能 自然语言处理
一文搞懂【知识蒸馏】【Knowledge Distillation】算法原理
一文搞懂【知识蒸馏】【Knowledge Distillation】算法原理
一文搞懂【知识蒸馏】【Knowledge Distillation】算法原理
|
机器学习/深度学习 人工智能 达摩院
[ICML'22] 阿里巴巴达摩院FEDformer,长程时序预测全面超越SOTA
本文介绍阿里巴巴达摩院决策智能实验室时间序列预测方向的最新(ICML 2022 accepted)工作:FEDformer: Frequency Enhanced Decomposed Transformer for Long-term Series Forecasting论文链接:https://arxiv.org/abs/2201.12740代码链接:https://github.com/DA
3537 0
[ICML'22] 阿里巴巴达摩院FEDformer,长程时序预测全面超越SOTA
|
10月前
|
机器学习/深度学习 测试技术
ChronosX: 可使用外生变量的时间序列预测基础模型
时间序列预测中,基础模型虽在单变量任务中表现出色,但引入协变量支持仍面临挑战。Chronos研究团队提出ChronosX架构,通过适配器层有效整合历史与未来协变量信息,适用于任何单变量模型。实验表明,ChronosX显著提升预测性能,尤其在复杂数据集上优势明显。消融研究进一步验证了协变量模块的重要性。尽管需要轻量训练,但其灵活性和通用性为时间序列建模提供了新思路,未来或可通过类似LLM提示机制实现更高效的协变量处理。
675 16
ChronosX: 可使用外生变量的时间序列预测基础模型
|
机器学习/深度学习 编解码 测试技术
TimeMOE: 使用稀疏模型实现更大更好的时间序列预测
TimeMOE是一种新型的时间序列预测基础模型,通过稀疏混合专家(MOE)设计,在提高模型能力的同时降低了计算成本。它可以在多种时间尺度上进行预测,并且经过大规模预训练,具备出色的泛化能力。TimeMOE不仅在准确性上超越了现有模型,还在计算效率和灵活性方面表现出色,适用于各种预测任务。该模型已扩展至数十亿参数,展现了时间序列领域的缩放定律。研究结果显示,TimeMOE在多个基准测试中显著优于其他模型,特别是在零样本学习场景下。
2051 64
|
机器学习/深度学习 自然语言处理 索引
Moirai:Salesforce的时间序列预测基础模型
过去几个月,时间序列基础模型发展迅速,包括TimeGPT、Lag-Llama、Google的TimesFM、Amazon的Chronos和Salesforce的Moirai。本文聚焦于Moirai,这是一个用于时间序列预测的通用模型,尤其强调零样本推理能力。Moirai处理各种数据频率、适应未知协变量并生成概率预测。文章介绍了Moirai的三个关键特性:多尺寸补丁投影层、任意变量注意力和混合分布。此外,还对比了Moirai与Chronos和TimeGPT,发现Moirai在性能上未超越Chronos,后者在数据效率上更优,但不支持多变量预测。
1062 2
|
机器学习/深度学习 自然语言处理 物联网
Chronos: 将时间序列作为一种语言进行学习
Chronos框架预训练时间序列模型,将序列值转为Transformer模型的tokens。通过缩放、量化处理,模型在合成及公共数据集上训练,参数量20M至710M不等。优于传统和深度学习模型,展示出色零样本预测性能。使用分类交叉熵损失,支持多模态输出分布学习。数据增强策略包括TSMix和KernelSynth。实验显示大型Chronos模型在概率和点预测上超越多种基线,且微调小型模型表现优异。虽然推理速度较慢,但其通用性简化了预测流程。论文探讨了优化潜力和未来研究方向。
1247 3
|
人工智能 供应链 PyTorch
TimesFM 2.0:用 AI 预测流量、销量和金融市场等走势!谷歌开源超越统计方法的预测模型
TimesFM 2.0 是谷歌研究团队开源的时间序列预测模型,支持长达2048个时间点的单变量预测,具备零样本学习能力,适用于零售、金融、交通等多个领域。
1847 24
TimesFM 2.0:用 AI 预测流量、销量和金融市场等走势!谷歌开源超越统计方法的预测模型
|
机器学习/深度学习 存储 缓存
DeepSeek × 时间序列 :DeepSeek-TS,基于状态空间增强MLA与GRPO的时序预测新框架
DeepSeek-TS 是一种创新的多产品时间序列预测框架,结合了 DeepSeek 中高效的多头潜在注意力(MLA)和群组相对策略优化(GRPO)技术。该框架通过扩展 MLA 提出 MLA-Mamba,允许潜在特征通过非线性激活的状态空间模型动态演变,提供自适应记忆以适应趋势变化。同时,通过 GRPO 引入智能决策过程,持续改进预测,有效响应销售模式的突变。实验结果显示,DeepSeek-TS 在建模复杂的产品间关系和适应非线性动态方面表现出色,显著优于经典的 ARMA 模型和标准的基于 GRU 的网络。
1478 9
DeepSeek × 时间序列 :DeepSeek-TS,基于状态空间增强MLA与GRPO的时序预测新框架
|
数据挖掘 Python
时间序列分析中的互相关与相干性分析:前导-滞后关系的理论基础与实际应用
时间序列数据在现代数据分析中广泛应用,从金融市场到生物医学领域。本文重点介绍两种分析工具:互相关和相干性分析。互相关用于量化两个时间序列的时域关系,揭示前导-滞后关系;相干性分析则评估信号在频率域的相关性,适用于脑电图等研究。通过实际案例和Python代码示例,展示了这两种方法的应用价值。
1372 8
时间序列分析中的互相关与相干性分析:前导-滞后关系的理论基础与实际应用

热门文章

最新文章