BiTCN:基于卷积网络的多元时间序列预测

本文涉及的产品
实时计算 Flink 版,1000CU*H 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时数仓Hologres,5000CU*H 100GB 3个月
简介: 该文探讨了时间序列预测中模型架构的选择,指出尽管MLP和Transformer模型常见,但CNN在预测领域的应用较少。BiTCN是一种利用两个时间卷积网络来编码历史和未来协变量的模型,提出于《Parameter-efficient deep probabilistic forecasting》(2023年3月)。它包含多个由扩张卷积、GELU激活函数、dropout和全连接层组成的临时块,有效地处理序列数据。实验表明,BiTCN在具有外生特征的预测任务中表现优于N-HiTS和PatchTST。BiTCN的效率和性能展示了CNN在时间序列预测中的潜力。

在时间序列预测领域中,模型的体系结构通常依赖于多层感知器(MLP)或Transformer体系结构。

基于mlp的模型,如N-HiTS, TiDE和TSMixer,可以在保持快速训练的同时获得非常好的预测性能。基于Transformer的模型,如PatchTST和ittransformer也取得了很好的性能,但需要更多的内存和时间来训练。

有一种架构在预测中仍未得到充分利用:卷积神经网络(CNN)。CNN已经应用于计算机视觉,但它们在预测方面的应用仍然很少,只有TimesNet算是最近的例子。但是CNN已经被证明在处理序列数据方面是有效的,并且它们的架构允许并行计算,这可以大大加快训练速度。

在本文中,我们将详细介绍了BiTCN,这是2023年3月在《Parameter-efficient deep probabilistic forecasting》一文中提出的模型。通过利用两个时间卷积网络(TCN),该模型可以编码过去和未来的协变量,同时保持计算效率。

BiTCN

BiTCN使用了两个时间卷积网络,因此被称为BiTCN。一个TCN负责编码未来的协变量,而另一个负责编码过去的协变量和序列的历史值。这样模型可以从数据中学习时间信息,并且卷积的使用保持了计算效率。

让我们仔细看看它的架构,BiTCN的体系结构由许多临时块组成,其中每个块由:

一个扩张卷积,一个GELU激活函数,然后是dropout ,最后紧接着一个全连接的层

上图中可以看到每个时态块产生一个输出o,最终的预测是将每个块的所有输出叠加在N层中得到的。

虽然dropout层和全连接层是神经网络中常见的组件,所以我们详细地扩张卷积和GELU激活函数。

扩张卷积

为了更好地理解扩展卷积的目的,我们回顾一下默认卷积是如何工作的。

在上图中,我们可以看到一维输入的典型卷积。输入序列左填充零,以确保输出长度相同。

如果核大小为3,步幅为1,,则输出张量的长度也为4。

可以看到,输出的每个元素都依赖于三个输入值。也就是说输出取决于索引处的值和前两个值。

这就是我们所说的感受野。因为我们正在处理时间序列数据,所以增加接受域将是有益的,这样输出的计算可以着眼于更长的历史。

我们可以简单的增加核的大小,或者堆叠更多的卷积层。但增加内核大小并不是最好的选择,因为可能会丢失信息,并且模型可能无法学习数据中的有用关系。那么叠加更多的卷积如何呢?

可以看到,通过使用核大小为3的卷积操作堆叠两个卷积,输出的最后一个元素现在依赖于输入的五个元素,感受野从3个增加到5个。

但是以这种方式增加接受野将导致非常深的网络,所以就出现了使用扩展卷积,它可以在增加感受野,同时避免向模型添加太多层

在上图中,我们可以看到运行扩展卷积的结果。每两个元素都会生成一个输出。因此可以看到,我们现在有5个感受野,而不需要堆叠卷积。

为了进一步增加接受野,我们使用膨胀基数(通常设置为2)堆叠许多稀释的核。这意味着第一层将是2¹膨胀的核,然后是2²膨胀的内核,然后是2³,以此类推。

这样模型可以考虑更长的输入序列来生成输出。通过使用膨胀基数可以保持合理的层数。

GELU激活函数

许多深度学习架构采用了ReLU激活函数。

可以看到ReLU只是取0和输入之间的最大值。也就是说如果输入为正,则返回输入。如果输入为负,则返回零。

虽然ReLU有助于缓解梯度消失的问题,但它也会产生所谓的“Dying ReLU”问题。当网络中的某些神经元只输出0时,就会发生这种情况,这意味着它们不再对模型的学习做出贡献。为了应对这种情况,可以使用GELU。

有了这个函数,当输入小于零时,激活函数允许小的负值。

这样神经元就不太可能消亡,因为非零值可以用负输入返回。为反向传播提供了更丰富的梯度,并且我们可以保持模型能力的完整性。

BiTCN完整架构

现在我们了解了BiTCN中临时块的内部工作原理,让我们看看它是如何在模型中组合在一起的。

在上图中可以看到滞后值在通过密集层和时间块堆栈之前与所有过去的协变量组合在一起。

我们还看到分类协变量首先被嵌入,然后再与其他协变量组合。这里过去和未来的协变量都组合在一起,如下所示。输出则是来自滞后值和协变量的信息的组合,如下所示。

上图额蓝点表示输入序列,黄点表示输出序列,红点表示未来协变量。我们可以看到具有扩展卷积的前瞻性时间块如何通过处理来自未来协变量的信息来帮助告知输出。

最后,BiTCN使用学生t分布来构建预测周围的置信区间。

使用BiTCN进行预测

下面我们将BiTCN与N-HiTS和PatchTST一起应用于长期预测任务。

我们用它来预测一个博客网站的每日浏览量。该数据集包含每日浏览量,以及外生特征,如新文章发表日期的指标,以及美国假期的指标。

我们使用库neuralforecast,因为这是唯一一个提供支持外生特性的BiTCN的即用型实现的库。本文的代码和数据都会在最后提供。

 import pandas as pd
 import numpy as np
 import matplotlib.pyplot as plt

 from neuralforecast.core import NeuralForecast
 from neuralforecast.models import NHITS, PatchTST, BiTCN

将数据读入DataFrame。

 df = pd.read_csv('https://raw.githubusercontent.com/marcopeix/time-series-analysis/master/data/medium_views_published_holidays.csv')
 df['ds'] = pd.to_datetime(df['ds'])

可以先看看数据

 published_dates = df[df['published'] == 1]
 holidays = df[df['is_holiday'] == 1]

 fig, ax = plt.subplots(figsize=(12,8))

 ax.plot(df['ds'], df['y'])
 ax.scatter(published_dates['ds'], published_dates['y'], marker='o', color='red', label='New article')
 ax.scatter(holidays['ds'], holidays['y'], marker='x', color='green', label='US holiday')
 ax.set_xlabel('Day')
 ax.set_ylabel('Total views')
 ax.legend(loc='best')

 fig.autofmt_xdate()

 plt.tight_layout()

我们可以清楚地看到每周的季节性,工作日的访问量比周末要多。

访问高峰通常伴随着新文章的发布(用红点表示),因为新内容通常会带来更多的流量。最后还可以看到美国的节假日(用绿色十字标记)通常意味着流量较低。

所以我们可以确定,这是一个受外生特征影响明显的数据,它可以成为BiTCN的一个很好的用例。

数据处理

我们将数据分成训练集和测试集。我们保留最后28个条目进行测试。

 train = df[:-28]
 test = df[-28:]

然后,我们创建一个DataFrame,其中包含预测范围的日期,以及外生变量的未来值。

提供外生变量的未来值是有意义的,因为未来的美国假期日期是提前知道的,并且文章的发布也是可以有计划的。

 future_df = test.drop(['y'], axis=1)

建模

我们在这个项目中使用了N-HiTS(基于mlp), BiTCN(基于cnn)和PatchTST(基于transformer)。

N-HiTS和BiTCN都支持外生特征建模,但PatchTST不支持。

这个实验的步长被设置为28,因为这覆盖了我们测试集的整个长度。

 horizon = len(test)

 models = [
     NHITS(
         h=horizon,
         input_size = 5*horizon,
         futr_exog_list=['published', 'is_holiday'],
         hist_exog_list=['published', 'is_holiday'],
         scaler_type='robust'),
     BiTCN(
         h=horizon,
         input_size=5*horizon,
         futr_exog_list=['published', 'is_holiday'],
         hist_exog_list=['published', 'is_holiday'],
         scaler_type='robust'),
     PatchTST(
         h=horizon,
         input_size=2*horizon,
         encoder_layers=3,
         hidden_size=128,
         linear_hidden_size=128,
         patch_len=4,
         stride=1,
         revin=True,
         max_steps=1000
     )
 ]

然后,我们简单地在训练集上拟合我们的模型。

 nf = NeuralForecast(models=models, freq='D')
 nf.fit(df=train)

使用外生特征的未来值来生成预测。

 preds_df = nf.predict(futr_df=future_df)

评估模型

首先将预测值和实际值连接到一个DataFrame中。

 test_df = pd.merge(test, preds_df, 'left', 'ds')

根据实际值绘制预测图,结果如下图所示。

在上图中,我们可以看到所有模型似乎都过度预测了实际流量。让用MAE和sMAPE来看看模型的实际对比

 from utilsforecast.losses import mae, smape
 from utilsforecast.evaluation import evaluate

 evaluation = evaluate(
     test_df,
     metrics=[mae, smape],
     models=["NHITS", "BiTCN", "PatchTST"],
     target_col="y",
 )

 evaluation = evaluation.drop(['unique_id'], axis=1)
 evaluation = evaluation.set_index('metric')

 evaluation.style.highlight_min(color='blue', axis=1)

可以看到BiTCN实现了最好的性能,因为该模型的MAE和sMAPE是最低的。

虽然这个实验本身并不是BiTCN的稳健基准,但是可以证明它在具有外生特征的预测环境中取得了最佳结果。

总结

BiTCN模型利用两个时间卷积网络对协变量的过去值和未来值进行编码,以实现有效的多变量时间序列预测。

在我们的小实验中,BiTCN取得了最好的性能,卷积神经网络在时间序列领域的成功应用很有趣,因为大多数模型都是基于mlp或基于transformer的。

BiTCN:Parameter-efficient deep probabilistic forecasting

https://avoid.overfit.cn/post/ea66d229a5c041a6bd27af74205bdaee

作者:Marco Peixeiro

目录
相关文章
|
3月前
|
机器学习/深度学习 算法 数据挖掘
基于WOA鲸鱼优化的BiLSTM双向长短期记忆网络序列预测算法matlab仿真,对比BiLSTM和LSTM
本项目基于MATLAB 2022a/2024b实现,采用WOA优化的BiLSTM算法进行序列预测。核心代码包含完整中文注释与操作视频,展示从参数优化到模型训练、预测的全流程。BiLSTM通过前向与后向LSTM结合,有效捕捉序列前后文信息,解决传统RNN梯度消失问题。WOA优化超参数(如学习率、隐藏层神经元数),提升模型性能,避免局部最优解。附有运行效果图预览,最终输出预测值与实际值对比,RMSE评估精度。适合研究时序数据分析与深度学习优化的开发者参考。
|
3月前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于GA遗传优化的BiLSTM双向长短期记忆网络序列预测算法matlab仿真,对比BiLSTM和LSTM
本内容包含基于BiLSTM与遗传算法(GA)的算法介绍及实现。算法通过MATLAB2022a/2024b运行,核心为优化BiLSTM超参数(如学习率、神经元数量),提升预测性能。LSTM解决传统RNN梯度问题,捕捉长期依赖;BiLSTM双向处理序列,融合前文后文信息,适合全局信息任务。附完整代码(含注释)、操作视频及无水印运行效果预览,适用于股票预测等场景,精度优于单向LSTM。
|
3月前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于PSO粒子群优化的BiLSTM双向长短期记忆网络序列预测算法matlab仿真,对比BiLSTM和LSTM
本项目基于MATLAB2022a/2024b开发,结合粒子群优化(PSO)算法与双向长短期记忆网络(BiLSTM),用于优化序列预测任务中的模型参数。核心代码包含详细中文注释及操作视频,涵盖遗传算法优化过程、BiLSTM网络构建、训练及预测分析。通过PSO优化BiLSTM的超参数(如学习率、隐藏层神经元数等),显著提升模型捕捉长期依赖关系和上下文信息的能力,适用于气象、交通流量等场景。附有运行效果图预览,展示适应度值、RMSE变化及预测结果对比,验证方法有效性。
|
3月前
|
机器学习/深度学习 算法
基于遗传优化ELM网络的时间序列预测算法matlab仿真
本项目实现了一种基于遗传算法优化的极限学习机(GA-ELM)网络时间序列预测方法。通过对比传统ELM与GA-ELM,验证了参数优化对非线性时间序列预测精度的提升效果。核心程序利用MATLAB 2022A完成,采用遗传算法全局搜索最优权重与偏置,结合ELM快速训练特性,显著提高模型稳定性与准确性。实验结果展示了GA-ELM在复杂数据中的优越表现,误差明显降低。此方法适用于金融、气象等领域的时间序列预测任务。
|
3月前
|
机器学习/深度学习 数据采集 算法
基于GWO灰狼优化的BiLSTM双向长短期记忆网络序列预测算法matlab仿真,对比BiLSTM和LSTM
本项目基于Matlab 2022a/2024b实现,结合灰狼优化(GWO)算法与双向长短期记忆网络(BiLSTM),用于序列预测任务。核心代码包含数据预处理、种群初始化、适应度计算及参数优化等步骤,完整版附带中文注释与操作视频。BiLSTM通过前向与后向处理捕捉序列上下文信息,GWO优化其参数以提升预测性能。效果图展示训练过程与预测结果,适用于气象、交通等领域。LSTM结构含输入门、遗忘门与输出门,解决传统RNN梯度问题,而BiLSTM进一步增强上下文理解能力。
|
3月前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于WOA鲸鱼优化的TCN-GRU时间卷积神经网络时间序列预测算法matlab仿真
本内容包含时间序列预测算法的相关资料,涵盖以下几个方面:1. 算法运行效果预览(无水印);2. 运行环境为Matlab 2022a/2024b;3. 提供部分核心程序,完整版含中文注释及操作视频;4. 理论概述:结合时间卷积神经网络(TCN)与鲸鱼优化算法(WOA),优化TCN超参数以提升非线性时间序列预测性能。通过因果卷积层与残差连接构建TCN模型,并用WOA调整卷积核大小、层数等参数,实现精准预测。适用于金融、气象等领域决策支持。
|
3月前
|
机器学习/深度学习 数据采集 并行计算
基于WOA鲸鱼优化的TCN时间卷积神经网络时间序列预测算法matlab仿真
本内容介绍了一种基于TCN(Temporal Convolutional Network)与WOA(Whale Optimization Algorithm)的时间序列预测算法。TCN通过扩张卷积捕捉时间序列长距离依赖关系,结合批归一化和激活函数提取特征;WOA用于优化TCN网络参数,提高预测精度。算法流程包括数据归一化、种群初始化、适应度计算及参数更新等步骤。程序基于Matlab2022a/2024b开发,完整版含详细中文注释与操作视频,运行效果无水印展示。适用于函数优化、机器学习调参及工程设计等领域复杂任务。
|
3月前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于PSO粒子群优化TCN-GRU时间卷积神经网络时间序列预测算法matlab仿真
本内容涵盖基于粒子群优化(PSO)与时间卷积神经网络(TCN)的时间序列预测算法。完整程序运行效果无水印,适用于Matlab2022a版本。核心代码配有详细中文注释及操作视频。理论部分阐述了传统方法(如ARIMA)在非线性预测中的局限性,以及TCN结合PSO优化超参数的优势。模型由因果卷积层和残差连接组成,通过迭代训练与评估选择最优超参数,最终实现高精度预测,广泛应用于金融、气象等领域。
|
9月前
|
SQL 安全 网络安全
网络安全与信息安全:知识分享####
【10月更文挑战第21天】 随着数字化时代的快速发展,网络安全和信息安全已成为个人和企业不可忽视的关键问题。本文将探讨网络安全漏洞、加密技术以及安全意识的重要性,并提供一些实用的建议,帮助读者提高自身的网络安全防护能力。 ####
213 17
|
9月前
|
SQL 安全 网络安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
随着互联网的普及,网络安全问题日益突出。本文将从网络安全漏洞、加密技术和安全意识三个方面进行探讨,旨在提高读者对网络安全的认识和防范能力。通过分析常见的网络安全漏洞,介绍加密技术的基本原理和应用,以及强调安全意识的重要性,帮助读者更好地保护自己的网络信息安全。
164 10