使用卡尔曼滤波平滑时间序列,提高时序预测的准确率

简介: 使用卡尔曼滤波平滑时间序列,提高时序预测的准确率

在时间序列预测中,脏乱数据的存在会影响最终的预测结果。这是肯定的,尤其是在这个领域,因为时间依赖性在处理时间序列时起着至关重要的作用。

640.png

噪音或异常值必须按照特别的解决方案小心处理。在这种情况下,tsmoothie包可以帮助我们节省大量时间来准备用于分析的时间序列。Tsmoothie是一个用于时间序列平滑和离群值检测的python库,它可以以向量化的方式处理多个序列。它很有用,因为它可以提供我们需要的预处理步骤,如去噪或离群值去除,保留原始数据中的时间模式。

在这篇文章中,我们使用这些小工具来改进预测任务。更准确地说,我们试图预测太阳能电池板的日发电量。最后,我们期望能从去噪过程中获益,并产生比未进行预处理的情况更好的预测。

数据

Kaggle上有一个真实的数据集。这些数据存储了安装在私人住宅屋顶上的太阳能电池板每天的发电量。数据记录自2011年,以时间序列的形式呈现3个不同的来源:

  • 房子每天的煤气消耗量。
  • 房屋的日常耗电量。当值为负值时,表示太阳能超过当地的电力消耗。
  • 功率表在直流到交流转换器上的日值。这是当前累积的太阳能。我们不需要累积值,相反,我们需要绝对的日值,因此,我们做了一个简单的区分。这是我们要预测的目标。

640.png

正如我们可以从原始系列的情节中注意到的,有很多噪音存在。这是正常的数据登记的传感器。如果我们的数据源受到外部气象条件的影响,或者传感器质量不佳,位置不理想,情况会更糟。

幸运的是,我们有知识和工具来实现我们的预测任务的良好结果。

时间序列平滑

我们工作流程中的第一步是时间序列预处理。我们的战略非常直观和有效。我们取目标时间序列(发电量),并用一种奇妙的工具使其平滑:卡尔曼滤波器,这是每个数据科学家都必须知道的。

一般来说,在时间序列任务中,使用卡尔曼滤波的最大优点是可以使用状态空间形式来表示未观察到的组件模型。以状态空间形式表示时间序列模型的范围是可用性的一套通用算法(包括卡尔曼滤波),用于计算高斯似然,可以在数值上最大化,得到模型参数的最大似然估计。著名的软件使用这种表示来匹配像ARIMA这样的模型并非偶然。在我们的特殊情况下,我们使用卡尔曼滤波器和状态空间表示来构建一个未观察组件模型。

到目前为止所解释的一切听起来可能很棘手,但我想向您保证……Tsmoothie可以轻松地构建未观察到的组件模型,以非常简单和有效的方式操作定制的Kalman平滑。在这个阶段,我们可以释放我们的想象力,从水平、趋势、季节性、长季节性中发现哪些成分有助于创建我们正在观察的时间序列。365天的水平和漫长的季节对我们来说很好。我们只需为每个组件假设添加一个“置信度”,就完成了。

640.png

卡尔曼平滑的可视化展示

结果平滑的时间序列保持相同的时间模式存在于原始数据,但具有一致和合理的降噪。

专业提示:如果我们的系列中包含nan,这不是一个问题,卡尔曼平滑会工作得非常好,它是一个非常强大的工具,以填补我们的数据空白……这是卡尔曼平滑的美丽。

时间序列预测

第二步是建立一个神经网络结构来预测未来几天的发电量。首先对原始数据拟合模型,然后对平滑后的序列进行拟合。平滑数据仅作为目标变量使用,所有输入序列保持原始格式。使用平滑标签的目的是为了帮助模型更好地捕捉真实模式和去除噪声。

我们选择一个LSTM自动编码器来预测接下来的5个日发电量值。训练程序使用keras-hypetune进行。该框架以非常直观的方式提供了神经网络结构的超参数优化。我们对一些参数组合进行网格搜索。

640.png

我们可以想象,预测误差与时间范围有关。对第二天的预测比对未来五天的预测更准确。重要的一点是,平滑过程提供了很大的好处,在预测精度的所有时间跨度。

640.png

总结

在这篇文章中,我们利用了预测场景中的时间序列平滑。应用卡尔曼滤波平滑使得原始数据和减少噪声的存在。这种选择在预测精度方面被证明是有利的。我还想指出卡尔曼滤波在这个应用程序中的威力,以及它在构建未观察组件模型时是一个很好的工具的能力。

本文代码:https://github.com/cerlymarco/MEDIUM_NoteBook

目录
相关文章
|
1天前
多元时间序列滚动预测:ARIMA、回归、ARIMAX模型分析
多元时间序列滚动预测:ARIMA、回归、ARIMAX模型分析
|
1天前
|
监控 数据可视化 数据挖掘
对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归
对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归
|
3天前
|
算法 vr&ar
状态空间模型:卡尔曼滤波器KFAS建模时间序列
状态空间模型:卡尔曼滤波器KFAS建模时间序列
19 8
|
2天前
|
存储 数据库
R语言用多项式回归和ARIMA模型预测电力负荷时间序列数据
R语言用多项式回归和ARIMA模型预测电力负荷时间序列数据
|
3天前
|
监控 数据可视化 数据挖掘
R语言对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归
R语言对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归
|
3天前
基于R统计软件的三次样条和平滑样条模型数据拟合及预测
基于R统计软件的三次样条和平滑样条模型数据拟合及预测
12 0
|
6月前
|
机器学习/深度学习 运维 计算机视觉
TimesNet:时间序列预测的最新模型
2023年4月发表了一个新的模型,它在时间序列分析的多个任务中实现了最先进的结果,如预测、imputation、分类和异常检测:TimesNet。
401 0
|
8月前
时序预测 | MATLAB实现基于KNN K近邻的时间序列预测-递归预测未来(多指标评价)
时序预测 | MATLAB实现基于KNN K近邻的时间序列预测-递归预测未来(多指标评价)
|
4月前
|
算法 数据挖掘 C#
C# | 线性回归算法的实现,只需采集少量数据点,即可拟合整个数据集
什么是线性回归呢? 简单来说,线性回归是一种用于建立两个变量之间线性关系的统计方法。在我们的软件开发中,线性回归可以应用于数据分析、预测和优化等领域。 什么情况下会用到线性回归呢? 线性回归可以用于探索数据之间的关系,可以用于预测未来的趋势。通过少量的数据点就能得到一个可以代表整个数据集的模型。换句话说,只需要采集少量的数据点,就可以拟合出整个数据集。
67 0
|
4月前
|
索引 Python
使用skforecast进行时间序列预测
时间序列预测是数据科学和商业分析中基于历史数据预测未来价值的一项重要技术。它有着广泛的应用,从需求规划、销售预测到计量经济分析。由于Python的多功能性和专业库的可用性,它已经成为一种流行的预测编程语言。其中一个为时间序列预测任务量身定制的库是skforecast。
66 5