使用卡尔曼滤波平滑时间序列,提高时序预测的准确率

简介: 使用卡尔曼滤波平滑时间序列,提高时序预测的准确率

在时间序列预测中,脏乱数据的存在会影响最终的预测结果。这是肯定的,尤其是在这个领域,因为时间依赖性在处理时间序列时起着至关重要的作用。

640.png

噪音或异常值必须按照特别的解决方案小心处理。在这种情况下,tsmoothie包可以帮助我们节省大量时间来准备用于分析的时间序列。Tsmoothie是一个用于时间序列平滑和离群值检测的python库,它可以以向量化的方式处理多个序列。它很有用,因为它可以提供我们需要的预处理步骤,如去噪或离群值去除,保留原始数据中的时间模式。

在这篇文章中,我们使用这些小工具来改进预测任务。更准确地说,我们试图预测太阳能电池板的日发电量。最后,我们期望能从去噪过程中获益,并产生比未进行预处理的情况更好的预测。

数据

Kaggle上有一个真实的数据集。这些数据存储了安装在私人住宅屋顶上的太阳能电池板每天的发电量。数据记录自2011年,以时间序列的形式呈现3个不同的来源:

  • 房子每天的煤气消耗量。
  • 房屋的日常耗电量。当值为负值时,表示太阳能超过当地的电力消耗。
  • 功率表在直流到交流转换器上的日值。这是当前累积的太阳能。我们不需要累积值,相反,我们需要绝对的日值,因此,我们做了一个简单的区分。这是我们要预测的目标。

640.png

正如我们可以从原始系列的情节中注意到的,有很多噪音存在。这是正常的数据登记的传感器。如果我们的数据源受到外部气象条件的影响,或者传感器质量不佳,位置不理想,情况会更糟。

幸运的是,我们有知识和工具来实现我们的预测任务的良好结果。

时间序列平滑

我们工作流程中的第一步是时间序列预处理。我们的战略非常直观和有效。我们取目标时间序列(发电量),并用一种奇妙的工具使其平滑:卡尔曼滤波器,这是每个数据科学家都必须知道的。

一般来说,在时间序列任务中,使用卡尔曼滤波的最大优点是可以使用状态空间形式来表示未观察到的组件模型。以状态空间形式表示时间序列模型的范围是可用性的一套通用算法(包括卡尔曼滤波),用于计算高斯似然,可以在数值上最大化,得到模型参数的最大似然估计。著名的软件使用这种表示来匹配像ARIMA这样的模型并非偶然。在我们的特殊情况下,我们使用卡尔曼滤波器和状态空间表示来构建一个未观察组件模型。

到目前为止所解释的一切听起来可能很棘手,但我想向您保证……Tsmoothie可以轻松地构建未观察到的组件模型,以非常简单和有效的方式操作定制的Kalman平滑。在这个阶段,我们可以释放我们的想象力,从水平、趋势、季节性、长季节性中发现哪些成分有助于创建我们正在观察的时间序列。365天的水平和漫长的季节对我们来说很好。我们只需为每个组件假设添加一个“置信度”,就完成了。

640.png

卡尔曼平滑的可视化展示

结果平滑的时间序列保持相同的时间模式存在于原始数据,但具有一致和合理的降噪。

专业提示:如果我们的系列中包含nan,这不是一个问题,卡尔曼平滑会工作得非常好,它是一个非常强大的工具,以填补我们的数据空白……这是卡尔曼平滑的美丽。

时间序列预测

第二步是建立一个神经网络结构来预测未来几天的发电量。首先对原始数据拟合模型,然后对平滑后的序列进行拟合。平滑数据仅作为目标变量使用,所有输入序列保持原始格式。使用平滑标签的目的是为了帮助模型更好地捕捉真实模式和去除噪声。

我们选择一个LSTM自动编码器来预测接下来的5个日发电量值。训练程序使用keras-hypetune进行。该框架以非常直观的方式提供了神经网络结构的超参数优化。我们对一些参数组合进行网格搜索。

640.png

我们可以想象,预测误差与时间范围有关。对第二天的预测比对未来五天的预测更准确。重要的一点是,平滑过程提供了很大的好处,在预测精度的所有时间跨度。

640.png

总结

在这篇文章中,我们利用了预测场景中的时间序列平滑。应用卡尔曼滤波平滑使得原始数据和减少噪声的存在。这种选择在预测精度方面被证明是有利的。我还想指出卡尔曼滤波在这个应用程序中的威力,以及它在构建未观察组件模型时是一个很好的工具的能力。

本文代码:https://github.com/cerlymarco/MEDIUM_NoteBook

目录
相关文章
|
消息中间件 存储 缓存
分布式中间件核心原理与RocketMQ最佳实践
随着互联网业务的不断扩展和复杂化,分布式系统的需求也越来越迫切。为了满足这一需求,分布式中间件应运而生。在分布式系统中,中间件的角色是协调和管理各个节点之间的通信和数据交换,它起到了桥梁的作用。本文将介绍分布式中间件的核心原理和RocketMQ最佳实践,帮助读者更好地理解和应用分布式中间件。
805 107
|
机器学习/深度学习 PyTorch 算法框架/工具
Pytorch使用专题 | 2 :Pytorch中数据读取-Dataset、Dataloader 、TensorDataset 和 Sampler 的使用
介绍Pytorch中数据读取-Dataset、Dataloader 、TensorDataset 和 Sampler 的使用
|
编译器 开发工具 C++
【Python】已解决error: Microsoft Visual C++ 14.0 or greater is required. Get it with “Microsoft C++ Build
【Python】已解决error: Microsoft Visual C++ 14.0 or greater is required. Get it with “Microsoft C++ Build
6589 0
|
10月前
|
算法 数据处理 Python
高精度保形滤波器Savitzky-Golay的数学原理、Python实现与工程应用
Savitzky-Golay滤波器是一种基于局部多项式回归的数字滤波器,广泛应用于信号处理领域。它通过线性最小二乘法拟合低阶多项式到滑动窗口中的数据点,在降噪的同时保持信号的关键特征,如峰值和谷值。本文介绍了该滤波器的原理、实现及应用,展示了其在Python中的具体实现,并分析了不同参数对滤波效果的影响。适合需要保持信号特征的应用场景。
1122 11
高精度保形滤波器Savitzky-Golay的数学原理、Python实现与工程应用
|
机器学习/深度学习 数据采集 算法
【优秀python算法毕设】基于python时间序列模型分析气温变化趋势的设计与实现
本文介绍了一个基于Python的时间序列模型,用于分析和预测2021-2022年重庆地区的气温变化趋势,通过ARIMA和LSTM模型的应用,揭示了气温的季节性和趋势性变化,并提供了对未来气温变化的预测,有助于气象预报和相关决策制定。
601 1
【优秀python算法毕设】基于python时间序列模型分析气温变化趋势的设计与实现
|
人工智能 JSON 自然语言处理
智谱AI GLM4开源!支持多模态&长序列,魔搭推理、微调最佳实践来啦!
GLM-4-9B是智谱AI推出的新一代预训练模型GLM-4系列的开源版本,它在多个数据集上的测试中表现出高绩效,包括语义理解、数学问题解决、推理和代码理解等方面。GLM-4-9B模型有四个变体:基础版GLM-4-9B(8K)、对话版GLM-4-9B-Chat(128K)、超长上下文版GLM-4-9B-Chat-1M(1M)和多模态版GLM-4V-9B-Chat(8K)。用户可以通过魔搭社区提供的链接体验这些模型,包括在CPU上运行的版本和支持vLLM推理的版本。
智谱AI GLM4开源!支持多模态&长序列,魔搭推理、微调最佳实践来啦!
|
物联网 C# 智能硬件
智能家居新篇章:WPF与物联网的智慧碰撞——通过MQTT协议连接与控制智能设备,打造现代科技生活的完美体验
【8月更文挑战第31天】物联网(IoT)技术的发展使智能家居设备成为现代家庭的一部分。通过物联网,家用电器和传感器可以互联互通,实现远程控制和状态监测等功能。本文将探讨如何在Windows Presentation Foundation(WPF)应用中集成物联网技术,通过具体示例代码展示其实现过程。文章首先介绍了MQTT协议及其在智能家居中的应用,并详细描述了使用Wi-Fi连接方式的原因。随后,通过安装Paho MQTT客户端库并创建MQTT客户端实例,演示了如何编写一个简单的WPF应用程序来控制智能灯泡。
563 0
|
机器学习/深度学习 数据采集 人工智能
|
算法 关系型数据库 C语言
卡尔曼滤波简介+ 算法实现代码(转)
卡尔曼滤波简介+ 算法实现代码(转)
307 4