使用卡尔曼滤波平滑时间序列,提高时序预测的准确率

简介: 使用卡尔曼滤波平滑时间序列,提高时序预测的准确率

在时间序列预测中,脏乱数据的存在会影响最终的预测结果。这是肯定的,尤其是在这个领域,因为时间依赖性在处理时间序列时起着至关重要的作用。

640.png

噪音或异常值必须按照特别的解决方案小心处理。在这种情况下,tsmoothie包可以帮助我们节省大量时间来准备用于分析的时间序列。Tsmoothie是一个用于时间序列平滑和离群值检测的python库,它可以以向量化的方式处理多个序列。它很有用,因为它可以提供我们需要的预处理步骤,如去噪或离群值去除,保留原始数据中的时间模式。

在这篇文章中,我们使用这些小工具来改进预测任务。更准确地说,我们试图预测太阳能电池板的日发电量。最后,我们期望能从去噪过程中获益,并产生比未进行预处理的情况更好的预测。

数据

Kaggle上有一个真实的数据集。这些数据存储了安装在私人住宅屋顶上的太阳能电池板每天的发电量。数据记录自2011年,以时间序列的形式呈现3个不同的来源:

  • 房子每天的煤气消耗量。
  • 房屋的日常耗电量。当值为负值时,表示太阳能超过当地的电力消耗。
  • 功率表在直流到交流转换器上的日值。这是当前累积的太阳能。我们不需要累积值,相反,我们需要绝对的日值,因此,我们做了一个简单的区分。这是我们要预测的目标。

640.png

正如我们可以从原始系列的情节中注意到的,有很多噪音存在。这是正常的数据登记的传感器。如果我们的数据源受到外部气象条件的影响,或者传感器质量不佳,位置不理想,情况会更糟。

幸运的是,我们有知识和工具来实现我们的预测任务的良好结果。

时间序列平滑

我们工作流程中的第一步是时间序列预处理。我们的战略非常直观和有效。我们取目标时间序列(发电量),并用一种奇妙的工具使其平滑:卡尔曼滤波器,这是每个数据科学家都必须知道的。

一般来说,在时间序列任务中,使用卡尔曼滤波的最大优点是可以使用状态空间形式来表示未观察到的组件模型。以状态空间形式表示时间序列模型的范围是可用性的一套通用算法(包括卡尔曼滤波),用于计算高斯似然,可以在数值上最大化,得到模型参数的最大似然估计。著名的软件使用这种表示来匹配像ARIMA这样的模型并非偶然。在我们的特殊情况下,我们使用卡尔曼滤波器和状态空间表示来构建一个未观察组件模型。

到目前为止所解释的一切听起来可能很棘手,但我想向您保证……Tsmoothie可以轻松地构建未观察到的组件模型,以非常简单和有效的方式操作定制的Kalman平滑。在这个阶段,我们可以释放我们的想象力,从水平、趋势、季节性、长季节性中发现哪些成分有助于创建我们正在观察的时间序列。365天的水平和漫长的季节对我们来说很好。我们只需为每个组件假设添加一个“置信度”,就完成了。

640.png

卡尔曼平滑的可视化展示

结果平滑的时间序列保持相同的时间模式存在于原始数据,但具有一致和合理的降噪。

专业提示:如果我们的系列中包含nan,这不是一个问题,卡尔曼平滑会工作得非常好,它是一个非常强大的工具,以填补我们的数据空白……这是卡尔曼平滑的美丽。

时间序列预测

第二步是建立一个神经网络结构来预测未来几天的发电量。首先对原始数据拟合模型,然后对平滑后的序列进行拟合。平滑数据仅作为目标变量使用,所有输入序列保持原始格式。使用平滑标签的目的是为了帮助模型更好地捕捉真实模式和去除噪声。

我们选择一个LSTM自动编码器来预测接下来的5个日发电量值。训练程序使用keras-hypetune进行。该框架以非常直观的方式提供了神经网络结构的超参数优化。我们对一些参数组合进行网格搜索。

640.png

我们可以想象,预测误差与时间范围有关。对第二天的预测比对未来五天的预测更准确。重要的一点是,平滑过程提供了很大的好处,在预测精度的所有时间跨度。

640.png

总结

在这篇文章中,我们利用了预测场景中的时间序列平滑。应用卡尔曼滤波平滑使得原始数据和减少噪声的存在。这种选择在预测精度方面被证明是有利的。我还想指出卡尔曼滤波在这个应用程序中的威力,以及它在构建未观察组件模型时是一个很好的工具的能力。

本文代码:https://github.com/cerlymarco/MEDIUM_NoteBook

目录
相关文章
二维坐标系空间变换(详细解读,附MATLAB代码)
二维坐标系空间变换(详细解读,附MATLAB代码)
1930 0
二维坐标系空间变换(详细解读,附MATLAB代码)
|
9月前
|
传感器 算法 数据挖掘
Python时间序列平滑技术完全指南:6种主流方法原理与实战应用
时间序列数据分析中,噪声干扰普遍存在,影响趋势提取。本文系统解析六种常用平滑技术——移动平均、EMA、Savitzky-Golay滤波器、LOESS回归、高斯滤波与卡尔曼滤波,从原理、参数配置、适用场景及优缺点多角度对比,并引入RPR指标量化平滑效果,助力方法选择与优化。
1793 0
|
7月前
|
传感器 算法 Shell
【使用卡尔曼滤波器将陀螺仪和加速度计的读数融合,以获取IMU的姿态(四元数)】实现了所谓的“零速度更新”算法,用于行人跟踪(步态跟踪)(Matlab代码实现)
【使用卡尔曼滤波器将陀螺仪和加速度计的读数融合,以获取IMU的姿态(四元数)】实现了所谓的“零速度更新”算法,用于行人跟踪(步态跟踪)(Matlab代码实现)
384 8
|
机器学习/深度学习 PyTorch 算法框架/工具
Pytorch使用专题 | 2 :Pytorch中数据读取-Dataset、Dataloader 、TensorDataset 和 Sampler 的使用
介绍Pytorch中数据读取-Dataset、Dataloader 、TensorDataset 和 Sampler 的使用
|
计算机视觉
【目标跟踪】卡尔曼滤波器(Kalman Filter) 含源码
【目标跟踪】卡尔曼滤波器(Kalman Filter) 含源码
1072 0
|
机器学习/深度学习 存储 人工智能
梯度累积的隐藏陷阱:Transformer库中梯度累积机制的缺陷与修正
在本地微调大规模语言模型时,由于GPU显存限制,通常采用梯度累积技术来模拟大批次训练。然而,实际研究表明,梯度累积方法在主流深度学习框架中会导致模型性能显著下降,尤其是在多GPU环境中。本文详细探讨了梯度累积的基本原理、应用场景及存在的问题,并通过实验验证了修正方案的有效性。研究指出,该问题可能在过去多年中一直存在且未被发现,影响了模型的训练效果。
1211 4
梯度累积的隐藏陷阱:Transformer库中梯度累积机制的缺陷与修正
|
存储 人工智能 算法
加速推进 AI+OS 深度融合,打造最 AI 的服务器操作系统 | 2024龙蜥大会主论坛
本次方案的主题是加速推进 AI+OS 深度融合,打造最 AI 的服务器操作系统,从产业洞察、创新实践、发展建议三个方面,指出 AI 原生应用对操作系统提出更高要求,需要以应用为导向、以系统为核心进行架构创新设计,要打造最 AI 的服务器操作系统。 1. 产业洞察 2. 创新实践 3. 发展建议
566 6
|
缓存 算法 Shell
魔搭牵手vLLM,提供更快更高效LLM推理服务
今年六月,来自加州大学伯克利分校、斯坦福大学、加州大学圣迭戈分校的研究人员基于操作系统中经典的虚拟内存和分页技术,提出了一个新的注意力算法PagedAttention,并打造了一个LLM服务系统vLLM。
|
机器学习/深度学习 自然语言处理 并行计算
一文快速读懂Transformer
Transformer模型近年来成为自然语言处理(NLP)领域的焦点,其强大的特征提取能力和并行计算优势在众多任务中取得显著效果。本文详细解读Transformer的原理,包括自注意力机制和编码器-解码器结构,并提供基于PyTorch的代码演示,展示了其在文本分类等任务中的应用。
|
机器学习/深度学习 数据采集 人工智能