使用LSTM深度学习模型进行温度的时间序列单步和多步预测(一)

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 使用LSTM深度学习模型进行温度的时间序列单步和多步预测

本文的目的是提供代码示例,并解释使用python和TensorFlow建模时间序列数据的思路。

本文展示了如何进行多步预测并在模型中使用多个特征。

本文的简单版本是,使用过去48小时的数据和对未来1小时的预测(一步),我获得了温度误差的平均绝对误差0.48(中值0.34)度。

利用过去168小时的数据并提前24小时进行预测,平均绝对误差为摄氏温度1.69度(中值1.27)。

所使用的特征是过去每小时的温度数据、每日及每年的循环信号、气压及风速。

使用来自https://openweathermap.org/的API获取数据。这些数据从1990年1月1日到2020.11月30日每小时在维尔纽斯电视塔附近收集一次。维尔纽斯不是一个大城市,电视塔就在城市里,所以电视塔附近的温度应该和城市所有地方的温度非常相似。

这里和整篇文章的主数据对象被称为d。它是通过读取原始数据创建的:

d=pd.read_csv(‘data/weather.csv’)
#Convertingthedtcolumntodatetimeobjectd[‘dt’] = [datetime.datetime.utcfromtimestamp(x) forxind[‘dt’]]
#Sortingbythedated.sort_values(‘dt’, inplace=True)

640.png

640.png

数据集中共有271008个数据点。

640.png

数据似乎是具有明确的周期模式。

640.png

上面的图表显示,气温有一个清晰的昼夜循环——中间温度在中午左右最高,在午夜左右最低。

640.png

这种循环模式在按月份分组的温度上更为明显——最热的月份是6月到8月,最冷的月份是12月到2月。

数据现在的问题是,我们只有date列。如果将其转换为数值(例如,提取时间戳(以秒为单位))并将其作为建模时的特性添加,那么循环特性将丢失。因此,我们需要做的第一件事就是设计一些能够抓住周期性趋势的特性。

我们想让机器知道,23点和0点比小时0点和4点更接近。我们知道周期是24小时。我们可以用cos(x)和sin(x)函数。函数中的x是一天中的一个小时。

#Extractingthehourofdayd["hour"] = [x.hourforxind["dt"]]
#Creatingthecyclicaldailyfeatured["day_cos"] = [np.cos(x* (2*np.pi/24)) forxind["hour"]]
d["day_sin"] = [np.sin(x* (2*np.pi/24)) forxind["hour"]]

得到的dataframe如下:

640.png

640.png

新创建的特征捕捉了周期性模式。可能会出现一个问题,为什么我们同时使用sin和cos函数?

在上图中绘制一条水平线并仅分析其中一条曲线,我们将得到例如cos(7.5h)= cos(17.5h)等。在学习和预测时,这可能会导致一些错误,因此为了使每个点都唯一,我们添加了另一个循环函数。同时使用这两个功能,可以将所有时间区分开。

为了在一年中的某个时间创建相同的循环逻辑,我们将使用时间戳功能。python中的时间戳是一个值,用于计算自1970.01.01 0H:0m:0s以来经过了多少秒。python中的每个date对象都具有timestamp()函数。

#Extractingthetimestampfromthedatetimeobjectd["timestamp"] = [x.timestamp() forxind["dt"]]
#Secondsindays=24*60*60#Secondsinyearyear= (365.25) *sd["month_cos"] = [np.cos((x) * (2*np.pi/year)) forxind["timestamp"]]
d["month_sin"] = [np.sin((x) * (2*np.pi/year)) forxind["timestamp"]]

640.png

在本节中,我们从datetime列中创建了4个其他功能:day_sin,day_cos,month_sin和month_cos。

在天气数据集中,还有两列:wind_speed和pressure。风速以米/秒(m / s)为单位,压力以百帕斯卡(hPa)为单位。

640.png

640.png

要查看温度与两个特征之间的任何关系,我们可以绘制二维直方图:

640.png

640.png

颜色越强烈,两个分布的某些bin值之间的关系就越大。例如,当压力在1010和1020 hPa左右时,温度往往会更高。

我们还将在建模中使用这两个功能。

我们使用所有要素工程获得的数据是:

640.png

我们要近似的函数f为:

640.png

目标是使用过去的值来预测未来。数据是时间序列或序列。对于序列建模,我们将选择具有LSTM层的递归神经网络的Tensorflow实现。

LSTM网络的输入是3D张量:

(样本,时间步长,功能)

样本—用于训练的序列总数。

目录
相关文章
|
4天前
|
机器学习/深度学习 算法 PyTorch
深度学习分布式模型
深度学习分布式模型
14 0
|
4天前
|
机器学习/深度学习 搜索推荐 算法
基于深度学习神经网络协同过滤模型(NCF)的图书推荐系统
登录注册 热门图书 图书分类 图书推荐 借阅图书 购物图书 个人中心 可视化大屏 后台管理
基于深度学习神经网络协同过滤模型(NCF)的图书推荐系统
|
6天前
|
机器学习/深度学习 自然语言处理 PyTorch
【自然语言处理NLP】Bert预训练模型、Bert上搭建CNN、LSTM模型的输入、输出详解
【自然语言处理NLP】Bert预训练模型、Bert上搭建CNN、LSTM模型的输入、输出详解
23 0
|
10天前
|
机器学习/深度学习 人工智能 自然语言处理
探索深度学习的未来:从模型架构到应用场景
在信息技术飞速发展的时代,深度学习作为人工智能的核心领域正不断推动科技前沿。本文将探讨深度学习的最新发展趋势,包括模型架构的创新和实际应用场景的拓展。同时,我们将分析当前面临的挑战以及未来可能的发展方向,旨在为读者提供一个全面的视角,了解这一充满潜力的技术领域。
18 0
|
11天前
|
机器学习/深度学习 自然语言处理 PyTorch
【从零开始学习深度学习】48.Pytorch_NLP实战案例:如何使用预训练的词向量模型求近义词和类比词
【从零开始学习深度学习】48.Pytorch_NLP实战案例:如何使用预训练的词向量模型求近义词和类比词
|
11天前
|
机器学习/深度学习 算法 PyTorch
【从零开始学习深度学习】44. 图像增广的几种常用方式并使用图像增广训练模型【Pytorch】
【从零开始学习深度学习】44. 图像增广的几种常用方式并使用图像增广训练模型【Pytorch】
|
1月前
|
机器学习/深度学习 自然语言处理 数据可视化
数据代码分享|PYTHON用NLP自然语言处理LSTM神经网络TWITTER推特灾难文本数据、词云可视化
数据代码分享|PYTHON用NLP自然语言处理LSTM神经网络TWITTER推特灾难文本数据、词云可视化
|
2天前
|
机器学习/深度学习 PyTorch 算法框架/工具
RNN、LSTM、GRU神经网络构建人名分类器(三)
这个文本描述了一个使用RNN(循环神经网络)、LSTM(长短期记忆网络)和GRU(门控循环单元)构建的人名分类器的案例。案例的主要目的是通过输入一个人名来预测它最可能属于哪个国家。这个任务在国际化的公司中很重要,因为可以自动为用户注册时提供相应的国家或地区选项。
|
2天前
|
机器学习/深度学习 数据采集
RNN、LSTM、GRU神经网络构建人名分类器(一)
这个文本描述了一个使用RNN(循环神经网络)、LSTM(长短期记忆网络)和GRU(门控循环单元)构建的人名分类器的案例。案例的主要目的是通过输入一个人名来预测它最可能属于哪个国家。这个任务在国际化的公司中很重要,因为可以自动为用户注册时提供相应的国家或地区选项。
|
4天前
|
机器学习/深度学习 算法 数据可视化
m基于PSO-LSTM粒子群优化长短记忆网络的电力负荷数据预测算法matlab仿真
在MATLAB 2022a中,应用PSO优化的LSTM模型提升了电力负荷预测效果。优化前预测波动大,优化后预测更稳定。PSO借鉴群体智能,寻找LSTM超参数(如学习率、隐藏层大小)的最优组合,以最小化误差。LSTM通过门控机制处理序列数据。代码显示了模型训练、预测及误差可视化过程。经过优化,模型性能得到改善。
21 6