SARIMA,神经网络,RNN-LSTM,SARIMA和RNN组合方法预测COVID-19每日新增病例

简介: SARIMA,神经网络,RNN-LSTM,SARIMA和RNN组合方法预测COVID-19每日新增病例

项目挑战

开发一个预测模型,根据一个国家的历史每日COVID-19确诊病例,预测接下来115天当地的每日新增确诊病例。

解决方案

任务/目标

采用多种预测模型实现预测,评估每种模型的性能,找到最小MSE的模型参数(调参)

数据预处理

首先进行EDA(探索性数据分析),理解原始数据集。处理可能的缺失值或异常值(本例中没有缺失或异常)。将数据转换成浮点型,方便下一步的数据操作‘

用Pandas将索引设置为年,月,日的时间序列

该时间序列数据具有非线性趋势。2020年4月至2020年5月以及2020年8月至2020年9月期间,似乎具有季节性变化,周期为7天。此外,数据集的均值随时间变化,因此数据不是均值平稳的(mean-stationary)

划分训练集和测试集

考虑到最终模型会预测将来15天的新增确诊病例,保留最后15天的真实数据作为测试集

建模

首先使用一些简单的模型作为基准,如季节性天真(seasonal naïve),h步漂移预测(h-step forecast drift),和简单指数平滑(SES);然后采用了一些相对复杂的模型,如SARIMA,神经网络,RNN-LSTM;最后,采用SARIMA和RNN的组合方法来实现更准确的预测。接下来的模型描述侧重于SARIMA和神经网络

SARIMA

SARIMA是考虑了季节性变化趋势的ARIMA模型。分为三个部分:

第一部分是AR(自回归)部分,研究变量和其自身的滞后值的回归;

第二部分是MA(移动平均),研究误差项之间的线性组合;

第三个是I(整合),表示数据值已被当前值和前值之间的差值替代,以确保ARIMA可以解决非平稳数据。该过程可执行多次直到满足stationary

每个部分都旨在使模型更好地拟合数据;

AR神经网络

自回归神经网络(NNAR)是用于回归或分类的多层模型,其时间序列的滞后值作为输入。与ARIMA不同,它可以近似任何非线性函数。

RNN神经网络-LSTM

递归神经网络(RNN)通过隐藏单元(bias unit)处理时间效应,以递归方法进行更新,具有重复模块链的形式。长期短期记忆网络(LSTM)是一种特殊的RNN,可以学习长期依赖性。

项目结果

复杂模型的预测精度显著高于简单模型,其中RNN模型的MSE最小。预测结果的可视化图形如下:

最后,采取堆栈(stacking)的方式,根据MSE进行加权,将精度最高的三种模型结合

预测结果仅作为参考。

关于作者

Enzo Li,本科就读于湖南大学,悉尼大学研究生,主修定量金融(quantitative finance),商业分析(business analytics)。侧重于应用层面的数据分析。在基于现实情境的商业实践活动中,取得了优异的成绩。如:根据COVID-19的历史确诊记录,建立每日新增预测模型 ,实现高精度预测(RNN神经网络优化);根据地段、房屋面积、基础设施分布等要素,建立房价预测模型;根据酒精含量、生产年份、用料、产地等,建立红酒售价预测模型。课题贴合实际商业活动,锻炼了运用专业知识解决现实问题的能力和技巧


相关文章
|
16天前
|
监控 安全 网络安全
深入解析PDCERF:网络安全应急响应的六阶段方法
PDCERF是网络安全应急响应的六阶段方法,涵盖准备、检测、抑制、根除、恢复和跟进。本文详细解析各阶段目标与操作步骤,并附图例,助读者理解与应用,提升组织应对安全事件的能力。
174 89
|
4月前
|
机器学习/深度学习 数据采集 存储
时间序列预测新突破:深入解析循环神经网络(RNN)在金融数据分析中的应用
【10月更文挑战第7天】时间序列预测是数据科学领域的一个重要课题,特别是在金融行业中。准确的时间序列预测能够帮助投资者做出更明智的决策,比如股票价格预测、汇率变动预测等。近年来,随着深度学习技术的发展,尤其是循环神经网络(Recurrent Neural Networks, RNNs)及其变体如长短期记忆网络(LSTM)和门控循环单元(GRU),在处理时间序列数据方面展现出了巨大的潜力。本文将探讨RNN的基本概念,并通过具体的代码示例展示如何使用这些模型来进行金融数据分析。
521 2
|
25天前
|
机器学习/深度学习 数据采集 人工智能
GeneralDyG:南洋理工推出通用动态图异常检测方法,支持社交网络、电商和网络安全
GeneralDyG 是南洋理工大学推出的通用动态图异常检测方法,通过时间 ego-graph 采样、图神经网络和时间感知 Transformer 模块,有效应对数据多样性、动态特征捕捉和计算成本高等挑战。
63 18
GeneralDyG:南洋理工推出通用动态图异常检测方法,支持社交网络、电商和网络安全
|
22天前
|
机器学习/深度学习 算法 计算机视觉
基于CNN卷积神经网络的金融数据预测matlab仿真,对比BP,RBF,LSTM
本项目基于MATLAB2022A,利用CNN卷积神经网络对金融数据进行预测,并与BP、RBF和LSTM网络对比。核心程序通过处理历史价格数据,训练并测试各模型,展示预测结果及误差分析。CNN通过卷积层捕捉局部特征,BP网络学习非线性映射,RBF网络进行局部逼近,LSTM解决长序列预测中的梯度问题。实验结果表明各模型在金融数据预测中的表现差异。
|
2月前
|
机器学习/深度学习 数据采集 人工智能
基于Huffman树的层次化Softmax:面向大规模神经网络的高效概率计算方法
层次化Softmax算法通过引入Huffman树结构,将传统Softmax的计算复杂度从线性降至对数级别,显著提升了大规模词汇表的训练效率。该算法不仅优化了计算效率,还在处理大规模离散分布问题上提供了新的思路。文章详细介绍了Huffman树的构建、节点编码、概率计算及基于Gensim的实现方法,并讨论了工程实现中的优化策略与应用实践。
78 15
基于Huffman树的层次化Softmax:面向大规模神经网络的高效概率计算方法
|
2月前
|
域名解析 缓存 网络协议
优化Lua-cURL:减少网络请求延迟的实用方法
优化Lua-cURL:减少网络请求延迟的实用方法
|
3月前
|
机器学习/深度学习 数据采集 算法
机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用
医疗诊断是医学的核心,其准确性和效率至关重要。本文探讨了机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用。文章还讨论了Python在构建机器学习模型中的作用,面临的挑战及应对策略,并展望了未来的发展趋势。
221 1
|
3月前
|
安全 算法 网络安全
量子计算与网络安全:保护数据的新方法
量子计算的崛起为网络安全带来了新的挑战和机遇。本文介绍了量子计算的基本原理,重点探讨了量子加密技术,如量子密钥分发(QKD)和量子签名,这些技术利用量子物理的特性,提供更高的安全性和可扩展性。未来,量子加密将在金融、政府通信等领域发挥重要作用,但仍需克服量子硬件不稳定性和算法优化等挑战。
|
3月前
|
机器学习/深度学习 自然语言处理 前端开发
前端神经网络入门:Brain.js - 详细介绍和对比不同的实现 - CNN、RNN、DNN、FFNN -无需准备环境打开浏览器即可测试运行-支持WebGPU加速
本文介绍了如何使用 JavaScript 神经网络库 **Brain.js** 实现不同类型的神经网络,包括前馈神经网络(FFNN)、深度神经网络(DNN)和循环神经网络(RNN)。通过简单的示例和代码,帮助前端开发者快速入门并理解神经网络的基本概念。文章还对比了各类神经网络的特点和适用场景,并简要介绍了卷积神经网络(CNN)的替代方案。
428 1
|
4月前
|
机器学习/深度学习 存储 自然语言处理
从理论到实践:如何使用长短期记忆网络(LSTM)改善自然语言处理任务
【10月更文挑战第7天】随着深度学习技术的发展,循环神经网络(RNNs)及其变体,特别是长短期记忆网络(LSTMs),已经成为处理序列数据的强大工具。在自然语言处理(NLP)领域,LSTM因其能够捕捉文本中的长期依赖关系而变得尤为重要。本文将介绍LSTM的基本原理,并通过具体的代码示例来展示如何在实际的NLP任务中应用LSTM。
332 4