【视频】ARIMA时间序列模型原理和R语言ARIMAX预测实现案例

简介: 【视频】ARIMA时间序列模型原理和R语言ARIMAX预测实现案例

全文链接:http://tecdat.cn/?p=32773

分析师:Feier Li


ARIMA是可以拟合时间序列数据的模型,根据自身的过去值(即自身的滞后和滞后的预测误差)“解释” 给定的时间序列,因此可以使用方程式预测未来价值点击文末“阅读原文”获取完整代码数据


任何具有模式且不是随机白噪声的“非季节性"时间序列都可以使用ARIMA模型进行建模。

image.png

模型识别


image.png

模型步骤


构造arima模型需要四个步骤:

  • 平稳性检验
  • 模型识别
  • 参数估计
  • 模型检验

image.png

平稳性检验


image.png

图检验

  • 时序图

趋势特征

●周期特征

●以上均无

  • 自相关图

image.png

点击标题查阅往期内容


Python金融时间序列模型ARIMA 和GARCH 在股票市场预测应用


01

02

03

04


单位根检验

若序列是平稳的,那么该序列的所有特征根都应该在单位圆内。若序列存在特征根在单位上或单位圆外, 则该序列是非平稳序列。


差分平稳


差分通过从当前观察值中减去先前的观察值来执行求差。

image.png

模型识别


image.png

参数估计及模型检验


模型的显著性检验

若残差序列为非白噪声序列,则意味着残差序列还有残留的相关信息未被提取,说明拟合模型不够有效。

参数的显著性检验

检验每一个参数是否显著非零,若不显著非零,即表示该参数所对应的自变量对因变量影响不明显,可将其剔除。

image.png

总结


应用场景:

  • 对销售数据进行分析,以预测未来的销售状况
  • 可以用于预测未来的气候变化,用于研究环境问题
  • 可分析行业数据,以便预测行业的未来发展趋势和发展方向。

优点:

  • 实现简单、计算量小
  • 可以有效处理不平滑、不确定性较大的时间序列数据

缺点:

  • 模型容易受到异常值的影响
  • 本质上只能捕捉线性关系,而不能捕捉非线性关系。

image.png

R语言用ARIMA模型,ARIMAX模型预测冰淇淋消费时间序列数据


标准的ARIMA(移动平均自回归模型)模型允许只根据预测变量的过去值进行预测。该模型假定一个变量的未来的值线性地取决于其过去的值,以及过去(随机)影响的值。ARIMAX模型是ARIMA模型的一个扩展版本。它还包括其他独立(预测)变量。该模型也被称为向量ARIMA或动态回归模型。

ARIMAX模型类似于多变量回归模型,但允许利用回归残差中可能存在的自相关来提高预测的准确性。

本文练习提供了一个进行ARIMAX模型预测的练习。还检查了回归系数的统计学意义。

这些练习使用了冰淇淋消费数据。该数据集包含以下变量。

  • 美国的冰淇淋消费(人均)
  • 每周的平均家庭收入
  • 冰淇淋的价格
  • 平均温度。

观测数据的数量为30个。它们对应的是1951年3月18日至1953年7月11日这一时间段内的四周时间。


练习1


加载数据集,并绘制变量cons(冰淇淋消费)、temp(温度)和收入。

image.png

ggplot(df, aes(x = X, y = income)) +
  ylab("收入") +
  xlab("时间") +
grid.arrange(p1, p2, p3, ncol=1, nrow=3)

image.png

点击标题查阅往期内容


基于ARIMA、SVM、随机森林销售的时间序列预测


01

02

03

04



练习 2


对冰淇淋消费数据估计ARIMA模型。然后将该模型作为输入传给预测函数,得到未来6个时期的预测数据。

auto.arima(cons)

image.png

fcast_cons <- forecast(fit_cons, h = 6)

image.png

练习3


绘制得到的预测图。

image.png

练习4


找出拟合的ARIMA模型的平均绝对误差(MASE)。

accuracy

image.png

练习5


为消费数据估计一个扩展的ARIMA模型,将温度变量作为一个额外的回归因子(使用auto.arima函数)。然后对未来6个时期进行预测(注意这个预测需要对期望温度进行假设;假设未来6个时期的温度将由以下向量表示:

fcast_temp <- c(70.5, 66, 60.5, 45.5, 36, 28))

绘制获得的预测图。

image.png

练习6


输出获得的预测摘要。找出温度变量的系数,它的标准误差,以及预测的MASE。将MASE与初始预测的MASE进行比较。

summary(fca)


image.png

温度变量的系数是0.0028

该系数的标准误差为0.0007

平均绝对比例误差为0.7354048,小于初始模型的误差(0.8200619)。

 

练习7


检查温度变量系数的统计意义。该系数在5%的水平上是否有统计学意义?

test(fit)

image.png

练习8


估计ARIMA模型的函数可以输入更多的附加回归因子,但只能以矩阵的形式输入。创建一个有以下几列的矩阵。

温度变量的值。

收入变量的值。

滞后一期的收入变量的值。

滞后两期的收入变量的值。

输出该矩阵。

注意:最后三列可以通过在收入变量值的向量中添加两个NA来创建,并将得到的向量作为嵌入函数的输入(维度参数等于要创建的列数)。

vars <- cbind(temp, income)
print(vars)

image.png

 

练习9


使用获得的矩阵来拟合三个扩展的ARIMA模型,使用以下变量作为额外的回归因子。

温度、收入。

温度、收入的滞后期为0、1。

温度,滞后期为0、1、2的收入。

检查每个模型的摘要,并找到信息准则(AIC)值最低的模型。

注意AIC不能用于比较具有不同阶数的ARIMA模型,因为观察值的数量不同。例如,非差分模型ARIMA(p,0,q)的AIC值不能与差分模型ARIMA(p,1,q)的相应值进行比较。

auto.arima(cons, xreg = var)
print(fit0$aic)

image.png

可以使用AIC,因为各模型的参数阶数相同(0)。

AIC值最低的模型是第一个模型。

它的AIC等于-113.3。

 

练习10


使用上一练习中发现的模型对未来6个时期进行预测,并绘制预测图。预测需要一个未来6个时期的期望温度和收入的矩阵;使用temp变量和以下期望收入值创建矩阵:91, 91, 93, 96, 96, 96。

找出该模型的平均绝对比例误差,并与本练习集中前两个模型的误差进行比较。

image.png

image.png

带有两个外部回归因子的模型具有最低的 平均绝对比例误差(0.528)

相关文章
|
6月前
【R语言实战】——带有高斯新息的金融时序的GARCH模型拟合预测及VAR/ES风险度量
【R语言实战】——带有高斯新息的金融时序的GARCH模型拟合预测及VAR/ES风险度量
|
6月前
【R语言实战】——带有新息为标准学生t分布的金融时序的GARCH模型拟合预测
【R语言实战】——带有新息为标准学生t分布的金融时序的GARCH模型拟合预测
|
2月前
|
机器学习/深度学习 算法 前端开发
R语言基础机器学习模型:深入探索决策树与随机森林
【9月更文挑战第2天】决策树和随机森林作为R语言中基础且强大的机器学习模型,各有其独特的优势和适用范围。了解并熟练掌握这两种模型,对于数据科学家和机器学习爱好者来说,无疑是一个重要的里程碑。希望本文能够帮助您更好地理解这两种模型,并在实际项目中灵活应用。
|
3月前
|
数据采集 存储 数据可视化
R语言时间序列分析:处理与建模时间序列数据的深度探索
【8月更文挑战第31天】R语言作为一款功能强大的数据分析工具,为处理时间序列数据提供了丰富的函数和包。从数据读取、预处理、建模到可视化,R语言都提供了灵活且强大的解决方案。然而,时间序列数据的处理和分析是一个复杂的过程,需要结合具体的应用场景和需求来选择合适的方法和模型。希望本文能为读者在R语言中进行时间序列分析提供一些有益的参考和启示。
|
3月前
|
资源调度 数据挖掘
R语言回归分析:线性回归模型的构建与评估
【8月更文挑战第31天】线性回归模型是统计分析中一种重要且实用的工具,能够帮助我们理解和预测自变量与因变量之间的线性关系。在R语言中,我们可以轻松地构建和评估线性回归模型,从而对数据背后的关系进行深入的探索和分析。
|
6月前
【R语言实战】——Logistic回归模型
【R语言实战】——Logistic回归模型
|
2月前
|
数据采集 机器学习/深度学习 数据可视化
R语言从数据到决策:R语言在商业分析中的实践
【9月更文挑战第1天】R语言在商业分析中的应用广泛而深入,从数据收集、预处理、分析到预测模型构建和决策支持,R语言都提供了强大的工具和功能。通过学习和掌握R语言在商业分析中的实践应用,我们可以更好地利用数据驱动企业决策,提升企业的竞争力和盈利能力。未来,随着大数据和人工智能技术的不断发展,R语言在商业分析领域的应用将更加广泛和深入,为企业带来更多的机遇和挑战。
|
23天前
|
数据挖掘 C语言 C++
R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。
【10月更文挑战第21天】时间序列分析是一种重要的数据分析方法,广泛应用于经济学、金融学、气象学、生态学等领域。R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。本文将介绍使用R语言进行时间序列分析的基本概念、方法和实例,帮助读者掌握R语言在时间序列分析中的应用。
41 3
|
6月前
|
数据可视化 数据挖掘 API
【R语言实战】聚类分析及可视化
【R语言实战】聚类分析及可视化
|
6月前
|
机器学习/深度学习 数据可视化
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为2
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为