Prophet模型的简介以及案例分析(上)

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: Prophet模型的简介以及案例分析

前言


prophet是facebook开源的一个时间序列预测算法。


一、Prophet安装以及简介


1、简介:时间序列预测算法Prophet是Facebook团队开源的一个时间序列预测算法,该算法结合了时间序列分解以及机器学习算法,并且可以对存在缺失值和异常值的时间序列进行预测。

2、安装:

使用conda命令:(如果没有安装anaconda请查看我的另一篇文章:Anaconda以及一些常用操作.)

conda install pystan
conda install -c conda-forge prophet


二、适用场景


适用于有明显内在规律的、周期性的数据,比如说季节性变化,节假日趋势。


三、算法的输入输出

0d3a8fb9eb374d5b9b2d39a68be8ce0b.png

黑色的点:表示原始的时间序列离散点

深蓝色的线:表示使用时间序列来拟合所得到的取值

浅蓝色的线:表示时间序列的一个置信区间,也就是所谓的合理的上界和下界

Prophet模型的输入输出:输入已知的时间序列的时间戳和相应的值;输入需要预测的时间序列的长度;输出未来的时间序列走势。输出结果可以提供必要的统计指标,包括拟合曲线,上界和下界等。

传入prophet的数据:分为两列,ds和y,ds表示时间序列的时间戳(是pandas的日期格式),y表示时间序列的取值(数值型数据),Prophet的默认字段,必须用命名为ds和y这两列。一般情况下,y要进行归一化


df['y'] = (df['y'] - df['y'].mean()) / (df['y'].std())

prophet输出的预测值:yhat,表示时间序列的预测值;yhat_lower,代表的是预测值的下界;yhat_upper,代表的是预测值的上界。


四、算法原理


1、原理:由于现实中,时间序列常常是由趋势项,季节项,节假日效应和突发事件以及残差项组成,所以Prophet算法采用了时间序列分解的方法,它把时间序列分为了这几个部分:

image.png


其中的 g ( t ) g(t)g(t)表示趋势项,它体现了时间序列的非周期变化趋势; s ( t ) s(t)s(t)表示季节项,它体现了时间序列的周期性变化,如每周,每年的这种季节性变化;h ( t ) h(t)h(t)表示节假日项,它体现了节假日等持续一天到几天的无规律变化;最后的 α αα表示残差项,通常是正态分布的。然后各项分别被拟合,最后的累加结果即是Prophet算法的预测结果。

2、优点

(1)、测量数据不需要有规律的间隔。

(2)、我们不需要插入缺失的值或者是删除离群值, 即Prophet对缺失值友好,对异常值敏感。

(3)、预测模型的参数很容易解释。

3、其他调优策略

(1)、模型默认是按照线性趋势增长的,但是如果按照log方式增长,可以调节growth = ‘logistic’, 逻辑回归模型。

(2)、当我们预先知道某天会影响数据的整体走势,可以将此天设置为转折点。

(3)、针对节假日,可以通过holday来进行调节,针对不同的假期,可以调整不同的前后窗口期。例如:春节有7日,但是春运影响将近30日。


五、使用时可以设置的参数


Prophet的默认参数

def __init__(
    self,
    growth='linear',
    changepoints=None,
    n_changepoints=25, 
    changepoint_range=0.8,
    yearly_seasonality='auto',
    weekly_seasonality='auto',
    daily_seasonality='auto',
    holidays=None,
    seasonality_mode='additive',
    seasonality_prior_scale=10.0,
    holidays_prior_scale=10.0,
    changepoint_prior_scale=0.05,
    mcmc_samples=0,
    interval_width=0.80,
    uncertainty_samples=1000,
):

1、growth:增长趋势模型,分为“linear”与“logistic”,分别代表线性与非线性的增长,默认值为linear。

2、Capacity:在增量函数是逻辑回归函数的时候,需要设置的容量值,表示非线性增长趋势中限定的最大值,预测值将在该点达到饱和.

3、Change Points:可以通过 n_changepoints 和 changepoint_range 来进行等距的变点设置,也可以通过人工设置的方式来指定时间序列的变点,默认值:“None”.

4、n_changepoints:用户指定潜在的”changepoint”的个数,默认值:25。

5、changepoint_prior_scale:增长趋势模型的灵活度。调节”changepoint”选择的灵活度,值越大,选择的”changepoint”越多,从而使模型对历史数据的拟合程度变强,然而也增加了过拟合的风险。默认值:0.05。

6、seasonality_prior_scale(seasonality模型中的):调节季节性组件的强度。值越大,模型将适应更强的季节性波动,值越小,越抑制季节性波动,默认值:10.0.

7、holidays_prior_scale(holidays模型中的):调节节假日模型组件的强度。值越大,该节假日对模型的影响越大,值越小,节假日的影响越小,默认值:10.0。

8、freq:数据中时间的统计单位(频率),默认为”D”,按天统计.

9、periods:需要预测的未来时间的个数。例如按天统计的数据,想要预测未来一年时间内的情况,则需填写365。

10、mcmc_samples:mcmc采样,用于获得预测未来的不确定性。若大于0,将做mcmc样本的全贝叶斯推理,如果为0,将做最大后验估计,默认值:0。

11、interval_width:衡量未来时间内趋势改变的程度。表示预测未来时使用的趋势间隔出现的频率和幅度与历史数据的相似度,值越大越相似,默认值:0.80。当mcmc_samples = 0时,该参数仅用于增长趋势模型的改变程度,当mcmc_samples > 0时,该参数也包括了季节性趋势改变的程度。

12、uncertainty_samples:用于估计未来时间的增长趋势间隔的仿真绘制数,默认值:1000。


13、yearly_seasonality: 数据是否有年季节性,默认“自动检测”。

14、weekly_seasonality: 数据是否有周季节性,默认“自动检测”。

15、daily_seasonality: 数据是否有天季节性,默认“自动检测”。

16、seasonality_mode: 季节性效应模式,默认加法模式“additive”,可选“multiplicative”乘法模式。


六、学习资料参考

七、模型应用

7-1、股票收盘价格预测

7-1-1、导入相关库

from prophet import Prophet
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

7-1-2、读取数据

# 读取数据
df = pd.read_csv('./018/000001_Daily_2006_2017.csv')
# 选择日期和收盘价
df = df[['date','Close']]

数据: 我们只需要其中的日期和收盘价,即date和Close这两列。


04d64521613c44fca9a3f2b5d0933559.png


7-1-3、数据预处理以及进行训练集和测试集的划分。

# 注意:Prophet模型对于数据格式有要求,日期字段必须是datetime格式,这里通过pd.to_datetime来进行转换。
df['date'] = pd.to_datetime(df['date'])
# 这里需要将收盘价进行log处理,可以理解为归一化,注意最终绘图的时候需要将收盘价复原。
df['Close'] = np.log(df['Close'])
# 更改列名,更改为Prophet指定的列名ds和y
df = df.rename(columns={'date': 'ds', 'Close': 'y'})
# 划分数据,划分为训练集和验证集,将前十年的数据作为训练集,后一年的数据作为测试集。
df_train = df[:2699]
df_test = df[2699:]

现在的df如图所示



e1bc476cdcb4458ba06f7ce4184f1b93.png

观察数据:观察历史数据,看出来一点点趋势。

import plotly.express as px
fig = px.line(df_train, x="ds", y="y")
fig.show()



14652e00b95142d8bf76bb7eda0c1768.png


7-1-4、实例化Prophet对象,并且通过fit来训练模型

model = Prophet()
model.fit(df_train)
# make_future_dataframe: 作用是告诉模型我们要预测多长时间,以及时间的周期是什么。这里设置为365,即预测一年时间的数据。
# 
future = model.make_future_dataframe(periods=365, freq='D')
# 进行预测,返回预测的结果forecast
forecast = model.predict(future)
# forecast['additive_terms'] = forecast['weekly'] + forecast['yearly'];
# 有:forecast['yhat']  = forecast['trend'] +  forecast['additive_terms'] 。
# 因此:forecast['yhat']  = forecast['trend'] +forecast['weekly'] + forecast['yearly']。
# 如果有节假日因素,那么就会有forecast['yhat']  = forecast['trend'] +forecast['weekly'] + forecast['yearly'] + forecast['holidays']。
forecast


forecast表示:Dataframe中包含了很多预测结果的信息,其中yhat表示预测的结果。


7d6c9f571b3344e68a518920cbd9793d.png

7-1-5、数据可视化

# 对数据机型可视化操作,黑点表示真实数据,蓝线表示预测结果。蓝色区域表示一定置信程度下的预测上限和下限。
model.plot(forecast)
plt.show()
# 通过plot_componets()可以实现对数据的年、月、周不同时间周期下趋势性的可视化。
model.plot_components(forecast)


数据可视化06b5ef9ac13e4d2ca8a3598b06fb21d2.png


df8a0c2348824320a2ffe1f38a6f6507.png


170825fb4e1f4693a81919cd95e06bf0.png

7-1-6、将预测值和真实值做对比

# 测试,把ds列,即data_series列设置为索引列
df_test = df_test.set_index('ds')
# 把预测到的数据取出ds列,预测值列yhat,同样把ds列设置为索引列。
forecast = forecast[['ds','yhat']].set_index('ds')
# 把数据转换回去,因为之前经过了log函数
df_test['y'] = np.exp(df_test['y'])
forecast['yhat'] = np.exp(forecast['yhat'])
# join:按照索引进行连接,
# dropna:能够找到DataFrame类型数据的空值(缺失值),将空值所在的行/列删除后,将新的DataFrame作为返回值返回。
df_all = forecast.join(df_test).dropna()
df_all.plot()
# 设置左上角小标
plt.legend(['true', 'yhat'])
plt.show()

对比图



037188719f26414e95b87606727f1a39.png


总结:没有加任何trick的长期预测效果很差,但是可以看的出来短期的预测准确率还可以。


7-2、电量预测


7-2-1、导入相关库


import pandas as pd
from prophet import Prophet
import numpy as np
import math
import matplotlib.pyplot as plt


相关文章
|
2月前
|
机器学习/深度学习 算法 Python
【Python机器学习】朴素贝叶斯分类的讲解及预测决策实战(图文解释 附源码)
【Python机器学习】朴素贝叶斯分类的讲解及预测决策实战(图文解释 附源码)
89 0
|
2月前
|
数据可视化 数据挖掘
【视频】复杂网络分析CNA简介与R语言对婚礼数据聚类社区检测和可视化|数据分享
【视频】复杂网络分析CNA简介与R语言对婚礼数据聚类社区检测和可视化|数据分享
|
2月前
|
Web App开发 数据可视化 数据挖掘
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
|
2月前
|
数据可视化 数据挖掘
R语言复杂网络分析:聚类(社区检测)和可视化
R语言复杂网络分析:聚类(社区检测)和可视化
|
2月前
|
机器学习/深度学习 算法 前端开发
如何用R语言在机器学习中建立集成模型?
如何用R语言在机器学习中建立集成模型?
|
2月前
|
存储 数据可视化 数据挖掘
【数据分析与可视化】时间序列基础讲解与实战(图文解释 附源码)
【数据分析与可视化】时间序列基础讲解与实战(图文解释 附源码)
51 0
|
9月前
|
机器学习/深度学习 算法 数据挖掘
[笔记]机器学习之机器学习理论及案例分析《二》 聚类
[笔记]机器学习之机器学习理论及案例分析《二》 聚类
|
存储 数据采集 机器学习/深度学习
Prophet模型的简介以及案例分析(下)
Prophet模型的简介以及案例分析(下)
|
机器学习/深度学习 数据采集 数据可视化
Day01-机器学习-综合分类数据集(Python)
Day01-机器学习-综合分类数据集(Python)
113 0
|
机器学习/深度学习 算法 数据处理
ML之FE:数据处理—特征工程之稀疏特征的简介、如何处理、案例应用之详细攻略
ML之FE:数据处理—特征工程之稀疏特征的简介、如何处理、案例应用之详细攻略
ML之FE:数据处理—特征工程之稀疏特征的简介、如何处理、案例应用之详细攻略