Python实现对数据的ADF检验-阿里云开发者社区

Python实现对数据的ADF检验

2022-05-17 552

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 之前帮朋友做一个python项目，对一组的excel数据进行数据预警，如果数据异常就进行预警，通知开发人员进行处理，这里对数据的处理是进行adf检验，判断其是否数据异常，这篇文章就介绍python如何读取excel数据并对其进行adf检验。

之前帮朋友做一个python项目，对一组的excel数据进行数据预警，如果数据异常就进行预警，通知开发人员进行处理，这里对数据的处理是进行adf检验，判断其是否数据异常，这篇文章就介绍python如何读取excel数据并对其进行adf检验。

在这里先介绍下什么是ADF检验。

在使用很多时间序列模型的时候，如 ARMA、ARIMA，都会要求时间序列是平稳的，所以一般在研究一段时间序列的时候，第一步都需要进行平稳性检验，除了用肉眼检测的方法，另外比较常用的严格的统计检验方法就是ADF检验，也叫做单位根检验。

ADF检验全称是 Augmented Dickey-Fuller test，顾名思义，ADF是 Dickey-Fuller检验的增广形式。DF检验只能应用于一阶情况，当序列存在高阶的滞后相关时，可以使用ADF检验，所以说ADF是对DF检验的扩展。

ADF检验就是判断序列是否存在单位根：如果序列平稳，就不存在单位根；否则，就会存在单位根。

所以，ADF检验的 H0 假设就是存在单位根，如果得到的显著性检验统计量小于三个置信度（10%，5%，1%），则对应有（90%，95，99%）的把握来拒绝原假设。

检验的对象叫做单位根。当一个自回归过程中：

如果滞后项系数b为1，就称为单位根。当单位根存在时，自变量和因变量之间的关系具有欺骗性，因为残差序列的任何误差都不会随着样本量（即时期数）增大而衰减，也就是说模型中的残差的影响是永久的。这种回归又称作伪回归。如果单位根存在，这个过程就是一个随机漫步（random walk）。

在python中可以使用statsmodels 模块进行adf检验，这个模块提供了很多统计模型。

其使用方法如下：

首先需要导入adfuller函数

from statsmodels.tsa.stattools import adfuller
复制代码

这里说明下adfuller函数的参数意义：

x：一维的数据序列。

maxlag：最大滞后数目。

regression：回归中的包含项（c：只有常数项，默认；ct：常数项和趋势项；ctt：常数项，线性二次项；nc：没有常数项和趋势项）

autolag：自动选择滞后数目（AIC：赤池信息准则，默认；BIC：贝叶斯信息准则；t-stat：基于maxlag，从maxlag开始并删除一个滞后直到最后一个滞后长度基于 t-statistic 显著性小于5%为止；None：使用maxlag指定的滞后）

store：True False，默认。

regresults：True 完整的回归结果将返回。False，默认。

另外返回值意义为：

adf：Test statistic，T检验，假设检验值。

pvalue：假设检验结果。

usedlag：使用的滞后阶数。

nobs：用于ADF回归和计算临界值用到的观测值数目。

icbest：如果autolag不是None的话，返回最大的信息准则值。

resstore：将结果合并为一个dummy。

以上都是对其基本概念的介绍，接下来就上代码：

这里excel的样例数据如下：

05bcccb1b2264dcd9d9477bc1f3a8cf4~tplv-k3u1fbpfcp-zoom-in-crop-mark_1304_0_0_0.webp.jpg

import xlrd
import pandas as pd
import matplotlib.pyplot as plt
from statsmodels.graphics.tsaplots import plot_acf
from statsmodels.tsa.stattools import adfuller
import pandas as pd
import numpy as np
import datetime 
endtime = datetime.datetime.now()
starttime = datetime.datetime.now()-datetime.timedelta(minutes=5)
x_data=[]
y_data=[]
data = xlrd.open_workbook(r'C:\Users\Jiang\Desktop\test.xlsx')
table = data.sheets()[0]
cap = table.col_values(2)
cap1 = table.col_values(0)
for i in range(1,len(cap)):
    x_data.append(cap1[i])
    y_data.append(cap[i])
adf_seq = np.array(y_data)
dftest = adfuller(adf_seq,autolag='AIC')
if dftest[1]>0.05:
    print(starttime)
    print(endtime)
    print(dftest)
    print("当前接通率不平稳")
else:
    print(dftest[1])
    print(starttime)
    print(endtime)
    print(dftest)
    print("当前接通率平稳")
#画折线图
#用来正常显示中文标签
plt.rcParams['font.sans-serif']=['SimHei'] 
plt.plot(x_data, y_data, 'g-s')
plt.title('接通率')
plt.legend()
plt.xlabel('id')
plt.ylabel('接通率')
plt.show()
复制代码

折线图结果：

ea870caae16b40258f0360b90d5dde7b~tplv-k3u1fbpfcp-zoom-in-crop-mark_1304_0_0_0.webp.jpg

ADF检验结果

微信截图_20220517194827.png

数据结果说明：

第一个值：表示Test Statistic ，即T值，表示T统计量

第二个值：p-value，即p值，表示T统计量对应的概率值

第三个值：Lags Used，即表示延迟

第四个值：Number of Observations Used，即表示测试的次数

大括号中的值，分别表示1%， 5%， 10% 的三个level。

可以看到p-value的值大于5%，所以可以认为该数据是不平稳的。

这里的5%是常用的阈值，也可以根据自己的实际需求进行设定。

以上就是通过python对数据进行adf根检验的例子。这里主要涉及到了如果读取excel数据并进行处理，另外核心就是使用statsmodels 的adfuller函数进行adf根检验。

Python实现对数据的ADF检验

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Python实现对数据的ADF检验

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像