Python时间序列分析苹果股票数据:分解、平稳性检验、滤波器、滑动窗口平滑、移动平均、可视化(上)

简介: Python时间序列分析苹果股票数据:分解、平稳性检验、滤波器、滑动窗口平滑、移动平均、可视化

全文链接:https://tecdat.cn/?p=33550


时间序列是一系列按时间顺序排列的观测数据。数据序列可以是等间隔的,具有特定频率,也可以是不规则间隔的,比如电话通话记录点击文末“阅读原文”获取完整代码数据


什么是时间序列?

在进行投资和交易研究时,对于时间序列数据及其操作要有专业的理解。本文将重点介绍如何使用Python和Pandas帮助客户进行时间序列分析来分析股票数据。

理解日期时间和时间差

在我们完全理解Python中的时间序列分析之前,了解瞬时、持续时间和时间段的差异非常重要。

类型 描述 例子
日期(瞬时) 一年中的某一天 2019年9月30日,2019年9月30日
时间(瞬时) 时间上的单个点 6小时,6.5分钟,6.09秒,6毫秒
日期时间(瞬时) 日期和时间的组合 2019年9月30日06:00:00,2019年9月30日上午6:00
持续时间 两个瞬时之间的差异 2天,4小时,10秒
时间段 时间的分组 2019第3季度,一月


Python的Datetime模块

datetime模块提供了在简单和复杂方式下进行日期和时间操作的类。

创建瞬时

日期、日期时间和时间都是单独的类,我们可以通过多种方式创建它们,包括直接创建和通过字符串解析。

now = datetime.datetime.today()
today = datetime.date.today()
print(now)
print(today)

创建持续时间

timedeltas 表示时间的持续时间。它们可以与时间点相加或相减。

past = now - alldelta
print(type(future))
print(future)
print(type(past))
print(past)

访问日期时间属性

类和对象属性可以帮助我们分离出我们想要看到的信息。我列出了最常见的属性,但你可以在datetime模块的文档上找到详尽的列表。

类/对象 属性 描述
共享类属性 class.min 可表示的最早日期、datetime、time

class.max 可表示的最晚日期、datetime、time

class.resolution 两个日期、datetimes 或 times 之间的最小差值
日期/日期时间 object.year 返回年份

object.month 返回月份(1 - 12)

object.day 返回日期(1-32)
时间/日期时间 object.hour 返回小时(0-23)

object.minute 返回分钟(0-59)

object.second 返回秒数(0-59)


print(datetime.datetime.min)
print(datetime.datetime.max)
print(datetime1.microsecond)

在Pandas中创建时间序列

让我们获取由Intrinio开发者沙盒提供的苹果股票历史数据。

apple_price_history = pd.read_csv(f)
apple_price_history[['open', 'high', 'low', 'close', 'volume']].head()

image.png

让我们查看数据框的数据类型或 dtypes,看看是否有任何日期时间信息。

让我们将数据框的 RangeIndex 更改为 DatetimeIndex。为了好看,我们将展示如何使用 read_csv 用 DatetimeIndex 读取数据。

apptime64)
apple_price_history.dtypes

image.png

print(apple_price_history[['open', 'high', 'low', 'close']].head())
apple_price_history.index[0:10]

image.png

import numpy as np
import urllib.request
                                    index_col='date',
                                    usecols=['date',
                                             'adj_open',
                                             'adj_high',
                                             'adj_low',
                                             'adj_close',
                                             'adj_volume'])
apple_price_history.columns = names
print(apple_price_history.head())

image.png

添加日期时间字符串

通常,日期的格式可能是无法解析的。我们可以使用dt.strftime将字符串转换为日期。在创建 sp500数据集 时,我们使用了strptime

sp500.loc[:,'date'].apply(lambda x: datetime.strptime(x,'%Y-%m-%d'))

时间序列选择

按日、月或年选择日期时间

现在我们可以使用索引和loc轻松选择和切片日期。

apple_price_history.loc['2018-6-1']

image.png

使用日期时间访问器

dt访问器具有多个日期时间属性和方法,可以应用于系列的日期时间元素上,这些元素在Series API文档中可以找到。

属性 描述
Series.dt.date 返回包含Python datetime.date对象的numpy数组(即,没有时区信息的时间戳的日期部分)。
Series.dt.time 返回datetime.time的numpy数组。
Series.dt.timetz 返回还包含时区信息的datetime.time的numpy数组。
Series.dt.year 日期的年份。
Series.dt.month 月份,其中一月为1,十二月为12。
Series.dt.day 日期的天数。
Series.dt.hour 时间的小时。
Series.dt.minute 时间的分钟。
Series.dt.second 时间的秒数。
Series.dt.microsecond 时间的微秒数。
Series.dt.nanosecond 时间的纳秒数。
Series.dt.week 年的星期序数。
Series.dt.weekofyear 年的星期序数。
Series.dt.dayofweek 星期几,星期一为0,星期日为6。
Series.dt.weekday 星期几,星期一为0,星期日为6。
Series.dt.dayofyear 年的第几天的序数。
Series.dt.quarter 季度。
Series.dt.is_month_start 表示日期是否为月的第一天。
Series.dt.is_month_end 表示日期是否为月的最后一天。
Series.dt.is_quarter_start 表示日期是否为季度的第一天。
Series.dt.is_quarter_end 表示日期是否为季度的最后一天。
Series.dt.is_year_start 表示日期是否为年的第一天。
Series.dt.is_year_end 表示日期是否为年的最后一天。
Series.dt.is_leap_year 表示日期是否为闰年。
Series.dt.daysinmonth 月份中的天数。
Series.dt.days_in_month 月份中的天数。
Series.dt.tz 返回时区(如果有)。
Series.dt.freq

 

方法 描述
Series.dt.to_period(self, *args, **kwargs) 将数据转换为特定频率的PeriodArray/Index。
Series.dt.to_pydatetime(self) 将数据返回为本机Python datetime对象的数组。
Series.dt.tz_localize(self, *args, **kwargs) 将时区非感知的Datetime Array/Index本地化为时区感知的Datetime Array/Index。
Series.dt.tz_convert(self, *args, **kwargs) 将时区感知的Datetime Array/Index从一个时区转换为另一个时区。
Series.dt.normalize(self, *args, **kwargs) 将时间转换为午夜。
Series.dt.strftime(self, *args, **kwargs) 使用指定的日期格式转换为索引。
Series.dt.round(self, *args, **kwargs) 对数据执行舍入操作,将其舍入到指定的频率。
Series.dt.floor(self, *args, **kwargs) 对数据执行floor操作,将其舍入到指定的频率。
Series.dt.ceil(self, *args, **kwargs) 对数据执行ceil操作,将其舍入到指定的频率。
Series.dt.month_name(self, *args, **kwargs) 返回具有指定区域设置的DateTimeIndex的月份名称。
Series.dt.day_name(self, *args, **kwargs) 返回具有指定区域设置的DateTimeIndex的星期几名称。


周期

print(df.dt.quarter)
print(df.dt.day_name())

image.png

DatetimeIndex包括与dt访问器大部分相同的属性和方法。

apple_price_history.index.day_name()

image.png

频率选择


当时间序列是均匀间隔的时,可以在Pandas中与频率关联起来。

pandas.date_range 是一个函数,我们可以创建一系列均匀间隔的日期。

dates = pd.date_range('2019-01-01', '2019-12-31', freq='D')
dates

image.png

除了指定开始或结束日期外,我们可以用一个周期来替代,并调整频率。

hours = pd.date_range('2019-01-01', periods=24, freq='H')
print(hours)

image.png

pandas.DataFrame.asfreq 返回具有新频率的数据帧或序列。对于数据中缺失的时刻,将添加新行并用NaN填充,或者使用我们指定的方法填充。通常需要提供偏移别名以获得所需的时间频率。

别名


别名 描述
B 工作日频率
C 定制的工作日频率
D 日历日频率
W 周频率
M 月底频率
SM 半月末频率(每月15日和月末)
BM 工作日月末频率
CBM 定制的工作日月末频率
MS 月初频率
SMS 半月初频率(每月1日和15日)
BMS 工作日月初频率
CBMS 定制的工作日月初频率
Q 季末频率
BQ 工作日季末频率
QS 季初频率
BQS 工作日季初频率
A, Y 年末频率
BA, BY 工作日年末频率
AS, YS 年初频率
BAS, BYS 工作日年初频率
BH 工作小时频率
H 小时频率
T, min 分钟频率
S 秒频率
L, ms 毫秒
U, us 微秒
N 纳秒


print(apple_quarterly_history.head())

image.png

填充数据


pandas.Series.asfreq 为我们提供一个填充方法来替换NaN值。

print(apple_price_history['close'].asfreq('H', method='ffill').head())

image.png

重新采样:上采样和下采样


pandas.Dataframe.resample 返回一个重新取样对象,与groupby对象非常相似,可以在其上运行各种计算。

我们经常需要降低(下采样)或增加(上采样)时间序列数据的频率。如果我们有每日或每月的销售数据,将其降采样为季度数据可能是有用的。或者,我们可能希望上采样我们的数据以匹配另一个用于进行预测的系列的频率。上采样较少见,并且需要插值。

print(apple_quarterly_history.agg({'high':'max', 'low':'min'})[:5])

image.png

现在我们可以使用我们上面发现的所有属性和方法。

print(apple_price_history.index.day_name())
Index(['Friday', 'Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday',
       'Monday', 'Tuesday', 'Wednesday', 'Friday',
       ...
       'Wednesday', 'Thursday', 'Friday', 'Monday', 'Tuesday', 'Wednesday',
       'Thursday', 'Friday', 'Monday', 'Tuesday'],
      dtype='object', name='date', length=9789)
print(datetime.to_period('Q'))
datetime.to_period('Q').end_time

image.png


Python时间序列分析苹果股票数据:分解、平稳性检验、滤波器、滑动窗口平滑、移动平均、可视化(下):https://developer.aliyun.com/article/1498627

相关文章
|
5月前
|
缓存 Rust 算法
从混沌到秩序:Python的依赖管理工具分析
Python 的依赖管理工具一直没有标准化,主要原因包括历史发展的随意性、社区的分散性、多样化的使用场景、向后兼容性的挑战、缺乏统一治理以及生态系统的快速变化。依赖管理工具用于处理项目中的依赖关系,确保不同环境下的依赖项一致性,避免软件故障和兼容性问题。常用的 Python 依赖管理工具如 pip、venv、pip-tools、Pipenv、Poetry 等各有优缺点,选择时需根据项目需求权衡。新工具如 uv 和 Pixi 在性能和功能上有所改进,值得考虑。
159 35
|
24天前
|
网络协议 API 开发者
分析http.client与requests在Python中的性能差异并优化。
合理地选择 `http.client`和 `requests`库以及在此基础上优化代码,可以帮助你的Python网络编程更加顺利,无论是在性能还是在易用性上。我们通常推荐使用 `requests`库,因为它的易用性。对于需要大量详细控制的任务,或者对性能有严格要求的情况,可以考虑使用 `http.client`库。同时,不断优化并管理员连接、设定合理超时和重试都是提高网络访问效率和稳定性的好方式。
67 19
|
22天前
|
XML JSON 安全
分析参数顺序对Python requests库进行POST请求的影响。
最后,尽管理论上参数顺序对POST请求没影响,但编写代码时仍然建议遵循一定的顺序和规范,比如URL总是放在第一位,随后是data或json,最后是headers,这样可以提高代码的可读性和维护性。在处理复杂的请求时,一致的参数顺序有助于调试和团队协作。
83 9
|
5月前
|
数据采集 数据可视化 数据挖掘
金融波动率的多模型建模研究:GARCH族与HAR模型的Python实现与对比分析
本文探讨了金融资产波动率建模中的三种主流方法:GARCH、GJR-GARCH和HAR模型,基于SPY的实际交易数据进行实证分析。GARCH模型捕捉波动率聚类特征,GJR-GARCH引入杠杆效应,HAR整合多时间尺度波动率信息。通过Python实现模型估计与性能比较,展示了各模型在风险管理、衍生品定价等领域的应用优势。
678 66
金融波动率的多模型建模研究:GARCH族与HAR模型的Python实现与对比分析
|
2月前
|
数据可视化 Python
【负荷预测】基于变分模态分解(VMD-CNN-LSTM)的短期电力负荷预测【Python】
本项目实现了一种基于变分模态分解(VMD)的短期电力负荷预测模型——VMD-CNN-LSTM。通过VMD技术将原始电力负荷数据分解为多个平稳子序列,结合温度和时间等特征构建矩阵,输入CNN-LSTM模型训练,最终叠加重构得到预测结果。此方法有效应对非线性和非平稳性引起的误差,精度高且稳定性强。程序采用Python编写,注释清晰,运行稳定,并提供直观的可视化结果。附带部分代码及详细运行结果展示,下载链接已提供。
|
2月前
|
数据采集 数据可视化 数据挖掘
基于Python的App流量大数据分析与可视化方案
基于Python的App流量大数据分析与可视化方案
|
1月前
|
存储 数据采集 大数据
Python推导式进阶指南:优雅初始化序列的科学与艺术
本文系统讲解Python推导式的用法与技巧,涵盖列表、字典、集合推导式及生成器表达式。通过代码示例和性能对比,展示推导式在数据结构初始化中的优势:简洁高效、执行速度快30%-50%。文章分析基础语法、核心应用场景(如序列构造、键值对转换、去重运算)及嵌套使用,并探讨使用边界与最佳实践,强调可读性优先原则。最后指出,合理运用推导式能显著提升代码质量和处理效率,同时避免过度复杂化的陷阱。
42 0
|
5月前
|
并行计算 安全 Java
Python GIL(全局解释器锁)机制对多线程性能影响的深度分析
在Python开发中,GIL(全局解释器锁)一直备受关注。本文基于CPython解释器,探讨GIL的技术本质及其对程序性能的影响。GIL确保同一时刻只有一个线程执行代码,以保护内存管理的安全性,但也限制了多线程并行计算的效率。文章分析了GIL的必要性、局限性,并介绍了多进程、异步编程等替代方案。尽管Python 3.13计划移除GIL,但该特性至少要到2028年才会默认禁用,因此理解GIL仍至关重要。
444 16
Python GIL(全局解释器锁)机制对多线程性能影响的深度分析
|
4月前
|
存储 索引 Python
Python入门:6.深入解析Python中的序列
在 Python 中,**序列**是一种有序的数据结构,广泛应用于数据存储、操作和处理。序列的一个显著特点是支持通过**索引**访问数据。常见的序列类型包括字符串(`str`)、列表(`list`)和元组(`tuple`)。这些序列各有特点,既可以存储简单的字符,也可以存储复杂的对象。 为了帮助初学者掌握 Python 中的序列操作,本文将围绕**字符串**、**列表**和**元组**这三种序列类型,详细介绍其定义、常用方法和具体示例。
Python入门:6.深入解析Python中的序列
|
4月前
|
存储 数据采集 数据库
Python爬虫实战:股票分时数据抓取与存储
Python爬虫实战:股票分时数据抓取与存储

推荐镜像

更多