【数据挖掘】使用移动平均预测道琼斯、纳斯达克、标准普尔指数——Python中的基本数据操作和可视化

简介: 本文将使用简单移动平均预测道琼斯、纳斯达克、标准普尔指数。作为技术分析中⼀种分析时间序列的常⽤⼯具,常被应⽤于股票价格序列。移动平均可过滤⾼频噪声,反映出中⻓期低频趋势,辅助投资者做出投资判断。

@TOC

一、介绍

移动平均(Moving Average,MA),⼜称移动平均线,简称均线。作为技术分析中⼀种分析时间序列的常⽤⼯具,常被应⽤于股票价格序列。移动平均可过滤⾼频噪声,反映出中⻓期低频趋势,辅助投资者做出投资判断。

流⾏的移动平均包括简单移动平均、加权移动平均、指数移动平均,更⾼阶的移动平均算法则有分形⾃适应移动平均、赫尔移动平均等。

而本文将使用简单移动平均预测道琼斯、纳斯达克、标准普尔指数

二、下载数据

下载S&P、Dow、Nasdaq数据并将其保存至文件夹内,数据已经打包好了:CSDN下载:琼斯、纳斯达克、标准普尔指数-数据挖掘数据集包

下载后的csv数据如下所示:

在这里插入图片描述

三、获取数据

获取数据我们使用pandas的read_csv函数,如:data = pd.read_csv('S&P.csv',header=0)

pd.read_csv函数用法:pd.read_csv(filepath_or_buffer,header,parse_dates,index_co)l

参数名 用法
filepath_or_buffer 字符串,或者任何对象的read()方法。这个字符串可以是URL,有效的URL方案包括http、ftp、s3和文件。可以直接写入"文件名.csv"
header 将行号用作列名,且是数据的开头

获取数据之后,我们可以打印一下数据:print(data),可以看到已经成功读取到csv数据:

在这里插入图片描述

四、分析数据

在这里插入图片描述

如上图所示,数据格式为csv,其中Date表示开盘的日期,Open表示开盘价,High表示当日最高值,Low表示当日最低值,Close表示收盘价格,Adj Close表示调整后的收盘价格,Volume表示当日成交量。我们需要预测的则是Adj Close这一列

我们可以使用pandas读取csv文件,并打印出Adj Close这一列:

import pandas as pd
data = pd.read_csv('DOW.csv',header=0)
data = data.applymap(str)
print(data['Adj Close'])

结果如下,可以看到在道琼斯数据集中,我们需要预测的Adj Close有798行,type为object,我们要做的就是根据数据,使用移动平均算法,预测后面的指数。

在这里插入图片描述

五、移动平均预测

移动平均值,就是指定时间段,对时间序列数据进行移动计算平均值。移动平均值常常用在计算股票的移动平均线、存货成本等方面。移动平均的本质是⼀种低通滤波。它的⽬的是过滤掉时间序列中的⾼频扰动,保留有⽤的低频趋势。计算公式image.png

比如若依次得到测定值image.png,按顺序取一定个数所做的全部算术平均值就是移动平均值,如image.png

panda提供了rolling函数可以用来计算移动平均,使用简单,速度较快:

DataFrame.rolling(window, min_periods=None, freq=None, center=False, win_type=None, on=None, axis=0, closed=None)

参数 用法
window 表示时间窗的大小,注意有两种形式(int or offset)。如果使用int,则数值表示计算统计量的观测值的数量即向前几个数据。如果是offset类型,表示时间窗的大小。
min_periods 最少需要有值的观测点的数量,对于int类型,默认与window相等。对于offset类型,默认为1。
freq 不用管,从0.18版本中已经被舍弃。
win_type 窗口类型,不用管,默认为None一般不特殊指定
on 对于DataFrame如果不使用index(索引)作为rolling的列,那么用on来指定使用哪列。
closed 定义区间的开闭,不用管,新版本中已经被舍弃
axis 方向(轴),一般都是0。
center 是否使用window的中间值作为label,默认为false。只能在window是int时使用。

那么我们使用的简单移动平均直接使用:data['ma5'] = data['Adj Close'].rolling(5).mean(),其表示窗口大小为5的移动平均。计算后,使用matplotlib.pyplot进行画图,横轴为时间,竖轴为预测价格,将其在pyplot 图中打印:

import matplotlib.pyplot as plt
fig = plt.figure(figsize=(16,9))
ax1 = fig.add_subplot(111, ylabel='Price')
data.ma5.plot(ax=ax1, color='plum', lw=2., legend=True)

效果如下:

在这里插入图片描述

我们以同样方法画出多个均线并且和原数据real对比:

data['real'] = data['Adj Close'].rolling(1).mean()
data['ma5'] = data['Adj Close'].rolling(5).mean()
data['ma10'] = data['Adj Close'].rolling(10).mean()
data['ma20'] = data['Adj Close'].rolling(20).mean()
data['ma30'] = data['Adj Close'].rolling(30).mean()
data['ma50'] = data['Adj Close'].rolling(50).mean()
data['ma100'] = data['Adj Close'].rolling(100).mean()
data['ma200'] = data['Adj Close'].rolling(200).mean()
data['ma250'] = data['Adj Close'].rolling(250).mean()
data.tail()
fig = plt.figure(figsize=(16,9))
ax1 = fig.add_subplot(111, ylabel='Price')
data.real.plot(ax=ax1, color='black', lw=2., legend=True)
data.ma5.plot(ax=ax1, color='plum', lw=2., legend=True)
data.ma10.plot(ax=ax1, color='grey', lw=2., legend=True)
data.ma20.plot(ax=ax1, color='salmon', lw=2., legend=True)
data.ma30.plot(ax=ax1, color='goldenrod', lw=2., legend=True)
data.ma50.plot(ax=ax1, color='hotpink', lw=2., legend=True)
data.ma100.plot(ax=ax1, color='khaki', lw=2., legend=True)
data.ma200.plot(ax=ax1, color='bisque', lw=2., legend=True)
data.ma250.plot(ax=ax1, color='skyblue', lw=2., legend=True)
plt.grid()
plt.show()

在这里插入图片描述

可以发现,移动平均存在一定的滞后性,移动平均以滞后性的代价换来了平滑性,滞后性说明由简单移动平均计算得到的低频趋势对近期的最新数据不够敏感。没有未来数据便是滞后的根本原因。当股价不是随着趋势的变化方向,发生突发的方向趋势,移动平均线行动往往过于迟缓,改变方向速度落后于大趋势。这是一个极大弱点

在股价原有趋势发生反转时,由于MA的追踪趋势的特性,MA的行动往往过于迟缓,掉头速度落后于大趋势。这是MA的一个极大的弱点。等MA发出反转信号时,股价调头的深度已经很大了。

附录DOW在不同MA值下的滑动平均值:

在这里插入图片描述

Nasdaq在不同MA值下的滑动平均值:

在这里插入图片描述

S&P在不同MA值下的滑动平均值:

在这里插入图片描述

六、封装函数

我们将其进行封装如下,代码整体如下:

import matplotlib.pyplot as plt
import pandas as pd
import os
def cal_ma(name,data, day):
    data = pd.read_csv(data, header=0)
    data = data.applymap(str)
    # print(data['Date'])
    # print(data['Adj Close'])
    day = int(day)
    data['ma'+str(day)] = data['Adj Close'].rolling(day).mean()
    data.tail()
    fig = plt.figure(figsize=(16, 9))
    ax1 = fig.add_subplot(111, ylabel='Price')
    data['ma'+str(day)].plot(ax=ax1, color='red', lw=2., legend=True)
    plt.rcParams['font.sans-serif'] = ['FangSong']
    plt.title("MA"+str(day)+" about "+name+" data", fontsize=10, loc='center', color='black')
    plt.grid()
    plt.show()
if __name__ == "__main__":
    dataname = input("请输入数据名:")
    day = input("请输入MA的天数:")
    cal_ma(dataname,dataname+'.csv', day)

完整项目已经打包,免费下载:数据挖掘项目——移动平均预测道琼斯、纳斯达克、标准普尔指数

最后

💖 个人简介:人工智能领域研究生,目前主攻文本生成图像(text to image)方向

📝 关注我:中杯可乐多加冰

🔥  限时免费订阅:文本生成图像T2I专栏

🎉 支持我:点赞👍+收藏⭐️+留言📝

如果这篇文章帮助到你很多,希望能点击下方打赏我一杯可乐!多加冰哦

相关文章
|
4天前
|
数据处理 Python
如何使用Python的Pandas库进行数据排序和排名
【4月更文挑战第22天】Pandas Python库提供数据排序和排名功能。使用`sort_values()`按列进行升序或降序排序,如`df.sort_values(by='A', ascending=False)`。`rank()`函数用于计算排名,如`df['A'].rank(ascending=False)`。多列操作可传入列名列表,如`df.sort_values(by=['A', 'B'], ascending=[True, False])`和分别对'A'、'B'列排名。
14 2
|
3天前
|
机器学习/深度学习 数据挖掘 网络架构
Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析
Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析
15 0
|
3天前
|
机器学习/深度学习 算法 数据挖掘
PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享-2
PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享
28 1
|
3天前
|
机器学习/深度学习 算法 算法框架/工具
数据分享|PYTHON用KERAS的LSTM神经网络进行时间序列预测天然气价格例子
数据分享|PYTHON用KERAS的LSTM神经网络进行时间序列预测天然气价格例子
23 0
|
1天前
|
机器学习/深度学习 存储 监控
数据分享|Python卷积神经网络CNN身份识别图像处理在疫情防控下口罩识别、人脸识别
数据分享|Python卷积神经网络CNN身份识别图像处理在疫情防控下口罩识别、人脸识别
|
1天前
|
机器学习/深度学习 数据采集 算法
Python信贷风控模型:Adaboost,XGBoost,SGD, SVC,随机森林, KNN预测信贷违约支付|数据分享
Python信贷风控模型:Adaboost,XGBoost,SGD, SVC,随机森林, KNN预测信贷违约支付|数据分享
Python信贷风控模型:Adaboost,XGBoost,SGD, SVC,随机森林, KNN预测信贷违约支付|数据分享
|
1天前
|
移动开发 算法 数据可视化
数据分享|Spss Modeler关联规则Apriori模型、Carma算法分析超市顾客购买商品数据挖掘实例
数据分享|Spss Modeler关联规则Apriori模型、Carma算法分析超市顾客购买商品数据挖掘实例
|
1天前
|
JSON 数据可视化 定位技术
python_将包含汉字的字典数据写入json(将datav的全省数据中的贵州区域数据取出来)
python_将包含汉字的字典数据写入json(将datav的全省数据中的贵州区域数据取出来)
4 0
|
2天前
|
数据采集 数据可视化 数据处理
Python从入门到精通的文章3.3.1 深入学习Python库和框架:数据处理与可视化的利器
Python从入门到精通的文章3.3.1 深入学习Python库和框架:数据处理与可视化的利器
|
2天前
|
机器学习/深度学习 算法 Python
数据分享|Python决策树、随机森林、朴素贝叶斯、KNN(K-最近邻居)分类分析银行拉新活动挖掘潜在贷款客户
数据分享|Python决策树、随机森林、朴素贝叶斯、KNN(K-最近邻居)分类分析银行拉新活动挖掘潜在贷款客户
21 4