【数据挖掘】使用移动平均预测道琼斯、纳斯达克、标准普尔指数——Python中的基本数据操作和可视化

简介: 本文将使用简单移动平均预测道琼斯、纳斯达克、标准普尔指数。作为技术分析中⼀种分析时间序列的常⽤⼯具,常被应⽤于股票价格序列。移动平均可过滤⾼频噪声,反映出中⻓期低频趋势,辅助投资者做出投资判断。

@TOC

一、介绍

移动平均(Moving Average,MA),⼜称移动平均线,简称均线。作为技术分析中⼀种分析时间序列的常⽤⼯具,常被应⽤于股票价格序列。移动平均可过滤⾼频噪声,反映出中⻓期低频趋势,辅助投资者做出投资判断。

流⾏的移动平均包括简单移动平均、加权移动平均、指数移动平均,更⾼阶的移动平均算法则有分形⾃适应移动平均、赫尔移动平均等。

而本文将使用简单移动平均预测道琼斯、纳斯达克、标准普尔指数

二、下载数据

下载S&P、Dow、Nasdaq数据并将其保存至文件夹内,数据已经打包好了:CSDN下载:琼斯、纳斯达克、标准普尔指数-数据挖掘数据集包

下载后的csv数据如下所示:

在这里插入图片描述

三、获取数据

获取数据我们使用pandas的read_csv函数,如:data = pd.read_csv('S&P.csv',header=0)

pd.read_csv函数用法:pd.read_csv(filepath_or_buffer,header,parse_dates,index_co)l

参数名 用法
filepath_or_buffer 字符串,或者任何对象的read()方法。这个字符串可以是URL,有效的URL方案包括http、ftp、s3和文件。可以直接写入"文件名.csv"
header 将行号用作列名,且是数据的开头

获取数据之后,我们可以打印一下数据:print(data),可以看到已经成功读取到csv数据:

在这里插入图片描述

四、分析数据

在这里插入图片描述

如上图所示,数据格式为csv,其中Date表示开盘的日期,Open表示开盘价,High表示当日最高值,Low表示当日最低值,Close表示收盘价格,Adj Close表示调整后的收盘价格,Volume表示当日成交量。我们需要预测的则是Adj Close这一列

我们可以使用pandas读取csv文件,并打印出Adj Close这一列:

import pandas as pd
data = pd.read_csv('DOW.csv',header=0)
data = data.applymap(str)
print(data['Adj Close'])

结果如下,可以看到在道琼斯数据集中,我们需要预测的Adj Close有798行,type为object,我们要做的就是根据数据,使用移动平均算法,预测后面的指数。

在这里插入图片描述

五、移动平均预测

移动平均值,就是指定时间段,对时间序列数据进行移动计算平均值。移动平均值常常用在计算股票的移动平均线、存货成本等方面。移动平均的本质是⼀种低通滤波。它的⽬的是过滤掉时间序列中的⾼频扰动,保留有⽤的低频趋势。计算公式image.png

比如若依次得到测定值image.png,按顺序取一定个数所做的全部算术平均值就是移动平均值,如image.png

panda提供了rolling函数可以用来计算移动平均,使用简单,速度较快:

DataFrame.rolling(window, min_periods=None, freq=None, center=False, win_type=None, on=None, axis=0, closed=None)

参数 用法
window 表示时间窗的大小,注意有两种形式(int or offset)。如果使用int,则数值表示计算统计量的观测值的数量即向前几个数据。如果是offset类型,表示时间窗的大小。
min_periods 最少需要有值的观测点的数量,对于int类型,默认与window相等。对于offset类型,默认为1。
freq 不用管,从0.18版本中已经被舍弃。
win_type 窗口类型,不用管,默认为None一般不特殊指定
on 对于DataFrame如果不使用index(索引)作为rolling的列,那么用on来指定使用哪列。
closed 定义区间的开闭,不用管,新版本中已经被舍弃
axis 方向(轴),一般都是0。
center 是否使用window的中间值作为label,默认为false。只能在window是int时使用。

那么我们使用的简单移动平均直接使用:data['ma5'] = data['Adj Close'].rolling(5).mean(),其表示窗口大小为5的移动平均。计算后,使用matplotlib.pyplot进行画图,横轴为时间,竖轴为预测价格,将其在pyplot 图中打印:

import matplotlib.pyplot as plt
fig = plt.figure(figsize=(16,9))
ax1 = fig.add_subplot(111, ylabel='Price')
data.ma5.plot(ax=ax1, color='plum', lw=2., legend=True)

效果如下:

在这里插入图片描述

我们以同样方法画出多个均线并且和原数据real对比:

data['real'] = data['Adj Close'].rolling(1).mean()
data['ma5'] = data['Adj Close'].rolling(5).mean()
data['ma10'] = data['Adj Close'].rolling(10).mean()
data['ma20'] = data['Adj Close'].rolling(20).mean()
data['ma30'] = data['Adj Close'].rolling(30).mean()
data['ma50'] = data['Adj Close'].rolling(50).mean()
data['ma100'] = data['Adj Close'].rolling(100).mean()
data['ma200'] = data['Adj Close'].rolling(200).mean()
data['ma250'] = data['Adj Close'].rolling(250).mean()
data.tail()
fig = plt.figure(figsize=(16,9))
ax1 = fig.add_subplot(111, ylabel='Price')
data.real.plot(ax=ax1, color='black', lw=2., legend=True)
data.ma5.plot(ax=ax1, color='plum', lw=2., legend=True)
data.ma10.plot(ax=ax1, color='grey', lw=2., legend=True)
data.ma20.plot(ax=ax1, color='salmon', lw=2., legend=True)
data.ma30.plot(ax=ax1, color='goldenrod', lw=2., legend=True)
data.ma50.plot(ax=ax1, color='hotpink', lw=2., legend=True)
data.ma100.plot(ax=ax1, color='khaki', lw=2., legend=True)
data.ma200.plot(ax=ax1, color='bisque', lw=2., legend=True)
data.ma250.plot(ax=ax1, color='skyblue', lw=2., legend=True)
plt.grid()
plt.show()

在这里插入图片描述

可以发现,移动平均存在一定的滞后性,移动平均以滞后性的代价换来了平滑性,滞后性说明由简单移动平均计算得到的低频趋势对近期的最新数据不够敏感。没有未来数据便是滞后的根本原因。当股价不是随着趋势的变化方向,发生突发的方向趋势,移动平均线行动往往过于迟缓,改变方向速度落后于大趋势。这是一个极大弱点

在股价原有趋势发生反转时,由于MA的追踪趋势的特性,MA的行动往往过于迟缓,掉头速度落后于大趋势。这是MA的一个极大的弱点。等MA发出反转信号时,股价调头的深度已经很大了。

附录DOW在不同MA值下的滑动平均值:

在这里插入图片描述

Nasdaq在不同MA值下的滑动平均值:

在这里插入图片描述

S&P在不同MA值下的滑动平均值:

在这里插入图片描述

六、封装函数

我们将其进行封装如下,代码整体如下:

import matplotlib.pyplot as plt
import pandas as pd
import os
def cal_ma(name,data, day):
    data = pd.read_csv(data, header=0)
    data = data.applymap(str)
    # print(data['Date'])
    # print(data['Adj Close'])
    day = int(day)
    data['ma'+str(day)] = data['Adj Close'].rolling(day).mean()
    data.tail()
    fig = plt.figure(figsize=(16, 9))
    ax1 = fig.add_subplot(111, ylabel='Price')
    data['ma'+str(day)].plot(ax=ax1, color='red', lw=2., legend=True)
    plt.rcParams['font.sans-serif'] = ['FangSong']
    plt.title("MA"+str(day)+" about "+name+" data", fontsize=10, loc='center', color='black')
    plt.grid()
    plt.show()
if __name__ == "__main__":
    dataname = input("请输入数据名:")
    day = input("请输入MA的天数:")
    cal_ma(dataname,dataname+'.csv', day)

完整项目已经打包,免费下载:数据挖掘项目——移动平均预测道琼斯、纳斯达克、标准普尔指数

最后

💖 个人简介:人工智能领域研究生,目前主攻文本生成图像(text to image)方向

📝 关注我:中杯可乐多加冰

🔥  限时免费订阅:文本生成图像T2I专栏

🎉 支持我:点赞👍+收藏⭐️+留言📝

如果这篇文章帮助到你很多,希望能点击下方打赏我一杯可乐!多加冰哦

相关文章
|
1月前
|
数据采集 Web App开发 数据可视化
Python零基础爬取东方财富网股票行情数据指南
东方财富网数据稳定、反爬宽松,适合爬虫入门。本文详解使用Python抓取股票行情数据,涵盖请求发送、HTML解析、动态加载处理、代理IP切换及数据可视化,助你快速掌握金融数据爬取技能。
1002 1
|
1月前
|
Java 数据挖掘 数据处理
(Pandas)Python做数据处理必选框架之一!(一):介绍Pandas中的两个数据结构;刨析Series:如何访问数据;数据去重、取众数、总和、标准差、方差、平均值等;判断缺失值、获取索引...
Pandas 是一个开源的数据分析和数据处理库,它是基于 Python 编程语言的。 Pandas 提供了易于使用的数据结构和数据分析工具,特别适用于处理结构化数据,如表格型数据(类似于Excel表格)。 Pandas 是数据科学和分析领域中常用的工具之一,它使得用户能够轻松地从各种数据源中导入数据,并对数据进行高效的操作和分析。 Pandas 主要引入了两种新的数据结构:Series 和 DataFrame。
345 0
|
1月前
|
JSON 算法 API
Python采集淘宝商品评论API接口及JSON数据返回全程指南
Python采集淘宝商品评论API接口及JSON数据返回全程指南
|
2月前
|
数据可视化 搜索推荐 大数据
基于python大数据的北京旅游可视化及分析系统
本文深入探讨智慧旅游系统的背景、意义及研究现状,分析其在旅游业中的作用与发展潜力,介绍平台架构、技术创新、数据挖掘与服务优化等核心内容,并展示系统实现界面。
|
1月前
|
JSON API 数据安全/隐私保护
Python采集淘宝拍立淘按图搜索API接口及JSON数据返回全流程指南
通过以上流程,可实现淘宝拍立淘按图搜索的完整调用链路,并获取结构化的JSON商品数据,支撑电商比价、智能推荐等业务场景。
|
2月前
|
存储 监控 API
Python实战:跨平台电商数据聚合系统的技术实现
本文介绍如何通过标准化API调用协议,实现淘宝、京东、拼多多等电商平台的商品数据自动化采集、清洗与存储。内容涵盖技术架构设计、Python代码示例及高阶应用(如价格监控系统),提供可直接落地的技术方案,帮助开发者解决多平台数据同步难题。
|
2月前
|
数据采集 关系型数据库 MySQL
python爬取数据存入数据库
Python爬虫结合Scrapy与SQLAlchemy,实现高效数据采集并存入MySQL/PostgreSQL/SQLite。通过ORM映射、连接池优化与批量提交,支持百万级数据高速写入,具备良好的可扩展性与稳定性。
|
2月前
|
JSON API 数据安全/隐私保护
Python采集淘宝评论API接口及JSON数据返回全流程指南
Python采集淘宝评论API接口及JSON数据返回全流程指南

推荐镜像

更多