Python实现循环神经网络RNN-LSTM回归模型项目实战(股票价格预测)

简介: Python实现循环神经网络RNN-LSTM回归模型项目实战(股票价格预测)

说明:这是一个机器学习实战项目(附带数据+代码+文档+视频讲解),如需数据+代码+文档+视频讲解可以直接到文章最后获取。

image.png

image.png

1.项目背景

金融一直是现代社会非常热门的一个研究方向,随着社会的发展,越来越多的数学方法被应用于金融领域的描述中。我们寄希望于用一种更客观地表达来研究金融。而股票市场作为一个看似门槛极低的金融市场,参与者众多,与利益直接挂钩,是金融市场的一个大热研究方向。 

中国股市于 1989 年开始试运行,自此,开始了中国股市近30年的起起伏伏。中国股市虽相较于美国股市还没有很成熟,但是经过30年的发展,也在逐渐向一个成熟的市场发展。截至2019年,沪深A股交易股票已有3589只,如何在其中筛选出有潜力的股票,或者说如何对股票价格进行短期的预测,这在深度学习日趋兴起的背景下,成为了我们想要尝试解决的一个问题。 

2.数据获取

本次建模数据来源于网络(本项目撰写人整理而成),数据项统计如下

编号 

变量名称

描述

1

date

 

2

open

 

3

high

 

4

low

 

5

close

目标变量

6

volume

 

7

Name

 

数据详情如下(部分展示):

image.png

3.数据预处理

3.1 用Pandas工具查看数据

使用Pandas工具的tail()方法查看后十行数据:

image.png

关键代码:

image.png

3.2查看AAPL公司股票数据的描述性统计分析

使用Pandas工具的describe()方法AAPL公司的描述性统计分析信息:

image.png

从上图可以看到,AAPL公司股票数据开盘价、最高价、最低价、收盘价、成交量的平均值、标准差、最小值、中位数、最大值。

关键代码:

image.png

3.3查看AAPL公司股票数据的摘要信息

通过Pandas工具的info()方法来查看AAPL公司股票数据的摘要信息:

image.png

通过上图可以看到,总共有6个数据项,1259条数据,数据时间范围为2013到2018年,数据中无缺失值。

关键代码如下:

image.png

4.探索性数据分析

4.1 绘制股票收盘价曲线图

用Pandas工具的plot()方法进行绘图,图形如下:

image.png

通过上图可以看到,4家公司的股票收盘价格基本每年呈上升趋势。

4.2 绘制股票成交量曲线图

image.png

从上图中可以看到,每家公司股票的成交量基本都是在一定的范围内进行波动。

4.3 绘制股票收盘价10天、20天、50天累计曲线图

image.png

从上图中可以看到,APPLE公司股票收盘价10天、20天、50天内累计收盘价呈上升趋势,而APPLE公司股票收盘价比较稳定。

关键代码:

image.png

4.4 绘制股票日收益曲线图

image.png

从上图中可以看到,每家股票的日收益都存在一定的波动,同时也说明了股票有风险、入市需谨慎。

关键代码如下:

image.png

4.5 绘制股票日收益直方图

image.png

从上图中可以看到,4家公司的日收益均集中在-0.05-0.05之间。

关键代码:

image.png

4.6 相关性分析

通过Pandas工具的corr()方法进行相关性分析:

image.png

从上图可以看到,除成交量外其它数据项之间相关性比较高。

5.特征工程

5.1 建立特征数据和标签数据

close为标签数据,除 close之外的为特征数据。关键代码如下:

image.png

5.2 数据集拆分

训练集拆分,分为训练集和验证集,70%训练集和30%验证集。关键代码如下:

image.png

5.3 数据归一化

通过MinMaxScaler工具进行数据的归一化,把数据缩放到0-1区间,关键代码如下:

image.png

6.构建LSTM回归模型

Hochreiter 等学者(1997)[21]提出了长短时记忆单元(Long Short-Term Memory,LSTM)用于改进传统的循环神经网络模型(RNN),该模型通过门的开关实现时间上的记忆功能,并反之梯度小时,实验结果表明,LSTM 能有效地解决 RNN 训练时的梯度爆炸和梯度消失问题。2005 年,Alex Graves,Jürgen Schmidhuber[22]提出了使用完全的后向传播方式训练 LSTM 模型,使得LSTM 的实现过程更加可靠。2015 年,Chung 等学者提出了简化版本的LSTM,门控反馈 RNN(GF-RNN)通过允许和控制从上部复现层流向下层的信号,使用每对层的全局选通单元,扩展了堆叠多个复现层的现有方法。层之间交换的递归信号基于先前的隐藏状态和当前输入自适应地选通。相比于传统的神经网络模型。LSTM 神经网络模型对于神经组织的认知过程的模拟更为准确。 

6.1建模

编号

模型名称

参数

1

LSTM回归模型

optimizer='adam'

2

loss='mean_squared_error'

3

metrics=['acc']

关键代码如下:

image.png

6.2查看模型信息

通过模型的summary()方法查看模型的信息,如下图所示:

image.png

通过上图可以看到,模型中有LSTM层、Dense层,模型总参数为117619个。

7.模型评估

7.1评估指标及结果

评估指标主要包括可解释方差值、均方误差、R方值等等。

模型名称

指标名称

指标值

测试集

LSTM回归模型

均方误差

2.91

可解释方差值

1.0

R方

1.0

从上表可以看出,R方100%  可解释方差值100%,LSTM回归模型比较优秀,效果非常好。

关键代码如下:

image.png

7.2 真实值与预测值对比图

image.png

从上图可以看出真实值和预测值波动基本一致,模型拟合效果非常棒。

8.结论与展望

综上所述,本文采用了LSTM回归模型,最终证明了我们提出的模型效果良好。可用于日常金融中股票价格的预测。


# 本次机器学习项目实战所需的资料,项目资源如下:
 
# 项目说明:
 
# 获取方式一:
 
# 项目实战合集导航:
 
https://docs.qq.com/sheet/DTVd0Y2NNQUlWcmd6?tab=BB08J2
 
# 获取方式二:
 
链接:https://pan.baidu.com/s/1KqZQatGhXKBtLBGc8kPbTw 
提取码:l9lk
相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
2月前
|
运维 监控 数据可视化
Python 网络请求架构——统一 SOCKS5 接入与配置管理
通过统一接入端点与标准化认证,集中管理配置、连接策略及监控,实现跨技术栈的一致性网络出口,提升系统稳定性、可维护性与可观测性。
|
2月前
|
机器学习/深度学习 大数据 关系型数据库
基于python大数据的青少年网络使用情况分析及预测系统
本研究基于Python大数据技术,构建青少年网络行为分析系统,旨在破解现有防沉迷模式下用户画像模糊、预警滞后等难题。通过整合多平台亿级数据,运用机器学习实现精准行为预测与实时干预,推动数字治理向“数据驱动”转型,为家庭、学校及政府提供科学决策支持,助力青少年健康上网。
|
2月前
|
机器学习/深度学习 数据采集 人工智能
深度学习实战指南:从神经网络基础到模型优化的完整攻略
🌟 蒋星熠Jaxonic,AI探索者。深耕深度学习,从神经网络到Transformer,用代码践行智能革命。分享实战经验,助你构建CV、NLP模型,共赴二进制星辰大海。
|
3月前
|
机器学习/深度学习 传感器 算法
【无人车路径跟踪】基于神经网络的数据驱动迭代学习控制(ILC)算法,用于具有未知模型和重复任务的非线性单输入单输出(SISO)离散时间系统的无人车的路径跟踪(Matlab代码实现)
【无人车路径跟踪】基于神经网络的数据驱动迭代学习控制(ILC)算法,用于具有未知模型和重复任务的非线性单输入单输出(SISO)离散时间系统的无人车的路径跟踪(Matlab代码实现)
244 2
|
3月前
|
JavaScript Java 大数据
基于python的网络课程在线学习交流系统
本研究聚焦网络课程在线学习交流系统,从社会、技术、教育三方面探讨其发展背景与意义。系统借助Java、Spring Boot、MySQL、Vue等技术实现,融合云计算、大数据与人工智能,推动教育公平与教学模式创新,具有重要理论价值与实践意义。
|
3月前
|
机器学习/深度学习 并行计算 算法
【CPOBP-NSWOA】基于豪冠猪优化BP神经网络模型的多目标鲸鱼寻优算法研究(Matlab代码实现)
【CPOBP-NSWOA】基于豪冠猪优化BP神经网络模型的多目标鲸鱼寻优算法研究(Matlab代码实现)
|
4月前
|
数据采集 存储 数据可视化
Python网络爬虫在环境保护中的应用:污染源监测数据抓取与分析
在环保领域,数据是决策基础,但分散在多个平台,获取困难。Python网络爬虫技术灵活高效,可自动化抓取空气质量、水质、污染源等数据,实现多平台整合、实时更新、结构化存储与异常预警。本文详解爬虫实战应用,涵盖技术选型、代码实现、反爬策略与数据分析,助力环保数据高效利用。
307 0
|
3月前
|
机器学习/深度学习 算法 调度
14种智能算法优化BP神经网络(14种方法)实现数据预测分类研究(Matlab代码实现)
14种智能算法优化BP神经网络(14种方法)实现数据预测分类研究(Matlab代码实现)
384 0
|
2月前
|
机器学习/深度学习 数据采集 存储
概率神经网络的分类预测--基于PNN的变压器故障诊断(Matlab代码实现)
概率神经网络的分类预测--基于PNN的变压器故障诊断(Matlab代码实现)
335 0
|
3月前
|
机器学习/深度学习 缓存 算法
2025年华为杯A题|通用神经网络处理器下的核内调度问题研究生数学建模|思路、代码、论文|持续更新中....
2025年华为杯A题|通用神经网络处理器下的核内调度问题研究生数学建模|思路、代码、论文|持续更新中....
450 1

推荐镜像

更多