手把手:用Python搭建机器学习模型预测黄金价格

简介:

自古以来,黄金一直作为货币而存在,就是在今天,黄金也具有非常高的储藏价值,那么有没有可能预测出黄金价格的变化趋势呢?

答案是肯定的,让我们使用机器学习中的回归算法来预测世界上贵重金属之一,黄金的价格吧。

我们将建立一个机器学习线性回归模型,它将从黄金ETF (GLD)的历史价格中获取信息,并返回黄金ETF价格在第二天的预测值。

GLD 是最大的以黄金进行直接投资的ETF交易基金。

详见:http://www.etf.com/GLD

在python的开发环境下用机器学习预测黄金价格的步骤:

  • 导入Python库并读取黄金ETF 的数据
  • 定义解释变量
  • 将数据切分为模型训练数据集和测试数据集
  • 建立线性回归模型
  • 预测黄金ETF的价格

导入Python库并读取黄金 ETF 的数据

首先:导入实现此策略所需的所有必要的库(LinearRegression,pandas,numpy,matplotlib,seaborn和fix_yahoo_finance)

# LinearRegression is a machine learning library for linear regression

from sklearn.linear_model import LinearRegression 

# pandas and numpy are used for data manipulation 

import pandas as pd 

import numpy as np 

# matplotlib and seaborn are used for plotting graphs 

import matplotlib.pyplot as plt 

import seaborn 

# fix_yahoo_finance is used to fetch data import fix_yahoo_finance as yf

然后我们读取过去10年间每天黄金ETF的价格数据,并将数据储存在Df中。我们移除那些不相关的变量并使用dropna函数删除NaN值。然后我们绘制出黄金ETF的收盘价格。

# Read data 

Df = yf.download('GLD','2008-01-01','2017-12-31')

# Only keep close columns 

Df=Df[['Close']] 

# Drop rows with missing values 

Df= Df.dropna() 

# Plot the closing price of GLD 

Df.Close.plot(figsize=(10,5)) 

plt.ylabel("Gold ETF Prices")

plt.show()

输出

3b71ae1bff8a7993b5517ac310b1f0562bd7151b

定义解释变量

解释变量是被用来决定第二天黄金ETF价格数值的变量。简单地说,就是我们用来预测黄金ETF价格的特征值。本例中的解释变量是过去3天和9天的价格移动平均值。我们使用dropna()函数删除NaN值,并将特征变量存于X中。

然而,你还可以在X中放入更多你认为对于预测黄金ETF价格有用的变量。这些变量可以是技术指标,也可以是另一种ETF的价格(如黄金矿工ETF (简称GDX)或石油ETF(简称USO))或美国经济数据。

Df['S_3'] = Df['Close'].shift(1).rolling(window=3).mean() 

Df['S_9']= Df['Close'].shift(1).rolling(window=9).mean() 

Df= Df.dropna() 

X = Df[['S_3','S_9']] 

X.head()

输出

26cee3f9195361d773f47112adb32d51942e1427

定义因变量

同样,因变量是取决于解释变量的“被解释变量”。简单地说,在这里就是我们试图预测的黄金ETF价格。我们将黄金ETF的价格赋值为y。

y = Df['Close']

y.head()

输出

将数据切分为模型训练数据集和测试数据集

在此步骤中,我们将预测变量(解释变量)数据和输出(因变量)数据拆分为训练数据集和测试数据集。训练数据用于建立线性回归模型,将输入与预期输出配对。测试数据用于评估模型的训练效果。

851bf1a8c7a4db3bc4fc7eca04ab056e4b96c2ef

  • 前80%的数据用于训练模型,其余的数据用来测试模型。
  • X_train 和y_train是训练数据集。
  • X_test & y_test是测试数据集。
t=.8 

t = int(t*len(Df)) 

# Train dataset 

X_train = X[:t] 

y_train = y[:t]  

# Test dataset 

X_test = X[t:] 

y_test = y[t:]
建立线性回归模型

接下来我们将建立一个线性回归模型。什么是线性回归呢?

如果我们试图捕捉可以最优解释Y观测值的X变量和Y变量之间的数学关系,我们将在X的观测值形成的散点图中去拟合一条线,那么这条线,也就是x和y之间的方程就被称为线性回归分析。

b148a1724d2d41c9748d0c24368241e9becaa4c4

再进一步地说,回归解释了因变量在自变量上的变化。因变量y是你想要预测的变量。自变量x是用来预测因变量的解释变量。下面的回归方程描述了这种关系:

Y = m1 * X1 + m2 * X2 + CGold ETF price = m1 * 3 days moving average + m2 * 15 days moving average + c

然后我们利用拟合方法来拟合自变量和因变量(x和y),从而生成系数和回归常数。

linear = LinearRegression().fit(X_train,y_train) 

print "Gold ETF Price =", round(linear.coef_[0],2), \ 

"* 3 Days Moving Average", round(linear.coef_[1],2), \ 

"* 9 Days Moving Average +", round(linear.intercept_,2)

输出

黄金ETF价格=1.2×3天的移动平均价-0.2×9天的移动平均价+0.39

预测黄金ETF的价格

现在,是时候检查模型是否在测试数据集中有效了。我们使用由训练数据集建立的线性模型来预测黄金ETF的价格。预测模型可以得到给定解释变量X后相应的黄金ETF价格(y)。

predicted_price = linear.predict(X_test)  

predicted_price = pd.DataFrame(predicted_price,index=y_test.index,columns = ['price'])  

predicted_price.plot(figsize=(10,5))  

y_test.plot()  

plt.legend(['predicted_price','actual_price'])  

plt.ylabel("Gold ETF Price")  

plt.show()

输出

29ed1336d864eb6726cdac171696630fa176f94b

图表显示了黄金ETF价格的预测值和实际值(蓝线是预测值,绿线是实际值)。

现在,让我们使用score()函数来计算模型的拟合优度。

r2_score = linear.score(X[t:],y[t:])*100  

float("{0:.2f}".format(r2_score))

可以看出,模型的R²是95.81%。R²总是在0到100%之间。接近100%的分数表明该模型能很好地解释黄金ETF的价格。

祝贺你,你刚刚学会了一种基本而又强大的机器学习技巧。


原文发布时间为:2018-02-16

本文作者:文摘菌

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“大数据文摘”微信公众号

相关文章
|
8天前
|
机器学习/深度学习 数据采集 TensorFlow
使用Python实现智能食品加工优化的深度学习模型
使用Python实现智能食品加工优化的深度学习模型
102 59
|
3天前
|
机器学习/深度学习 数据采集 TensorFlow
使用Python实现智能食品市场预测的深度学习模型
使用Python实现智能食品市场预测的深度学习模型
21 5
|
5天前
|
机器学习/深度学习 算法 数据可视化
使用Python实现深度学习模型:智能食品配送优化
使用Python实现深度学习模型:智能食品配送优化
16 2
|
4天前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
19 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
4天前
|
机器学习/深度学习 人工智能 算法
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
蔬菜识别系统,本系统使用Python作为主要编程语言,通过收集了8种常见的蔬菜图像数据集('土豆', '大白菜', '大葱', '莲藕', '菠菜', '西红柿', '韭菜', '黄瓜'),然后基于TensorFlow搭建卷积神经网络算法模型,通过多轮迭代训练最后得到一个识别精度较高的模型文件。在使用Django开发web网页端操作界面,实现用户上传一张蔬菜图片识别其名称。
20 0
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
|
9天前
|
机器学习/深度学习 数据采集 数据库
使用Python实现智能食品营养分析的深度学习模型
使用Python实现智能食品营养分析的深度学习模型
35 6
|
6天前
|
机器学习/深度学习 数据采集 人工智能
探索机器学习:从理论到Python代码实践
【10月更文挑战第36天】本文将深入浅出地介绍机器学习的基本概念、主要算法及其在Python中的实现。我们将通过实际案例,展示如何使用scikit-learn库进行数据预处理、模型选择和参数调优。无论你是初学者还是有一定基础的开发者,都能从中获得启发和实践指导。
17 2
|
6天前
|
机器学习/深度学习 数据采集 TensorFlow
使用Python实现智能食品储存管理的深度学习模型
使用Python实现智能食品储存管理的深度学习模型
20 2
|
8天前
|
机器学习/深度学习 数据采集 搜索推荐
利用Python和机器学习构建电影推荐系统
利用Python和机器学习构建电影推荐系统
23 1
|
8天前
|
机器学习/深度学习 算法 PyTorch
用Python实现简单机器学习模型:以鸢尾花数据集为例
用Python实现简单机器学习模型:以鸢尾花数据集为例
25 1